Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +31 -13
adapter_model.bin +2 -2
checkpoint-300/README.md +7 -6
checkpoint-300/optimizer.pt +2 -2
checkpoint-300/rng_state.pth +1 -1
checkpoint-300/scheduler.pt +1 -1
checkpoint-300/trainer_state.json +888 -885
checkpoint-300/training_args.bin +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,16 +1,34 @@
 ---
-datasets:
-- yahma/alpaca-cleaned
-language:
-- en
-license: apache-2.0
-tags:
-- pytorch
-- causal-lm
-- llama2
-- fine-tuning
-- alpaca
 ---
-# Llama-2-13b fine-tuned on LoRA alpaca-cleaned

 ---
+library_name: peft
 ---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: True
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: True
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.5.0.dev0
+- PEFT 0.5.0.dev0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e97c31326c925c036c6a23bebeb87b2b240c8a9f474c195749040c6e09879feb
-size 39407821

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

checkpoint-300/README.md CHANGED Viewed

@@ -5,15 +5,16 @@ library_name: peft
 The following `bitsandbytes` quantization config was used during training:
-- load_in_8bit: True
-- load_in_4bit: False
 - llm_int8_threshold: 6.0
 - llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
 - llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: fp4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float32
 ### Framework versions

 The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
 - llm_int8_threshold: 6.0
 - llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: True
 - llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
 ### Framework versions

checkpoint-300/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb5f0344200dca6ae9b113347b56e736eeab03fc504490e51e36ed8fd4ca483f
-size 78844165

 version https://git-lfs.github.com/spec/v1
+oid sha256:be9efd61012bf13cedff400fcbb8a2a70e1d6dfb96b4b9c96b0f2082b4421403
+size 19991557

checkpoint-300/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6ce95605ffdbe9bae7671ddac045840f537281836f2e0bab431da4fb2c0daa6
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d58a2d49c8bd88ae73de10c23b44dda16a3841706f663470cc7b0116797d3b2
 size 14575

checkpoint-300/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9850941e7721c4485c4be6cdc71482f604e4a686e50a540c13dcd9ef580d226b
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:503d141bd03d55a69c94b428e328d3b060b988ace448865bb4b7d17216ac0c68
 size 627

checkpoint-300/trainer_state.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09273570324574962,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -9,1808 +10,1810 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 3.333333333333333e-07,
-      "loss": 1.1201,
       "step": 1
     },
     {
       "epoch": 0.0,
-      "learning_rate": 6.666666666666666e-07,
-      "loss": 1.0439,
       "step": 2
     },
     {
       "epoch": 0.0,
-      "learning_rate": 1e-06,
-      "loss": 1.0928,
       "step": 3
     },
     {
       "epoch": 0.0,
-      "learning_rate": 1.3333333333333332e-06,
-      "loss": 1.2591,
       "step": 4
     },
     {
       "epoch": 0.0,
-      "learning_rate": 1.6666666666666669e-06,
-      "loss": 1.2586,
       "step": 5
     },
     {
       "epoch": 0.0,
-      "learning_rate": 2e-06,
-      "loss": 1.1372,
       "step": 6
     },
     {
       "epoch": 0.0,
-      "learning_rate": 2.3333333333333336e-06,
-      "loss": 1.2434,
       "step": 7
     },
     {
       "epoch": 0.0,
-      "learning_rate": 2.6666666666666664e-06,
-      "loss": 1.2124,
       "step": 8
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 3e-06,
-      "loss": 1.2344,
       "step": 9
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9999125880491853e-06,
-      "loss": 1.2335,
       "step": 10
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9996503623845394e-06,
-      "loss": 1.3104,
       "step": 11
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9992133535682728e-06,
-      "loss": 1.3061,
       "step": 12
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.998601612533441e-06,
-      "loss": 1.2788,
       "step": 13
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9978152105780155e-06,
-      "loss": 1.4151,
       "step": 14
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9968542393565676e-06,
-      "loss": 1.4191,
       "step": 15
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2.9957188108695897e-06,
-      "loss": 1.3953,
       "step": 16
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.99440905745044e-06,
-      "loss": 1.3752,
       "step": 17
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.992925131749921e-06,
-      "loss": 1.4986,
       "step": 18
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.9912672067184863e-06,
-      "loss": 1.5255,
       "step": 19
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.9894354755860847e-06,
-      "loss": 1.5467,
       "step": 20
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.9874301518396377e-06,
-      "loss": 1.5445,
       "step": 21
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.98525146919816e-06,
-      "loss": 1.6161,
       "step": 22
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.982899681585518e-06,
-      "loss": 1.6153,
       "step": 23
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.980375063100836e-06,
-      "loss": 1.5874,
       "step": 24
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9776779079865498e-06,
-      "loss": 1.6868,
       "step": 25
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9748085305941124e-06,
-      "loss": 1.7119,
       "step": 26
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9717672653473587e-06,
-      "loss": 1.7338,
       "step": 27
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9685544667035257e-06,
-      "loss": 1.8348,
       "step": 28
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9651705091119422e-06,
-      "loss": 1.7692,
       "step": 29
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9616157869703894e-06,
-      "loss": 1.7577,
       "step": 30
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.957890714579128e-06,
-      "loss": 1.8723,
       "step": 31
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9539957260926184e-06,
-      "loss": 1.9175,
       "step": 32
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.949931275468917e-06,
-      "loss": 1.9534,
       "step": 33
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9456978364167667e-06,
-      "loss": 2.049,
       "step": 34
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9412959023403906e-06,
-      "loss": 2.0493,
       "step": 35
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9367259862819805e-06,
-      "loss": 2.1604,
       "step": 36
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.931988620861908e-06,
-      "loss": 2.2148,
       "step": 37
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9270843582166428e-06,
-      "loss": 2.2224,
       "step": 38
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9220137699344057e-06,
-      "loss": 2.2689,
       "step": 39
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.9167774469885483e-06,
-      "loss": 2.2726,
       "step": 40
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.911375999668675e-06,
-      "loss": 2.345,
       "step": 41
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.905810057509516e-06,
-      "loss": 2.3685,
       "step": 42
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.900080269217554e-06,
-      "loss": 2.3902,
       "step": 43
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.8941873025954193e-06,
-      "loss": 2.3829,
       "step": 44
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.8881318444640566e-06,
-      "loss": 2.4634,
       "step": 45
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.881914600582677e-06,
-      "loss": 2.5071,
       "step": 46
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.8755362955665014e-06,
-      "loss": 2.5543,
       "step": 47
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2.8689976728023105e-06,
-      "loss": 2.5088,
       "step": 48
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8622994943617984e-06,
-      "loss": 2.5907,
       "step": 49
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.855442540912758e-06,
-      "loss": 2.6968,
       "step": 50
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.848427611628093e-06,
-      "loss": 1.1239,
       "step": 51
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8412555240926745e-06,
-      "loss": 1.1649,
       "step": 52
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8339271142080537e-06,
-      "loss": 1.086,
       "step": 53
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8264432360950353e-06,
-      "loss": 1.1588,
       "step": 54
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8188047619941344e-06,
-      "loss": 1.1331,
       "step": 55
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.8110125821639135e-06,
-      "loss": 1.1617,
       "step": 56
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.803067604777227e-06,
-      "loss": 1.1953,
       "step": 57
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7949707558153703e-06,
-      "loss": 1.1326,
       "step": 58
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7867229789601615e-06,
-      "loss": 1.278,
       "step": 59
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.778325235483954e-06,
-      "loss": 1.1767,
       "step": 60
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7697785041376006e-06,
-      "loss": 1.1836,
       "step": 61
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7610837810363814e-06,
-      "loss": 1.2632,
       "step": 62
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.752242079543907e-06,
-      "loss": 1.2792,
       "step": 63
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.743254430154012e-06,
-      "loss": 1.3675,
       "step": 64
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.734121880370652e-06,
-      "loss": 1.2054,
       "step": 65
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7248454945858163e-06,
-      "loss": 1.3353,
       "step": 66
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7154263539554765e-06,
-      "loss": 1.4393,
       "step": 67
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.7058655562735753e-06,
-      "loss": 1.4269,
       "step": 68
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.696164215844081e-06,
-      "loss": 1.362,
       "step": 69
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.6863234633511186e-06,
-      "loss": 1.4146,
       "step": 70
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.6763444457271836e-06,
-      "loss": 1.4821,
       "step": 71
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.666228326019474e-06,
-      "loss": 1.5489,
       "step": 72
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.655976283254334e-06,
-      "loss": 1.5923,
       "step": 73
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.6455895122998405e-06,
-      "loss": 1.4415,
       "step": 74
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.6350692237265428e-06,
-      "loss": 1.6504,
       "step": 75
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.624416643666371e-06,
-      "loss": 1.5234,
       "step": 76
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.6136330136697304e-06,
-      "loss": 1.5802,
       "step": 77
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.602719590560801e-06,
-      "loss": 1.6365,
       "step": 78
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.591677646291054e-06,
-      "loss": 1.6234,
       "step": 79
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2.58050846779101e-06,
-      "loss": 1.7628,
       "step": 80
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.569213356820244e-06,
-      "loss": 1.9083,
       "step": 81
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.557793629815669e-06,
-      "loss": 1.859,
       "step": 82
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.5462506177381045e-06,
-      "loss": 2.0742,
       "step": 83
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.5345856659171565e-06,
-      "loss": 1.9934,
       "step": 84
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.522800133894418e-06,
-      "loss": 2.0762,
       "step": 85
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.510895395265016e-06,
-      "loss": 2.1801,
       "step": 86
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.498872837517522e-06,
-      "loss": 2.1072,
       "step": 87
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.486733861872236e-06,
-      "loss": 2.2246,
       "step": 88
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.4744798831178817e-06,
-      "loss": 2.2589,
       "step": 89
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.4621123294467098e-06,
-      "loss": 2.2699,
       "step": 90
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.449632642288045e-06,
-      "loss": 2.3417,
       "step": 91
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.437042276140287e-06,
-      "loss": 2.2745,
       "step": 92
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.424342698401391e-06,
-      "loss": 2.3438,
       "step": 93
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.4115353891978432e-06,
-      "loss": 2.324,
       "step": 94
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.398621841212154e-06,
-      "loss": 2.3608,
       "step": 95
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.3856035595088842e-06,
-      "loss": 2.4066,
       "step": 96
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.372482061359234e-06,
-      "loss": 2.4345,
       "step": 97
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.3592588760642046e-06,
-      "loss": 2.4411,
       "step": 98
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.34593554477636e-06,
-      "loss": 2.4336,
       "step": 99
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.332513620320205e-06,
-      "loss": 2.5427,
       "step": 100
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.318994667011207e-06,
-      "loss": 1.0668,
       "step": 101
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.305380260473476e-06,
-      "loss": 1.1508,
       "step": 102
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.2916719874561227e-06,
-      "loss": 1.1392,
       "step": 103
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.277871445648332e-06,
-      "loss": 1.1332,
       "step": 104
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.2639802434931445e-06,
-      "loss": 1.1816,
       "step": 105
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.25e-06,
-      "loss": 1.1044,
       "step": 106
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.2359323445560408e-06,
-      "loss": 1.0874,
       "step": 107
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.221778916736208e-06,
-      "loss": 1.1705,
       "step": 108
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.2075413661121492e-06,
-      "loss": 1.1666,
       "step": 109
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.1932213520599652e-06,
-      "loss": 1.2341,
       "step": 110
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.1788205435668085e-06,
-      "loss": 1.267,
       "step": 111
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.1643406190363625e-06,
-      "loss": 1.293,
       "step": 112
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 2.1497832660932298e-06,
-      "loss": 1.3119,
       "step": 113
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.135150181386236e-06,
-      "loss": 1.3284,
       "step": 114
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.1204430703906874e-06,
-      "loss": 1.2481,
       "step": 115
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.1056636472096025e-06,
-      "loss": 1.2963,
       "step": 116
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.090813634373931e-06,
-      "loss": 1.2788,
       "step": 117
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0758947626417945e-06,
-      "loss": 1.4015,
       "step": 118
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.060908770796769e-06,
-      "loss": 1.4401,
       "step": 119
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0458574054452316e-06,
-      "loss": 1.5218,
       "step": 120
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0307424208127912e-06,
-      "loss": 1.547,
       "step": 121
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0155655785398396e-06,
-      "loss": 1.5848,
       "step": 122
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.000328647476231e-06,
-      "loss": 1.5504,
       "step": 123
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.985033403475123e-06,
-      "loss": 1.5956,
       "step": 124
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.969681629186004e-06,
-      "loss": 1.5685,
       "step": 125
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.954275113846926e-06,
-      "loss": 1.6568,
       "step": 126
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.9388156530759715e-06,
-      "loss": 1.7607,
       "step": 127
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.9233050486619715e-06,
-      "loss": 1.7214,
       "step": 128
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.9077451083545143e-06,
-      "loss": 1.6867,
       "step": 129
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.8921376456532485e-06,
-      "loss": 1.7445,
       "step": 130
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.8764844795965232e-06,
-      "loss": 1.8066,
       "step": 131
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.8607874345493807e-06,
-      "loss": 1.881,
       "step": 132
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.8450483399909265e-06,
-      "loss": 1.9269,
       "step": 133
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.8292690303011076e-06,
-      "loss": 2.0067,
       "step": 134
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.813451344546913e-06,
-      "loss": 2.0112,
       "step": 135
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7975971262680348e-06,
-      "loss": 2.0712,
       "step": 136
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7817082232620054e-06,
-      "loss": 2.0998,
       "step": 137
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7657864873688345e-06,
-      "loss": 2.0603,
       "step": 138
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7498337742551817e-06,
-      "loss": 2.1719,
       "step": 139
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7338519431980798e-06,
-      "loss": 2.103,
       "step": 140
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.7178428568682356e-06,
-      "loss": 2.233,
       "step": 141
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.701808381112938e-06,
-      "loss": 2.2755,
       "step": 142
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.6857503847385956e-06,
-      "loss": 2.2513,
       "step": 143
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.6696707392929268e-06,
-      "loss": 2.2176,
       "step": 144
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.653571318846834e-06,
-      "loss": 2.2541,
       "step": 145
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.6374539997759822e-06,
-      "loss": 2.2916,
       "step": 146
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.6213206605421064e-06,
-      "loss": 2.3988,
       "step": 147
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.605173181474081e-06,
-      "loss": 2.3258,
       "step": 148
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5890134445487679e-06,
-      "loss": 2.389,
       "step": 149
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5728433331716726e-06,
-      "loss": 2.5375,
       "step": 150
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5566647319574351e-06,
-      "loss": 1.0571,
       "step": 151
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5404795265101808e-06,
-      "loss": 1.0796,
       "step": 152
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5242896032037523e-06,
-      "loss": 1.0492,
       "step": 153
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.5080968489618567e-06,
-      "loss": 1.0444,
       "step": 154
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.4919031510381438e-06,
-      "loss": 1.0879,
       "step": 155
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.4757103967962477e-06,
-      "loss": 1.1583,
       "step": 156
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.4595204734898199e-06,
-      "loss": 1.2424,
       "step": 157
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.4433352680425654e-06,
-      "loss": 1.213,
       "step": 158
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.4271566668283281e-06,
-      "loss": 1.1966,
       "step": 159
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.410986555451232e-06,
-      "loss": 1.2829,
       "step": 160
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.3948268185259188e-06,
-      "loss": 1.235,
       "step": 161
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.3786793394578939e-06,
-      "loss": 1.2561,
       "step": 162
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.362546000224018e-06,
-      "loss": 1.2367,
       "step": 163
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.3464286811531663e-06,
-      "loss": 1.2332,
       "step": 164
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.3303292607070737e-06,
-      "loss": 1.3269,
       "step": 165
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.314249615261405e-06,
-      "loss": 1.3558,
       "step": 166
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.2981916188870622e-06,
-      "loss": 1.349,
       "step": 167
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.282157143131765e-06,
-      "loss": 1.328,
       "step": 168
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.2661480568019203e-06,
-      "loss": 1.4605,
       "step": 169
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.2501662257448184e-06,
-      "loss": 1.4983,
       "step": 170
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.234213512631166e-06,
-      "loss": 1.4655,
       "step": 171
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.218291776737995e-06,
-      "loss": 1.5223,
       "step": 172
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.2024028737319653e-06,
-      "loss": 1.5357,
       "step": 173
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.1865486554530874e-06,
-      "loss": 1.5622,
       "step": 174
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.170730969698893e-06,
-      "loss": 1.613,
       "step": 175
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.154951660009074e-06,
-      "loss": 1.5815,
       "step": 176
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 1.13921256545062e-06,
-      "loss": 1.585,
       "step": 177
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.1235155204034768e-06,
-      "loss": 1.7356,
       "step": 178
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.1078623543467518e-06,
-      "loss": 1.642,
       "step": 179
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.0922548916454855e-06,
-      "loss": 1.7566,
       "step": 180
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.0766949513380286e-06,
-      "loss": 1.7018,
       "step": 181
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.061184346924029e-06,
-      "loss": 1.8531,
       "step": 182
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.0457248861530742e-06,
-      "loss": 1.8846,
       "step": 183
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.0303183708139966e-06,
-      "loss": 1.8961,
       "step": 184
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 1.0149665965248775e-06,
-      "loss": 1.8999,
       "step": 185
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.996713525237694e-07,
-      "loss": 1.9636,
       "step": 186
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.8443442146016e-07,
-      "loss": 2.0039,
       "step": 187
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.69257579187209e-07,
-      "loss": 2.0982,
       "step": 188
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.54142594554769e-07,
-      "loss": 2.0402,
       "step": 189
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.39091229203231e-07,
-      "loss": 2.1466,
       "step": 190
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.241052373582058e-07,
-      "loss": 2.1888,
       "step": 191
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 9.091863656260696e-07,
-      "loss": 2.1426,
       "step": 192
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.943363527903977e-07,
-      "loss": 2.1605,
       "step": 193
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.795569296093133e-07,
-      "loss": 2.2008,
       "step": 194
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.648498186137653e-07,
-      "loss": 2.2754,
       "step": 195
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.502167339067705e-07,
-      "loss": 2.2318,
       "step": 196
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.356593809636371e-07,
-      "loss": 2.3144,
       "step": 197
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.211794564331918e-07,
-      "loss": 2.3606,
       "step": 198
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 8.067786479400346e-07,
-      "loss": 2.3714,
       "step": 199
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.924586338878512e-07,
-      "loss": 2.3866,
       "step": 200
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.782210832637924e-07,
-      "loss": 1.0666,
       "step": 201
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.640676554439594e-07,
-      "loss": 1.1337,
       "step": 202
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.500000000000003e-07,
-      "loss": 1.0069,
       "step": 203
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.360197565068561e-07,
-      "loss": 1.0938,
       "step": 204
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.22128554351668e-07,
-      "loss": 1.1479,
       "step": 205
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 7.083280125438766e-07,
-      "loss": 1.136,
       "step": 206
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 6.946197395265243e-07,
-      "loss": 1.1862,
       "step": 207
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 6.810053329887929e-07,
-      "loss": 1.1319,
       "step": 208
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 6.674863796797954e-07,
-      "loss": 1.1757,
       "step": 209
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 6.540644552236401e-07,
-      "loss": 1.262,
       "step": 210
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 6.407411239357954e-07,
-      "loss": 1.222,
       "step": 211
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 6.275179386407663e-07,
-      "loss": 1.2991,
       "step": 212
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 6.143964404911165e-07,
-      "loss": 1.2677,
       "step": 213
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 6.013781587878464e-07,
-      "loss": 1.2905,
       "step": 214
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.884646108021563e-07,
-      "loss": 1.1892,
       "step": 215
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.756573015986089e-07,
-      "loss": 1.2595,
       "step": 216
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.629577238597132e-07,
-      "loss": 1.267,
       "step": 217
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.503673577119552e-07,
-      "loss": 1.3492,
       "step": 218
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.378876705532904e-07,
-      "loss": 1.357,
       "step": 219
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.255201168821183e-07,
-      "loss": 1.4069,
       "step": 220
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.132661381277644e-07,
-      "loss": 1.3945,
       "step": 221
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.011271624824787e-07,
-      "loss": 1.4184,
       "step": 222
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.891046047349837e-07,
-      "loss": 1.51,
       "step": 223
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.771998661055823e-07,
-      "loss": 1.6056,
       "step": 224
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.6541433408284356e-07,
-      "loss": 1.5254,
       "step": 225
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.5374938226189584e-07,
-      "loss": 1.4541,
       "step": 226
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.4220637018433163e-07,
-      "loss": 1.5449,
       "step": 227
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.3078664317975654e-07,
-      "loss": 1.6804,
       "step": 228
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.1949153220898987e-07,
-      "loss": 1.6257,
       "step": 229
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 4.0832235370894604e-07,
-      "loss": 1.656,
       "step": 230
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.972804094391998e-07,
-      "loss": 1.8701,
       "step": 231
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.863669863302698e-07,
-      "loss": 1.7619,
       "step": 232
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.755833563336293e-07,
-      "loss": 1.8791,
       "step": 233
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.64930776273457e-07,
-      "loss": 1.9227,
       "step": 234
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.544104877001596e-07,
-      "loss": 1.9138,
       "step": 235
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.440237167456663e-07,
-      "loss": 2.0062,
       "step": 236
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.337716739805264e-07,
-      "loss": 2.0386,
       "step": 237
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.2365555427281634e-07,
-      "loss": 2.0127,
       "step": 238
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.1367653664888173e-07,
-      "loss": 2.0965,
       "step": 239
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.0383578415591913e-07,
-      "loss": 2.1195,
       "step": 240
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 2.9413444372642496e-07,
-      "loss": 2.097,
       "step": 241
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 2.8457364604452376e-07,
-      "loss": 2.2226,
       "step": 242
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.751545054141834e-07,
-      "loss": 2.1617,
       "step": 243
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.6587811962934823e-07,
-      "loss": 2.1102,
       "step": 244
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.567455698459882e-07,
-      "loss": 2.1771,
       "step": 245
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.4775792045609353e-07,
-      "loss": 2.1973,
       "step": 246
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.389162189636188e-07,
-      "loss": 2.2832,
       "step": 247
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.3022149586239972e-07,
-      "loss": 2.1945,
       "step": 248
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.2167476451604624e-07,
-      "loss": 2.3652,
       "step": 249
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.1327702103983864e-07,
-      "loss": 2.4325,
       "step": 250
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 2.0502924418463014e-07,
-      "loss": 1.069,
       "step": 251
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.9693239522277327e-07,
-      "loss": 1.1529,
       "step": 252
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.8898741783608642e-07,
-      "loss": 1.0939,
       "step": 253
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.811952380058657e-07,
-      "loss": 1.1747,
       "step": 254
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.7355676390496482e-07,
-      "loss": 1.1416,
       "step": 255
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.660728857919464e-07,
-      "loss": 1.1001,
       "step": 256
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.5874447590732537e-07,
-      "loss": 1.1736,
       "step": 257
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.5157238837190719e-07,
-      "loss": 1.1635,
       "step": 258
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.4455745908724226e-07,
-      "loss": 1.1446,
       "step": 259
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.377005056382018e-07,
-      "loss": 1.2487,
       "step": 260
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.3100232719768996e-07,
-      "loss": 1.2044,
       "step": 261
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.2446370443349863e-07,
-      "loss": 1.313,
       "step": 262
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.180853994173236e-07,
-      "loss": 1.2448,
       "step": 263
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.1186815553594382e-07,
-      "loss": 1.2088,
       "step": 264
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 1.058126974045811e-07,
-      "loss": 1.3052,
       "step": 265
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.991973078244638e-08,
-      "loss": 1.2762,
       "step": 266
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 9.418994249048474e-08,
-      "loss": 1.3319,
       "step": 267
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 8.862400033132573e-08,
-      "loss": 1.3724,
       "step": 268
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 8.322255301145204e-08,
-      "loss": 1.3288,
       "step": 269
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 7.798623006559436e-08,
-      "loss": 1.3914,
       "step": 270
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 7.291564178335719e-08,
-      "loss": 1.3964,
       "step": 271
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 6.801137913809214e-08,
-      "loss": 1.4659,
       "step": 272
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 6.327401371801944e-08,
-      "loss": 1.5826,
       "step": 273
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 5.870409765960966e-08,
-      "loss": 1.514,
       "step": 274
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 5.430216358323309e-08,
-      "loss": 1.569,
       "step": 275
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 5.00687245310833e-08,
-      "loss": 1.5725,
       "step": 276
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 4.60042739073816e-08,
-      "loss": 1.5446,
       "step": 277
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 4.2109285420872055e-08,
-      "loss": 1.6477,
       "step": 278
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 3.838421302961098e-08,
-      "loss": 1.784,
       "step": 279
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 3.4829490888057424e-08,
-      "loss": 1.6312,
       "step": 280
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 3.1445533296474484e-08,
-      "loss": 1.6294,
       "step": 281
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 2.8232734652641424e-08,
-      "loss": 1.66,
       "step": 282
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 2.5191469405887625e-08,
-      "loss": 1.767,
       "step": 283
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 2.2322092013450313e-08,
-      "loss": 1.8148,
       "step": 284
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.962493689916395e-08,
-      "loss": 1.8453,
       "step": 285
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.7100318414482063e-08,
-      "loss": 1.848,
       "step": 286
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.4748530801840076e-08,
-      "loss": 1.9895,
       "step": 287
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.2569848160362384e-08,
-      "loss": 1.9292,
       "step": 288
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.0564524413915422e-08,
-      "loss": 1.9817,
       "step": 289
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 8.732793281513663e-09,
-      "loss": 2.0912,
       "step": 290
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 7.074868250079081e-09,
-      "loss": 2.1077,
       "step": 291
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 5.590942549560052e-09,
-      "loss": 2.1071,
       "step": 292
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 4.2811891304105345e-09,
-      "loss": 2.2567,
       "step": 293
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 3.145760643432527e-09,
-      "loss": 2.1001,
       "step": 294
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 2.1847894219846343e-09,
-      "loss": 2.177,
       "step": 295
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.3983874665589035e-09,
-      "loss": 2.1568,
       "step": 296
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 7.866464317276001e-10,
-      "loss": 2.1978,
       "step": 297
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 3.496376154604186e-10,
-      "loss": 2.2076,
       "step": 298
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 8.741195081479747e-11,
-      "loss": 2.3157,
       "step": 299
     },
     {
-      "epoch": 0.09,
       "learning_rate": 0.0,
-      "loss": 2.4273,
       "step": 300
     }
   ],
   "max_steps": 300,
   "num_train_epochs": 1,
-  "total_flos": 8.932835919101952e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.18547140649149924,
+  "eval_steps": 500,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.333333333333333e-05,
+      "loss": 1.1619,
       "step": 1
     },
     {
       "epoch": 0.0,
+      "learning_rate": 6.666666666666666e-05,
+      "loss": 1.1173,
       "step": 2
     },
     {
       "epoch": 0.0,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 1.1862,
       "step": 3
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0001333333333333333,
+      "loss": 1.243,
       "step": 4
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 1.2164,
       "step": 5
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 1.1963,
       "step": 6
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0002333333333333333,
+      "loss": 1.19,
       "step": 7
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0002666666666666666,
+      "loss": 1.1195,
       "step": 8
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0003,
+      "loss": 1.1389,
       "step": 9
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.00029999125880491846,
+      "loss": 1.0748,
       "step": 10
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.00029996503623845393,
+      "loss": 1.0508,
       "step": 11
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.00029992133535682725,
+      "loss": 0.9739,
       "step": 12
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.00029986016125334406,
+      "loss": 0.9708,
       "step": 13
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0002997815210578015,
+      "loss": 0.9641,
       "step": 14
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0002996854239356567,
+      "loss": 0.8698,
       "step": 15
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0002995718810869589,
+      "loss": 0.9405,
       "step": 16
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00029944090574504395,
+      "loss": 0.9377,
       "step": 17
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0002992925131749921,
+      "loss": 0.8775,
       "step": 18
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0002991267206718486,
+      "loss": 0.8682,
       "step": 19
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00029894354755860845,
+      "loss": 0.8541,
       "step": 20
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00029874301518396376,
+      "loss": 0.8653,
       "step": 21
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.000298525146919816,
+      "loss": 0.9036,
       "step": 22
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0002982899681585518,
+      "loss": 0.8277,
       "step": 23
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.00029803750631008356,
+      "loss": 0.8784,
       "step": 24
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029776779079865496,
+      "loss": 0.7871,
       "step": 25
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029748085305941123,
+      "loss": 0.8347,
       "step": 26
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002971767265347358,
+      "loss": 0.8515,
       "step": 27
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002968554466703525,
+      "loss": 0.7445,
       "step": 28
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002965170509111942,
+      "loss": 0.7724,
       "step": 29
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002961615786970389,
+      "loss": 0.8284,
       "step": 30
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029578907145791274,
+      "loss": 0.8293,
       "step": 31
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029539957260926183,
+      "loss": 0.7876,
       "step": 32
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002949931275468917,
+      "loss": 0.7748,
       "step": 33
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002945697836416767,
+      "loss": 0.7591,
       "step": 34
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.000294129590234039,
+      "loss": 0.73,
       "step": 35
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029367259862819804,
+      "loss": 0.7324,
       "step": 36
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029319886208619073,
+      "loss": 0.7659,
       "step": 37
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029270843582166427,
+      "loss": 0.7069,
       "step": 38
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.00029220137699344055,
+      "loss": 0.7087,
       "step": 39
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 0.0002916777446988548,
+      "loss": 0.6674,
       "step": 40
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00029113759996686743,
+      "loss": 0.5521,
       "step": 41
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002905810057509515,
+      "loss": 0.6268,
       "step": 42
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00029000802692175537,
+      "loss": 0.666,
       "step": 43
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002894187302595419,
+      "loss": 0.6509,
       "step": 44
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002888131844464056,
+      "loss": 0.5752,
       "step": 45
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002881914600582676,
+      "loss": 0.5702,
       "step": 46
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002875536295566501,
+      "loss": 0.5882,
       "step": 47
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.000286899767280231,
+      "loss": 0.5374,
       "step": 48
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002862299494361798,
+      "loss": 0.4725,
       "step": 49
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002855442540912758,
+      "loss": 0.4424,
       "step": 50
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00028484276116280926,
+      "loss": 0.9098,
       "step": 51
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002841255524092674,
+      "loss": 0.8235,
       "step": 52
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00028339271142080534,
+      "loss": 0.8614,
       "step": 53
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00028264432360950353,
+      "loss": 0.8358,
       "step": 54
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.00028188047619941343,
+      "loss": 0.8151,
       "step": 55
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 0.0002811012582163913,
+      "loss": 0.8758,
       "step": 56
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.00028030676047772265,
+      "loss": 0.8098,
       "step": 57
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.000279497075581537,
+      "loss": 0.8003,
       "step": 58
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002786722978960161,
+      "loss": 0.7646,
       "step": 59
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002778325235483954,
+      "loss": 0.7734,
       "step": 60
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.00027697785041376006,
+      "loss": 0.7807,
       "step": 61
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002761083781036381,
+      "loss": 0.8398,
       "step": 62
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.00027522420795439065,
+      "loss": 0.7767,
       "step": 63
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002743254430154012,
+      "loss": 0.8138,
       "step": 64
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002734121880370652,
+      "loss": 0.7638,
       "step": 65
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002724845494585816,
+      "loss": 0.8572,
       "step": 66
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002715426353955476,
+      "loss": 0.8552,
       "step": 67
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002705865556273575,
+      "loss": 0.7779,
       "step": 68
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002696164215844081,
+      "loss": 0.8717,
       "step": 69
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.00026863234633511183,
+      "loss": 0.8209,
       "step": 70
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.00026763444457271837,
+      "loss": 0.8173,
       "step": 71
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 0.0002666228326019474,
+      "loss": 0.8009,
       "step": 72
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00026559762832543336,
+      "loss": 0.8182,
       "step": 73
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.000264558951229984,
+      "loss": 0.8317,
       "step": 74
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00026350692237265427,
+      "loss": 0.7987,
       "step": 75
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002624416643666371,
+      "loss": 0.7929,
       "step": 76
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.000261363301366973,
+      "loss": 0.7416,
       "step": 77
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00026027195905608006,
+      "loss": 0.799,
       "step": 78
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002591677646291054,
+      "loss": 0.7643,
       "step": 79
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00025805084677910095,
+      "loss": 0.7045,
       "step": 80
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002569213356820244,
+      "loss": 0.7651,
       "step": 81
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002557793629815669,
+      "loss": 0.727,
       "step": 82
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00025462506177381043,
+      "loss": 0.7623,
       "step": 83
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00025345856659171563,
+      "loss": 0.7209,
       "step": 84
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00025228001338944175,
+      "loss": 0.7104,
       "step": 85
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.0002510895395265016,
+      "loss": 0.6989,
       "step": 86
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00024988728375175214,
+      "loss": 0.7347,
       "step": 87
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 0.00024867338618722357,
+      "loss": 0.6649,
       "step": 88
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.0002474479883117882,
+      "loss": 0.6432,
       "step": 89
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00024621123294467096,
+      "loss": 0.6257,
       "step": 90
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.0002449632642288045,
+      "loss": 0.5743,
       "step": 91
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00024370422761402867,
+      "loss": 0.6499,
       "step": 92
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.0002424342698401391,
+      "loss": 0.5454,
       "step": 93
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00024115353891978431,
+      "loss": 0.561,
       "step": 94
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023986218412121537,
+      "loss": 0.6056,
       "step": 95
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023856035595088839,
+      "loss": 0.518,
       "step": 96
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023724820613592337,
+      "loss": 0.5195,
       "step": 97
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023592588760642044,
+      "loss": 0.5386,
       "step": 98
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023459355447763596,
+      "loss": 0.4816,
       "step": 99
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023325136203202049,
+      "loss": 0.3958,
       "step": 100
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023189946670112069,
+      "loss": 0.7837,
       "step": 101
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00023053802604734757,
+      "loss": 0.8046,
       "step": 102
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00022916719874561226,
+      "loss": 0.8202,
       "step": 103
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.0002277871445648332,
+      "loss": 0.8035,
       "step": 104
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 0.00022639802434931444,
+      "loss": 0.8827,
       "step": 105
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.000225,
+      "loss": 0.7623,
       "step": 106
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00022359323445560406,
+      "loss": 0.8376,
       "step": 107
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00022217789167362073,
+      "loss": 0.8254,
       "step": 108
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00022075413661121492,
+      "loss": 0.8591,
       "step": 109
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021932213520599653,
+      "loss": 0.77,
       "step": 110
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021788205435668083,
+      "loss": 0.8327,
       "step": 111
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021643406190363624,
+      "loss": 0.8196,
       "step": 112
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021497832660932295,
+      "loss": 0.7589,
       "step": 113
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021351501813862356,
+      "loss": 0.8008,
       "step": 114
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.0002120443070390687,
+      "loss": 0.7663,
       "step": 115
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00021056636472096025,
+      "loss": 0.8268,
       "step": 116
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00020908136343739307,
+      "loss": 0.7696,
       "step": 117
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00020758947626417943,
+      "loss": 0.8556,
       "step": 118
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.0002060908770796769,
+      "loss": 0.8164,
       "step": 119
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00020458574054452313,
+      "loss": 0.8059,
       "step": 120
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 0.00020307424208127912,
+      "loss": 0.8276,
       "step": 121
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00020155655785398393,
+      "loss": 0.7899,
       "step": 122
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.0002000328647476231,
+      "loss": 0.7504,
       "step": 123
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00019850334034751226,
+      "loss": 0.8724,
       "step": 124
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00019696816291860038,
+      "loss": 0.8076,
       "step": 125
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.0001954275113846926,
+      "loss": 0.7999,
       "step": 126
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00019388156530759712,
+      "loss": 0.7523,
       "step": 127
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00019233050486619713,
+      "loss": 0.7789,
       "step": 128
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.0001907745108354514,
+      "loss": 0.7342,
       "step": 129
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018921376456532482,
+      "loss": 0.7801,
       "step": 130
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018764844795965229,
+      "loss": 0.7579,
       "step": 131
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018607874345493805,
+      "loss": 0.6844,
       "step": 132
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018450483399909263,
+      "loss": 0.7052,
       "step": 133
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018292690303011076,
+      "loss": 0.6515,
       "step": 134
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00018134513445469127,
+      "loss": 0.6846,
       "step": 135
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00017975971262680347,
+      "loss": 0.6469,
       "step": 136
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00017817082232620052,
+      "loss": 0.6703,
       "step": 137
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017657864873688343,
+      "loss": 0.6966,
       "step": 138
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017498337742551817,
+      "loss": 0.6274,
       "step": 139
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017338519431980796,
+      "loss": 0.6189,
       "step": 140
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00017178428568682353,
+      "loss": 0.6881,
       "step": 141
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0001701808381112938,
+      "loss": 0.6194,
       "step": 142
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00016857503847385953,
+      "loss": 0.5674,
       "step": 143
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00016696707392929266,
+      "loss": 0.5878,
       "step": 144
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0001653571318846834,
+      "loss": 0.5229,
       "step": 145
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00016374539997759821,
+      "loss": 0.535,
       "step": 146
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00016213206605421063,
+      "loss": 0.4889,
       "step": 147
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0001605173181474081,
+      "loss": 0.5009,
       "step": 148
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00015890134445487676,
+      "loss": 0.4467,
       "step": 149
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00015728433331716724,
+      "loss": 0.4275,
       "step": 150
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.0001556664731957435,
+      "loss": 0.7781,
       "step": 151
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00015404795265101806,
+      "loss": 0.8081,
       "step": 152
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 0.00015242896032037522,
+      "loss": 0.8014,
       "step": 153
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00015080968489618565,
+      "loss": 0.8031,
       "step": 154
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00014919031510381435,
+      "loss": 0.8138,
       "step": 155
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00014757103967962475,
+      "loss": 0.7578,
       "step": 156
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00014595204734898197,
+      "loss": 0.8272,
       "step": 157
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0001443335268042565,
+      "loss": 0.809,
       "step": 158
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0001427156666828328,
+      "loss": 0.8103,
       "step": 159
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00014109865554512319,
+      "loss": 0.7904,
       "step": 160
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00013948268185259188,
+      "loss": 0.7967,
       "step": 161
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00013786793394578937,
+      "loss": 0.8111,
       "step": 162
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0001362546000224018,
+      "loss": 0.787,
       "step": 163
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00013464286811531661,
+      "loss": 0.8282,
       "step": 164
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00013303292607070737,
+      "loss": 0.7792,
       "step": 165
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0001314249615261405,
+      "loss": 0.7955,
       "step": 166
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.0001298191618887062,
+      "loss": 0.7874,
       "step": 167
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00012821571431317647,
+      "loss": 0.7637,
       "step": 168
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 0.00012661480568019201,
+      "loss": 0.7641,
       "step": 169
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.0001250166225744818,
+      "loss": 0.8431,
       "step": 170
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.0001234213512631166,
+      "loss": 0.8353,
       "step": 171
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00012182917767379948,
+      "loss": 0.7732,
       "step": 172
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00012024028737319652,
+      "loss": 0.789,
       "step": 173
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00011865486554530873,
+      "loss": 0.7473,
       "step": 174
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.0001170730969698893,
+      "loss": 0.8313,
       "step": 175
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00011549516600090737,
+      "loss": 0.855,
       "step": 176
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00011392125654506198,
+      "loss": 0.7981,
       "step": 177
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00011235155204034767,
+      "loss": 0.7148,
       "step": 178
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00011078623543467518,
+      "loss": 0.7012,
       "step": 179
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010922548916454855,
+      "loss": 0.7313,
       "step": 180
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010766949513380284,
+      "loss": 0.6691,
       "step": 181
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010611843469240288,
+      "loss": 0.658,
       "step": 182
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010457248861530741,
+      "loss": 0.7276,
       "step": 183
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010303183708139964,
+      "loss": 0.732,
       "step": 184
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 0.00010149665965248775,
+      "loss": 0.6751,
       "step": 185
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 9.996713525237694e-05,
+      "loss": 0.6968,
       "step": 186
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.8443442146016e-05,
+      "loss": 0.6131,
       "step": 187
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.692575791872089e-05,
+      "loss": 0.6497,
       "step": 188
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.541425945547687e-05,
+      "loss": 0.5895,
       "step": 189
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.390912292032309e-05,
+      "loss": 0.6346,
       "step": 190
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.241052373582057e-05,
+      "loss": 0.5706,
       "step": 191
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 9.091863656260695e-05,
+      "loss": 0.5917,
       "step": 192
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.943363527903976e-05,
+      "loss": 0.5934,
       "step": 193
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.795569296093132e-05,
+      "loss": 0.5427,
       "step": 194
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.648498186137653e-05,
+      "loss": 0.5419,
       "step": 195
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.502167339067705e-05,
+      "loss": 0.5431,
       "step": 196
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.356593809636371e-05,
+      "loss": 0.4831,
       "step": 197
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.211794564331917e-05,
+      "loss": 0.5207,
       "step": 198
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 8.067786479400346e-05,
+      "loss": 0.4644,
       "step": 199
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.924586338878511e-05,
+      "loss": 0.5012,
       "step": 200
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.782210832637923e-05,
+      "loss": 0.7555,
       "step": 201
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 7.640676554439594e-05,
+      "loss": 0.7989,
       "step": 202
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 7.500000000000002e-05,
+      "loss": 0.7734,
       "step": 203
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 7.36019756506856e-05,
+      "loss": 0.7744,
       "step": 204
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 7.22128554351668e-05,
+      "loss": 0.768,
       "step": 205
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 7.083280125438766e-05,
+      "loss": 0.775,
       "step": 206
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.946197395265242e-05,
+      "loss": 0.8156,
       "step": 207
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.810053329887928e-05,
+      "loss": 0.7672,
       "step": 208
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.674863796797953e-05,
+      "loss": 0.8119,
       "step": 209
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.540644552236401e-05,
+      "loss": 0.8254,
       "step": 210
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.407411239357953e-05,
+      "loss": 0.7838,
       "step": 211
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.275179386407663e-05,
+      "loss": 0.7809,
       "step": 212
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.143964404911164e-05,
+      "loss": 0.7387,
       "step": 213
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.013781587878463e-05,
+      "loss": 0.7791,
       "step": 214
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 5.8846461080215626e-05,
+      "loss": 0.8441,
       "step": 215
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 5.756573015986089e-05,
+      "loss": 0.8518,
       "step": 216
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 5.629577238597132e-05,
+      "loss": 0.7721,
       "step": 217
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 5.503673577119552e-05,
+      "loss": 0.7412,
       "step": 218
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 5.378876705532904e-05,
+      "loss": 0.8937,
       "step": 219
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 5.2552011688211835e-05,
+      "loss": 0.823,
       "step": 220
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 5.1326613812776434e-05,
+      "loss": 0.7921,
       "step": 221
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 5.011271624824786e-05,
+      "loss": 0.7972,
       "step": 222
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.891046047349837e-05,
+      "loss": 0.8309,
       "step": 223
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.7719986610558234e-05,
+      "loss": 0.7832,
       "step": 224
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.654143340828435e-05,
+      "loss": 0.7451,
       "step": 225
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.537493822618958e-05,
+      "loss": 0.8234,
       "step": 226
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.422063701843316e-05,
+      "loss": 0.7882,
       "step": 227
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.3078664317975646e-05,
+      "loss": 0.8251,
       "step": 228
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.194915322089898e-05,
+      "loss": 0.8103,
       "step": 229
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.08322353708946e-05,
+      "loss": 0.7449,
       "step": 230
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 3.972804094391998e-05,
+      "loss": 0.75,
       "step": 231
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 3.863669863302697e-05,
+      "loss": 0.7377,
       "step": 232
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 3.755833563336293e-05,
+      "loss": 0.7428,
       "step": 233
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 3.64930776273457e-05,
+      "loss": 0.7281,
       "step": 234
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.5441048770015954e-05,
+      "loss": 0.676,
       "step": 235
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.4402371674566626e-05,
+      "loss": 0.6793,
       "step": 236
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.3377167398052636e-05,
+      "loss": 0.6211,
       "step": 237
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.2365555427281634e-05,
+      "loss": 0.5825,
       "step": 238
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.136765366488817e-05,
+      "loss": 0.6659,
       "step": 239
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 3.038357841559191e-05,
+      "loss": 0.6726,
       "step": 240
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.941344437264249e-05,
+      "loss": 0.595,
       "step": 241
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.8457364604452372e-05,
+      "loss": 0.5769,
       "step": 242
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.7515450541418338e-05,
+      "loss": 0.5748,
       "step": 243
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.658781196293482e-05,
+      "loss": 0.5505,
       "step": 244
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.5674556984598822e-05,
+      "loss": 0.5472,
       "step": 245
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.477579204560935e-05,
+      "loss": 0.518,
       "step": 246
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.389162189636188e-05,
+      "loss": 0.5002,
       "step": 247
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.3022149586239968e-05,
+      "loss": 0.4444,
       "step": 248
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.216747645160462e-05,
+      "loss": 0.5107,
       "step": 249
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.1327702103983863e-05,
+      "loss": 0.4729,
       "step": 250
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 2.0502924418463013e-05,
+      "loss": 0.7721,
       "step": 251
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.9693239522277327e-05,
+      "loss": 0.774,
       "step": 252
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.889874178360864e-05,
+      "loss": 0.8274,
       "step": 253
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.8119523800586568e-05,
+      "loss": 0.7989,
       "step": 254
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.735567639049648e-05,
+      "loss": 0.7691,
       "step": 255
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.6607288579194638e-05,
+      "loss": 0.7938,
       "step": 256
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.5874447590732538e-05,
+      "loss": 0.8506,
       "step": 257
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.5157238837190716e-05,
+      "loss": 0.7695,
       "step": 258
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.4455745908724226e-05,
+      "loss": 0.819,
       "step": 259
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.3770050563820179e-05,
+      "loss": 0.7904,
       "step": 260
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.3100232719768994e-05,
+      "loss": 0.8647,
       "step": 261
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.2446370443349863e-05,
+      "loss": 0.777,
       "step": 262
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.180853994173236e-05,
+      "loss": 0.7898,
       "step": 263
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.118681555359438e-05,
+      "loss": 0.7466,
       "step": 264
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 1.058126974045811e-05,
+      "loss": 0.8193,
       "step": 265
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 9.991973078244636e-06,
+      "loss": 0.8072,
       "step": 266
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.418994249048472e-06,
+      "loss": 0.8395,
       "step": 267
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.862400033132571e-06,
+      "loss": 0.8109,
       "step": 268
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.322255301145204e-06,
+      "loss": 0.8379,
       "step": 269
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 7.798623006559435e-06,
+      "loss": 0.7609,
       "step": 270
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 7.291564178335718e-06,
+      "loss": 0.7881,
       "step": 271
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 6.801137913809213e-06,
+      "loss": 0.8359,
       "step": 272
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 6.3274013718019434e-06,
+      "loss": 0.8019,
       "step": 273
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 5.870409765960965e-06,
+      "loss": 0.7971,
       "step": 274
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 5.430216358323309e-06,
+      "loss": 0.7786,
       "step": 275
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 5.006872453108329e-06,
+      "loss": 0.7921,
       "step": 276
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.600427390738159e-06,
+      "loss": 0.7785,
       "step": 277
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.210928542087206e-06,
+      "loss": 0.7637,
       "step": 278
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 3.838421302961098e-06,
+      "loss": 0.7673,
       "step": 279
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 3.482949088805742e-06,
+      "loss": 0.7417,
       "step": 280
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 3.1445533296474478e-06,
+      "loss": 0.7175,
       "step": 281
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 2.823273465264142e-06,
+      "loss": 0.6789,
       "step": 282
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 2.519146940588762e-06,
+      "loss": 0.6716,
       "step": 283
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 2.232209201345031e-06,
+      "loss": 0.6743,
       "step": 284
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.9624936899163945e-06,
+      "loss": 0.673,
       "step": 285
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.7100318414482061e-06,
+      "loss": 0.6362,
       "step": 286
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.4748530801840074e-06,
+      "loss": 0.673,
       "step": 287
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.2569848160362384e-06,
+      "loss": 0.6348,
       "step": 288
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.056452441391542e-06,
+      "loss": 0.6603,
       "step": 289
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 8.732793281513661e-07,
+      "loss": 0.5877,
       "step": 290
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 7.07486825007908e-07,
+      "loss": 0.6369,
       "step": 291
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 5.590942549560051e-07,
+      "loss": 0.5664,
       "step": 292
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.281189130410534e-07,
+      "loss": 0.5721,
       "step": 293
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 3.1457606434325266e-07,
+      "loss": 0.5755,
       "step": 294
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 2.184789421984634e-07,
+      "loss": 0.5584,
       "step": 295
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 1.3983874665589035e-07,
+      "loss": 0.5746,
       "step": 296
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 7.866464317276e-08,
+      "loss": 0.4979,
       "step": 297
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 3.4963761546041855e-08,
+      "loss": 0.5017,
       "step": 298
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 8.741195081479747e-09,
+      "loss": 0.5112,
       "step": 299
     },
     {
+      "epoch": 0.19,
       "learning_rate": 0.0,
+      "loss": 0.453,
       "step": 300
     }
   ],
+  "logging_steps": 1,
   "max_steps": 300,
   "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 8.93034880303104e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-300/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be007ae36129116338a68f438eb003e2347780a6625c4d4bcccce4e17179bba8
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1c02534982789891a108fd8845b01f09dd0f60e3bcbbfb171714be6598e3a93
 size 4027

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:484b0ce0401bc6add3f19fbb477c0135596aee4bb34588b55aa0d86a0936c0e5
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1c02534982789891a108fd8845b01f09dd0f60e3bcbbfb171714be6598e3a93
 size 4027