Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_config.json +1 -1
adapter_model.safetensors +1 -1
events.out.tfevents.1723771512.0d2118c49111.2491.0 +3 -0
trainer_state.json +135 -135
training_args.bin +2 -2

adapter_config.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "alpha_pattern": {},
   "auto_mapping": {
     "base_model_class": "MiniCPMV",
-    "parent_library": "transformers_modules.openbmb.MiniCPM-V-2_6.a38652350cf48f3cedc8e8b2ff73801fe2dcc004.modeling_minicpmv"
   },
   "base_model_name_or_path": "openbmb/MiniCPM-V-2_6",
   "bias": "none",

   "alpha_pattern": {},
   "auto_mapping": {
     "base_model_class": "MiniCPMV",
+    "parent_library": "transformers_modules.openbmb.MiniCPM-V-2_6.5448dad47b6ca8429fabc851f76f1be4328f2de2.modeling_minicpmv"
   },
   "base_model_name_or_path": "openbmb/MiniCPM-V-2_6",
   "bias": "none",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:825bf908aa66c786b7599a49d52fef5bb5e2024fc03f9097987f914aed01815c
 size 1305154312

 version https://git-lfs.github.com/spec/v1
+oid sha256:0232076a00835592bf8e468f63815229a7dd5730149481c7750933c759b2742b
 size 1305154312

events.out.tfevents.1723771512.0d2118c49111.2491.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea2d72114399b965955d8a4bc27de0cf6c56cf19c8930ac18f73bdabfaeedbc0
+size 20099

trainer_state.json CHANGED Viewed

@@ -11,478 +11,478 @@
     {
       "epoch": 1.0,
       "learning_rate": 0,
-      "loss": 1.3796,
       "step": 1
     },
     {
       "epoch": 1.1428571428571428,
-      "grad_norm": 2.2001447677612305,
       "learning_rate": 0.0,
-      "loss": 0.2105,
       "step": 2
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.2001447677612305,
       "learning_rate": 0.0,
-      "loss": 0.962,
       "step": 3
     },
     {
       "epoch": 2.2857142857142856,
-      "grad_norm": 0.8828794360160828,
       "learning_rate": 0.0002,
-      "loss": 0.2299,
       "step": 4
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.8828794360160828,
       "learning_rate": 0.0002,
-      "loss": 0.8788,
       "step": 5
     },
     {
       "epoch": 3.4285714285714284,
-      "grad_norm": 0.7549806237220764,
       "learning_rate": 0.0002,
-      "loss": 0.5161,
       "step": 6
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.7549806237220764,
       "learning_rate": 0.0002,
-      "loss": 0.5018,
       "step": 7
     },
     {
       "epoch": 4.571428571428571,
-      "grad_norm": 0.5643095970153809,
       "learning_rate": 0.0002,
-      "loss": 0.5318,
       "step": 8
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.5643095970153809,
       "learning_rate": 0.0002,
-      "loss": 0.3574,
       "step": 9
     },
     {
       "epoch": 5.714285714285714,
-      "grad_norm": 0.6527697443962097,
       "learning_rate": 0.0002,
-      "loss": 0.6326,
       "step": 10
     },
     {
       "epoch": 5.714285714285714,
-      "eval_loss": 0.7977780103683472,
-      "eval_runtime": 1.1094,
-      "eval_samples_per_second": 6.31,
-      "eval_steps_per_second": 6.31,
       "step": 10
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.6527697443962097,
       "learning_rate": 0.0002,
-      "loss": 0.1602,
       "step": 11
     },
     {
       "epoch": 6.857142857142857,
-      "grad_norm": 0.6531093716621399,
       "learning_rate": 0.0002,
-      "loss": 0.5492,
       "step": 12
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.6531093716621399,
       "learning_rate": 0.0002,
-      "loss": 0.1361,
       "step": 13
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.5385488867759705,
       "learning_rate": 0.0002,
-      "loss": 0.5893,
       "step": 14
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.5385488867759705,
       "learning_rate": 0.0002,
-      "loss": 0.475,
       "step": 15
     },
     {
       "epoch": 9.142857142857142,
-      "grad_norm": 0.5094980001449585,
       "learning_rate": 0.0002,
-      "loss": 0.0501,
       "step": 16
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.5094980001449585,
       "learning_rate": 0.0002,
-      "loss": 0.3318,
       "step": 17
     },
     {
       "epoch": 10.285714285714286,
-      "grad_norm": 0.5739837884902954,
       "learning_rate": 0.0002,
-      "loss": 0.154,
       "step": 18
     },
     {
       "epoch": 11.0,
-      "grad_norm": 0.5739837884902954,
       "learning_rate": 0.0002,
-      "loss": 0.1339,
       "step": 19
     },
     {
       "epoch": 11.428571428571429,
-      "grad_norm": 0.5782333016395569,
       "learning_rate": 0.0002,
       "loss": 0.1008,
       "step": 20
     },
     {
       "epoch": 11.428571428571429,
-      "eval_loss": 0.1741267442703247,
-      "eval_runtime": 1.0921,
-      "eval_samples_per_second": 6.41,
-      "eval_steps_per_second": 6.41,
       "step": 20
     },
     {
       "epoch": 12.0,
-      "grad_norm": 0.5782333016395569,
       "learning_rate": 0.0002,
-      "loss": 0.1043,
       "step": 21
     },
     {
       "epoch": 12.571428571428571,
-      "grad_norm": 0.558684229850769,
       "learning_rate": 0.0002,
-      "loss": 0.1308,
       "step": 22
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.558684229850769,
       "learning_rate": 0.0002,
-      "loss": 0.0082,
       "step": 23
     },
     {
       "epoch": 13.714285714285714,
-      "grad_norm": 0.3258131444454193,
       "learning_rate": 0.0002,
-      "loss": 0.0663,
       "step": 24
     },
     {
       "epoch": 14.0,
-      "grad_norm": 0.3258131444454193,
       "learning_rate": 0.0002,
-      "loss": 0.0114,
       "step": 25
     },
     {
       "epoch": 14.857142857142858,
-      "grad_norm": 0.3965975046157837,
       "learning_rate": 0.0002,
-      "loss": 0.0503,
       "step": 26
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.3965975046157837,
       "learning_rate": 0.0002,
-      "loss": 0.0026,
       "step": 27
     },
     {
       "epoch": 16.0,
-      "grad_norm": 0.6329053044319153,
       "learning_rate": 0.0002,
-      "loss": 0.0271,
       "step": 28
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.6329053044319153,
       "learning_rate": 0.0002,
-      "loss": 0.0145,
       "step": 29
     },
     {
       "epoch": 17.142857142857142,
-      "grad_norm": 0.1660483181476593,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 30
     },
     {
       "epoch": 17.142857142857142,
-      "eval_loss": 0.008966931141912937,
-      "eval_runtime": 1.1273,
-      "eval_samples_per_second": 6.21,
-      "eval_steps_per_second": 6.21,
       "step": 30
     },
     {
       "epoch": 18.0,
-      "grad_norm": 0.1660483181476593,
       "learning_rate": 0.0002,
-      "loss": 0.0076,
       "step": 31
     },
     {
       "epoch": 18.285714285714285,
-      "grad_norm": 0.16035296022891998,
       "learning_rate": 0.0002,
-      "loss": 0.0006,
       "step": 32
     },
     {
       "epoch": 19.0,
-      "grad_norm": 0.16035296022891998,
       "learning_rate": 0.0002,
-      "loss": 0.0027,
       "step": 33
     },
     {
       "epoch": 19.428571428571427,
-      "grad_norm": 0.22989660501480103,
       "learning_rate": 0.0002,
-      "loss": 0.0022,
       "step": 34
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.22989660501480103,
       "learning_rate": 0.0002,
-      "loss": 0.0006,
       "step": 35
     },
     {
       "epoch": 20.571428571428573,
-      "grad_norm": 0.025392575189471245,
       "learning_rate": 0.0002,
       "loss": 0.0004,
       "step": 36
     },
     {
       "epoch": 21.0,
-      "grad_norm": 0.025392575189471245,
       "learning_rate": 0.0002,
-      "loss": 0.0037,
       "step": 37
     },
     {
       "epoch": 21.714285714285715,
-      "grad_norm": 0.7075601816177368,
       "learning_rate": 0.0002,
-      "loss": 0.0039,
       "step": 38
     },
     {
       "epoch": 22.0,
-      "grad_norm": 0.7075601816177368,
       "learning_rate": 0.0002,
-      "loss": 0.0002,
       "step": 39
     },
     {
       "epoch": 22.857142857142858,
-      "grad_norm": 0.057493291795253754,
       "learning_rate": 0.0002,
-      "loss": 0.0009,
       "step": 40
     },
     {
       "epoch": 22.857142857142858,
-      "eval_loss": 0.001083305454812944,
-      "eval_runtime": 1.1213,
-      "eval_samples_per_second": 6.243,
-      "eval_steps_per_second": 6.243,
       "step": 40
     },
     {
       "epoch": 23.0,
-      "grad_norm": 0.057493291795253754,
       "learning_rate": 0.0002,
-      "loss": 0.0001,
       "step": 41
     },
     {
       "epoch": 24.0,
-      "grad_norm": 0.043593935668468475,
       "learning_rate": 0.0002,
-      "loss": 0.001,
       "step": 42
     },
     {
       "epoch": 25.0,
-      "grad_norm": 0.043593935668468475,
       "learning_rate": 0.0002,
-      "loss": 0.0017,
       "step": 43
     },
     {
       "epoch": 25.142857142857142,
-      "grad_norm": 0.1038336306810379,
       "learning_rate": 0.0002,
-      "loss": 0.0001,
       "step": 44
     },
     {
       "epoch": 26.0,
-      "grad_norm": 0.1038336306810379,
       "learning_rate": 0.0002,
-      "loss": 0.0013,
       "step": 45
     },
     {
       "epoch": 26.285714285714285,
-      "grad_norm": 0.1458902508020401,
       "learning_rate": 0.0002,
-      "loss": 0.0011,
       "step": 46
     },
     {
       "epoch": 27.0,
-      "grad_norm": 0.1458902508020401,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 47
     },
     {
       "epoch": 27.428571428571427,
-      "grad_norm": 0.014756185002624989,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 48
     },
     {
       "epoch": 28.0,
-      "grad_norm": 0.014756185002624989,
       "learning_rate": 0.0002,
-      "loss": 0.0005,
       "step": 49
     },
     {
       "epoch": 28.571428571428573,
-      "grad_norm": 0.032949432730674744,
       "learning_rate": 0.0002,
-      "loss": 0.0004,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
-      "eval_loss": 0.0005236685974523425,
-      "eval_runtime": 1.1017,
-      "eval_samples_per_second": 6.354,
-      "eval_steps_per_second": 6.354,
       "step": 50
     },
     {
       "epoch": 29.0,
-      "grad_norm": 0.032949432730674744,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 51
     },
     {
       "epoch": 29.714285714285715,
-      "grad_norm": 0.015912260860204697,
       "learning_rate": 0.0002,
-      "loss": 0.0004,
       "step": 52
     },
     {
       "epoch": 30.0,
-      "grad_norm": 0.015912260860204697,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 53
     },
     {
       "epoch": 30.857142857142858,
-      "grad_norm": 0.012292955070734024,
       "learning_rate": 0.0002,
-      "loss": 0.0004,
       "step": 54
     },
     {
       "epoch": 31.0,
-      "grad_norm": 0.012292955070734024,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 55
     },
     {
       "epoch": 32.0,
-      "grad_norm": 0.009588208049535751,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 56
     },
     {
       "epoch": 33.0,
-      "grad_norm": 0.009588208049535751,
       "learning_rate": 0.0002,
-      "loss": 0.0003,
       "step": 57
     },
     {
       "epoch": 33.142857142857146,
-      "grad_norm": 0.007272060494869947,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 58
     },
     {
       "epoch": 34.0,
-      "grad_norm": 0.007272060494869947,
       "learning_rate": 0.0002,
       "loss": 0.0002,
       "step": 59
     },
     {
       "epoch": 34.285714285714285,
-      "grad_norm": 0.006634233985096216,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 60
     },
     {
       "epoch": 34.285714285714285,
-      "eval_loss": 0.00021448711049742997,
-      "eval_runtime": 1.0979,
-      "eval_samples_per_second": 6.376,
-      "eval_steps_per_second": 6.376,
       "step": 60
     },
     {
       "epoch": 34.285714285714285,
       "step": 60,
       "total_flos": 4016214881861632.0,
-      "train_loss": 0.1554629008491247,
-      "train_runtime": 98.8483,
-      "train_samples_per_second": 4.856,
-      "train_steps_per_second": 0.607
     }
   ],
   "logging_steps": 1.0,

     {
       "epoch": 1.0,
       "learning_rate": 0,
+      "loss": 1.3795,
       "step": 1
     },
     {
       "epoch": 1.1428571428571428,
+      "grad_norm": 2.172917366027832,
       "learning_rate": 0.0,
+      "loss": 0.2103,
       "step": 2
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.172917366027832,
       "learning_rate": 0.0,
+      "loss": 0.9608,
       "step": 3
     },
     {
       "epoch": 2.2857142857142856,
+      "grad_norm": 0.879162609577179,
       "learning_rate": 0.0002,
+      "loss": 0.2294,
       "step": 4
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.879162609577179,
       "learning_rate": 0.0002,
+      "loss": 0.8781,
       "step": 5
     },
     {
       "epoch": 3.4285714285714284,
+      "grad_norm": 0.752986490726471,
       "learning_rate": 0.0002,
+      "loss": 0.5153,
       "step": 6
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.752986490726471,
       "learning_rate": 0.0002,
+      "loss": 0.5011,
       "step": 7
     },
     {
       "epoch": 4.571428571428571,
+      "grad_norm": 0.5658770203590393,
       "learning_rate": 0.0002,
+      "loss": 0.5315,
       "step": 8
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.5658770203590393,
       "learning_rate": 0.0002,
+      "loss": 0.3573,
       "step": 9
     },
     {
       "epoch": 5.714285714285714,
+      "grad_norm": 0.6311860084533691,
       "learning_rate": 0.0002,
+      "loss": 0.632,
       "step": 10
     },
     {
       "epoch": 5.714285714285714,
+      "eval_loss": 0.794529914855957,
+      "eval_runtime": 1.124,
+      "eval_samples_per_second": 6.228,
+      "eval_steps_per_second": 6.228,
       "step": 10
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.6311860084533691,
       "learning_rate": 0.0002,
+      "loss": 0.1586,
       "step": 11
     },
     {
       "epoch": 6.857142857142857,
+      "grad_norm": 0.6447564959526062,
       "learning_rate": 0.0002,
+      "loss": 0.5467,
       "step": 12
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.6447564959526062,
       "learning_rate": 0.0002,
+      "loss": 0.1358,
       "step": 13
     },
     {
       "epoch": 8.0,
+      "grad_norm": 0.502592921257019,
       "learning_rate": 0.0002,
+      "loss": 0.586,
       "step": 14
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.502592921257019,
       "learning_rate": 0.0002,
+      "loss": 0.4717,
       "step": 15
     },
     {
       "epoch": 9.142857142857142,
+      "grad_norm": 0.515450119972229,
       "learning_rate": 0.0002,
+      "loss": 0.0492,
       "step": 16
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.515450119972229,
       "learning_rate": 0.0002,
+      "loss": 0.3283,
       "step": 17
     },
     {
       "epoch": 10.285714285714286,
+      "grad_norm": 0.6195679903030396,
       "learning_rate": 0.0002,
+      "loss": 0.1528,
       "step": 18
     },
     {
       "epoch": 11.0,
+      "grad_norm": 0.6195679903030396,
       "learning_rate": 0.0002,
+      "loss": 0.1333,
       "step": 19
     },
     {
       "epoch": 11.428571428571429,
+      "grad_norm": 0.593528151512146,
       "learning_rate": 0.0002,
       "loss": 0.1008,
       "step": 20
     },
     {
       "epoch": 11.428571428571429,
+      "eval_loss": 0.1764988899230957,
+      "eval_runtime": 1.1181,
+      "eval_samples_per_second": 6.26,
+      "eval_steps_per_second": 6.26,
       "step": 20
     },
     {
       "epoch": 12.0,
+      "grad_norm": 0.593528151512146,
       "learning_rate": 0.0002,
+      "loss": 0.1048,
       "step": 21
     },
     {
       "epoch": 12.571428571428571,
+      "grad_norm": 0.5447816848754883,
       "learning_rate": 0.0002,
+      "loss": 0.1318,
       "step": 22
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.5447816848754883,
       "learning_rate": 0.0002,
+      "loss": 0.0098,
       "step": 23
     },
     {
       "epoch": 13.714285714285714,
+      "grad_norm": 0.37343642115592957,
       "learning_rate": 0.0002,
+      "loss": 0.069,
       "step": 24
     },
     {
       "epoch": 14.0,
+      "grad_norm": 0.37343642115592957,
       "learning_rate": 0.0002,
+      "loss": 0.0154,
       "step": 25
     },
     {
       "epoch": 14.857142857142858,
+      "grad_norm": 0.5212247967720032,
       "learning_rate": 0.0002,
+      "loss": 0.0554,
       "step": 26
     },
     {
       "epoch": 15.0,
+      "grad_norm": 0.5212247967720032,
       "learning_rate": 0.0002,
+      "loss": 0.0011,
       "step": 27
     },
     {
       "epoch": 16.0,
+      "grad_norm": 0.39550113677978516,
       "learning_rate": 0.0002,
+      "loss": 0.027,
       "step": 28
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.39550113677978516,
       "learning_rate": 0.0002,
+      "loss": 0.0154,
       "step": 29
     },
     {
       "epoch": 17.142857142857142,
+      "grad_norm": 0.1997860223054886,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 30
     },
     {
       "epoch": 17.142857142857142,
+      "eval_loss": 0.009444376453757286,
+      "eval_runtime": 1.1094,
+      "eval_samples_per_second": 6.309,
+      "eval_steps_per_second": 6.309,
       "step": 30
     },
     {
       "epoch": 18.0,
+      "grad_norm": 0.1997860223054886,
       "learning_rate": 0.0002,
+      "loss": 0.008,
       "step": 31
     },
     {
       "epoch": 18.285714285714285,
+      "grad_norm": 0.17780642211437225,
       "learning_rate": 0.0002,
+      "loss": 0.0003,
       "step": 32
     },
     {
       "epoch": 19.0,
+      "grad_norm": 0.17780642211437225,
       "learning_rate": 0.0002,
+      "loss": 0.0024,
       "step": 33
     },
     {
       "epoch": 19.428571428571427,
+      "grad_norm": 0.09276885539293289,
       "learning_rate": 0.0002,
+      "loss": 0.0016,
       "step": 34
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.09276885539293289,
       "learning_rate": 0.0002,
+      "loss": 0.0008,
       "step": 35
     },
     {
       "epoch": 20.571428571428573,
+      "grad_norm": 0.03949622064828873,
       "learning_rate": 0.0002,
       "loss": 0.0004,
       "step": 36
     },
     {
       "epoch": 21.0,
+      "grad_norm": 0.03949622064828873,
       "learning_rate": 0.0002,
+      "loss": 0.0026,
       "step": 37
     },
     {
       "epoch": 21.714285714285715,
+      "grad_norm": 0.48974359035491943,
       "learning_rate": 0.0002,
+      "loss": 0.0027,
       "step": 38
     },
     {
       "epoch": 22.0,
+      "grad_norm": 0.48974359035491943,
       "learning_rate": 0.0002,
+      "loss": 0.0001,
       "step": 39
     },
     {
       "epoch": 22.857142857142858,
+      "grad_norm": 0.037879057228565216,
       "learning_rate": 0.0002,
+      "loss": 0.0008,
       "step": 40
     },
     {
       "epoch": 22.857142857142858,
+      "eval_loss": 0.0010270120110362768,
+      "eval_runtime": 1.107,
+      "eval_samples_per_second": 6.323,
+      "eval_steps_per_second": 6.323,
       "step": 40
     },
     {
       "epoch": 23.0,
+      "grad_norm": 0.037879057228565216,
       "learning_rate": 0.0002,
+      "loss": 0.0,
       "step": 41
     },
     {
       "epoch": 24.0,
+      "grad_norm": 0.07712631672620773,
       "learning_rate": 0.0002,
+      "loss": 0.0009,
       "step": 42
     },
     {
       "epoch": 25.0,
+      "grad_norm": 0.07712631672620773,
       "learning_rate": 0.0002,
+      "loss": 0.0006,
       "step": 43
     },
     {
       "epoch": 25.142857142857142,
+      "grad_norm": 0.03069213591516018,
       "learning_rate": 0.0002,
+      "loss": 0.0,
       "step": 44
     },
     {
       "epoch": 26.0,
+      "grad_norm": 0.03069213591516018,
       "learning_rate": 0.0002,
+      "loss": 0.0005,
       "step": 45
     },
     {
       "epoch": 26.285714285714285,
+      "grad_norm": 0.04276096820831299,
       "learning_rate": 0.0002,
+      "loss": 0.0002,
       "step": 46
     },
     {
       "epoch": 27.0,
+      "grad_norm": 0.04276096820831299,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 47
     },
     {
       "epoch": 27.428571428571427,
+      "grad_norm": 0.018633099272847176,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 48
     },
     {
       "epoch": 28.0,
+      "grad_norm": 0.018633099272847176,
       "learning_rate": 0.0002,
+      "loss": 0.0004,
       "step": 49
     },
     {
       "epoch": 28.571428571428573,
+      "grad_norm": 0.05017812177538872,
       "learning_rate": 0.0002,
+      "loss": 0.0003,
       "step": 50
     },
     {
       "epoch": 28.571428571428573,
+      "eval_loss": 0.00034485122887417674,
+      "eval_runtime": 1.12,
+      "eval_samples_per_second": 6.25,
+      "eval_steps_per_second": 6.25,
       "step": 50
     },
     {
       "epoch": 29.0,
+      "grad_norm": 0.05017812177538872,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 51
     },
     {
       "epoch": 29.714285714285715,
+      "grad_norm": 0.010933789424598217,
       "learning_rate": 0.0002,
+      "loss": 0.0002,
       "step": 52
     },
     {
       "epoch": 30.0,
+      "grad_norm": 0.010933789424598217,
       "learning_rate": 0.0002,
       "loss": 0.0001,
       "step": 53
     },
     {
       "epoch": 30.857142857142858,
+      "grad_norm": 0.00900160800665617,
       "learning_rate": 0.0002,
+      "loss": 0.0002,
       "step": 54
     },
     {
       "epoch": 31.0,
+      "grad_norm": 0.00900160800665617,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 55
     },
     {
       "epoch": 32.0,
+      "grad_norm": 0.018903745338320732,
       "learning_rate": 0.0002,
       "loss": 0.0003,
       "step": 56
     },
     {
       "epoch": 33.0,
+      "grad_norm": 0.018903745338320732,
       "learning_rate": 0.0002,
+      "loss": 0.0002,
       "step": 57
     },
     {
       "epoch": 33.142857142857146,
+      "grad_norm": 0.01036656741052866,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 58
     },
     {
       "epoch": 34.0,
+      "grad_norm": 0.01036656741052866,
       "learning_rate": 0.0002,
       "loss": 0.0002,
       "step": 59
     },
     {
       "epoch": 34.285714285714285,
+      "grad_norm": 0.007697099819779396,
       "learning_rate": 0.0002,
       "loss": 0.0,
       "step": 60
     },
     {
       "epoch": 34.285714285714285,
+      "eval_loss": 0.00019181256357114762,
+      "eval_runtime": 1.1116,
+      "eval_samples_per_second": 6.297,
+      "eval_steps_per_second": 6.297,
       "step": 60
     },
     {
       "epoch": 34.285714285714285,
       "step": 60,
       "total_flos": 4016214881861632.0,
+      "train_loss": 0.1552126432957569,
+      "train_runtime": 117.5216,
+      "train_samples_per_second": 4.084,
+      "train_steps_per_second": 0.511
     }
   ],
   "logging_steps": 1.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:453d1e4121a4921810db7811efe18d53e4f3315903a6ad7515c176c8a1c50ce8
-size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:d053104d6a663a0038dc16cb5997c1dc27511c9347611845f73b7419111e2961
+size 6840