End of training

Browse files

Files changed (6) hide show

README.md +1 -1
all_results.json +9 -9
eval_results.json +5 -5
runs/Dec02_15-11-10_DESKTOP-SKBE9FB/events.out.tfevents.1733174155.DESKTOP-SKBE9FB.10128.1 +3 -0
train_results.json +5 -5
trainer_state.json +316 -160

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2080
 - Accuracy: 0.4565
 ## Model description

 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3785
 - Accuracy: 0.4565
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 22.86,
     "eval_accuracy": 0.45652173913043476,
-    "eval_loss": 1.3825488090515137,
-    "eval_runtime": 0.9861,
-    "eval_samples_per_second": 46.649,
-    "eval_steps_per_second": 2.028,
-    "train_loss": 1.227725338935852,
-    "train_runtime": 161.9188,
-    "train_samples_per_second": 52.619,
-    "train_steps_per_second": 0.247
 }

 {
+    "epoch": 34.29,
     "eval_accuracy": 0.45652173913043476,
+    "eval_loss": 1.3785392045974731,
+    "eval_runtime": 0.9635,
+    "eval_samples_per_second": 47.74,
+    "eval_steps_per_second": 3.113,
+    "train_loss": 2.3613997220993044,
+    "train_runtime": 205.5721,
+    "train_samples_per_second": 41.445,
+    "train_steps_per_second": 0.584
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 22.86,
     "eval_accuracy": 0.45652173913043476,
-    "eval_loss": 1.3825488090515137,
-    "eval_runtime": 0.9861,
-    "eval_samples_per_second": 46.649,
-    "eval_steps_per_second": 2.028
 }

 {
+    "epoch": 34.29,
     "eval_accuracy": 0.45652173913043476,
+    "eval_loss": 1.3785392045974731,
+    "eval_runtime": 0.9635,
+    "eval_samples_per_second": 47.74,
+    "eval_steps_per_second": 3.113
 }

runs/Dec02_15-11-10_DESKTOP-SKBE9FB/events.out.tfevents.1733174155.DESKTOP-SKBE9FB.10128.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6e46aaa20ad8f105e81ceaab14f5574d20979707f13c4760fe48c7d3b3af8fd
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 22.86,
-    "train_loss": 1.227725338935852,
-    "train_runtime": 161.9188,
-    "train_samples_per_second": 52.619,
-    "train_steps_per_second": 0.247
 }

 {
+    "epoch": 34.29,
+    "train_loss": 2.3613997220993044,
+    "train_runtime": 205.5721,
+    "train_samples_per_second": 41.445,
+    "train_steps_per_second": 0.584
 }

trainer_state.json CHANGED Viewed

@@ -1,261 +1,417 @@
 {
   "best_metric": 0.45652173913043476,
-  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-DMAE-ex\\checkpoint-3",
-  "epoch": 22.857142857142858,
   "eval_steps": 500,
-  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.57,
-      "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 1.386294960975647,
-      "eval_runtime": 0.8503,
-      "eval_samples_per_second": 54.096,
-      "eval_steps_per_second": 2.352,
-      "step": 1
     },
     {
-      "epoch": 1.71,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3825488090515137,
-      "eval_runtime": 0.7726,
-      "eval_samples_per_second": 59.541,
-      "eval_steps_per_second": 2.589,
-      "step": 3
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3677386045455933,
-      "eval_runtime": 1.0409,
-      "eval_samples_per_second": 44.191,
-      "eval_steps_per_second": 1.921,
-      "step": 5
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.3405187129974365,
-      "eval_runtime": 0.8432,
-      "eval_samples_per_second": 54.556,
-      "eval_steps_per_second": 2.372,
-      "step": 7
     },
     {
-      "epoch": 4.57,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.322912335395813,
-      "eval_runtime": 0.8736,
-      "eval_samples_per_second": 52.657,
-      "eval_steps_per_second": 2.289,
-      "step": 8
     },
     {
       "epoch": 5.71,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.3605,
-      "step": 10
     },
     {
-      "epoch": 5.71,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2859361171722412,
-      "eval_runtime": 0.8501,
-      "eval_samples_per_second": 54.109,
-      "eval_steps_per_second": 2.353,
-      "step": 10
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2580196857452393,
-      "eval_runtime": 0.8402,
-      "eval_samples_per_second": 54.752,
-      "eval_steps_per_second": 2.381,
-      "step": 12
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2332475185394287,
-      "eval_runtime": 0.8327,
-      "eval_samples_per_second": 55.242,
-      "eval_steps_per_second": 2.402,
-      "step": 14
     },
     {
       "epoch": 8.57,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.223859429359436,
-      "eval_runtime": 0.8061,
-      "eval_samples_per_second": 57.062,
-      "eval_steps_per_second": 2.481,
-      "step": 15
     },
     {
-      "epoch": 9.71,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2127728462219238,
-      "eval_runtime": 0.8231,
-      "eval_samples_per_second": 55.884,
-      "eval_steps_per_second": 2.43,
-      "step": 17
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2085763216018677,
-      "eval_runtime": 0.855,
-      "eval_samples_per_second": 53.803,
-      "eval_steps_per_second": 2.339,
-      "step": 19
     },
     {
       "epoch": 11.43,
-      "learning_rate": 2.2222222222222227e-05,
-      "loss": 1.2105,
-      "step": 20
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2092437744140625,
-      "eval_runtime": 1.3028,
-      "eval_samples_per_second": 35.309,
-      "eval_steps_per_second": 1.535,
-      "step": 21
     },
     {
-      "epoch": 12.57,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2097690105438232,
-      "eval_runtime": 0.8286,
-      "eval_samples_per_second": 55.514,
-      "eval_steps_per_second": 2.414,
-      "step": 22
     },
     {
-      "epoch": 13.71,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.210005283355713,
-      "eval_runtime": 0.8472,
-      "eval_samples_per_second": 54.298,
-      "eval_steps_per_second": 2.361,
-      "step": 24
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.2062424421310425,
-      "eval_runtime": 0.8749,
-      "eval_samples_per_second": 52.58,
-      "eval_steps_per_second": 2.286,
-      "step": 26
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.201505422592163,
-      "eval_runtime": 0.9061,
-      "eval_samples_per_second": 50.766,
-      "eval_steps_per_second": 2.207,
-      "step": 28
     },
     {
-      "epoch": 16.57,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.198574423789978,
-      "eval_runtime": 0.8476,
-      "eval_samples_per_second": 54.274,
-      "eval_steps_per_second": 2.36,
-      "step": 29
     },
     {
       "epoch": 17.14,
-      "learning_rate": 1.1111111111111113e-05,
-      "loss": 1.1785,
-      "step": 30
     },
     {
-      "epoch": 17.71,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1926066875457764,
-      "eval_runtime": 0.8428,
-      "eval_samples_per_second": 54.577,
-      "eval_steps_per_second": 2.373,
-      "step": 31
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1901657581329346,
-      "eval_runtime": 0.9097,
-      "eval_samples_per_second": 50.565,
-      "eval_steps_per_second": 2.198,
-      "step": 33
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1884738206863403,
-      "eval_runtime": 0.8548,
-      "eval_samples_per_second": 53.814,
-      "eval_steps_per_second": 2.34,
-      "step": 35
     },
     {
-      "epoch": 20.57,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1878141164779663,
-      "eval_runtime": 0.8444,
-      "eval_samples_per_second": 54.475,
-      "eval_steps_per_second": 2.368,
-      "step": 36
     },
     {
-      "epoch": 21.71,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1870336532592773,
-      "eval_runtime": 0.8305,
-      "eval_samples_per_second": 55.387,
-      "eval_steps_per_second": 2.408,
-      "step": 38
     },
     {
       "epoch": 22.86,
-      "learning_rate": 0.0,
-      "loss": 1.1615,
-      "step": 40
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.45652173913043476,
-      "eval_loss": 1.1869155168533325,
-      "eval_runtime": 1.2422,
-      "eval_samples_per_second": 37.03,
-      "eval_steps_per_second": 1.61,
-      "step": 40
     },
     {
-      "epoch": 22.86,
-      "step": 40,
-      "total_flos": 1.5871130461274112e+17,
-      "train_loss": 1.227725338935852,
-      "train_runtime": 161.9188,
-      "train_samples_per_second": 52.619,
-      "train_steps_per_second": 0.247
     }
   ],
   "logging_steps": 10,
-  "max_steps": 40,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
-  "total_flos": 1.5871130461274112e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.45652173913043476,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-DMAE-ex\\checkpoint-7",
+  "epoch": 34.285714285714285,
   "eval_steps": 500,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.86,
+      "eval_accuracy": 0.17391304347826086,
+      "eval_loss": 26.20158576965332,
+      "eval_runtime": 0.8072,
+      "eval_samples_per_second": 56.986,
+      "eval_steps_per_second": 3.716,
+      "step": 3
     },
     {
+      "epoch": 2.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.3785392045974731,
+      "eval_runtime": 0.7527,
+      "eval_samples_per_second": 61.111,
+      "eval_steps_per_second": 3.986,
+      "step": 7
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.018333333333333333,
+      "loss": 12.975,
+      "step": 10
     },
     {
       "epoch": 2.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 2.2855052947998047,
+      "eval_runtime": 0.8039,
+      "eval_samples_per_second": 57.219,
+      "eval_steps_per_second": 3.732,
+      "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.5437300205230713,
+      "eval_runtime": 0.7595,
+      "eval_samples_per_second": 60.57,
+      "eval_steps_per_second": 3.95,
+      "step": 14
     },
     {
+      "epoch": 4.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.5017277002334595,
+      "eval_runtime": 1.3666,
+      "eval_samples_per_second": 33.66,
+      "eval_steps_per_second": 2.195,
+      "step": 17
     },
     {
       "epoch": 5.71,
+      "learning_rate": 0.016666666666666666,
+      "loss": 2.1282,
+      "step": 20
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 1.5409127473831177,
+      "eval_runtime": 0.8412,
+      "eval_samples_per_second": 54.684,
+      "eval_steps_per_second": 3.566,
+      "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.4040182828903198,
+      "eval_runtime": 1.1106,
+      "eval_samples_per_second": 41.42,
+      "eval_steps_per_second": 2.701,
+      "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.27801513671875,
+      "eval_runtime": 0.7688,
+      "eval_samples_per_second": 59.837,
+      "eval_steps_per_second": 3.902,
+      "step": 28
     },
     {
       "epoch": 8.57,
+      "learning_rate": 0.015,
+      "loss": 1.554,
+      "step": 30
     },
     {
+      "epoch": 8.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.2299892902374268,
+      "eval_runtime": 0.7581,
+      "eval_samples_per_second": 60.68,
+      "eval_steps_per_second": 3.957,
+      "step": 31
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.3227636814117432,
+      "eval_runtime": 0.7707,
+      "eval_samples_per_second": 59.684,
+      "eval_steps_per_second": 3.892,
+      "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2744935750961304,
+      "eval_runtime": 0.7587,
+      "eval_samples_per_second": 60.626,
+      "eval_steps_per_second": 3.954,
+      "step": 38
     },
     {
       "epoch": 11.43,
+      "learning_rate": 0.013333333333333332,
+      "loss": 1.3748,
+      "step": 40
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.3723951578140259,
+      "eval_runtime": 0.7682,
+      "eval_samples_per_second": 59.881,
+      "eval_steps_per_second": 3.905,
+      "step": 42
     },
     {
+      "epoch": 12.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.3726118803024292,
+      "eval_runtime": 0.7647,
+      "eval_samples_per_second": 60.155,
+      "eval_steps_per_second": 3.923,
+      "step": 45
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.289075493812561,
+      "eval_runtime": 0.7652,
+      "eval_samples_per_second": 60.115,
+      "eval_steps_per_second": 3.921,
+      "step": 49
+    },
+    {
+      "epoch": 14.29,
+      "learning_rate": 0.011666666666666667,
+      "loss": 1.5315,
+      "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2978594303131104,
+      "eval_runtime": 0.7573,
+      "eval_samples_per_second": 60.741,
+      "eval_steps_per_second": 3.961,
+      "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2271596193313599,
+      "eval_runtime": 0.8407,
+      "eval_samples_per_second": 54.715,
+      "eval_steps_per_second": 3.568,
+      "step": 56
     },
     {
+      "epoch": 16.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.2749192714691162,
+      "eval_runtime": 0.7412,
+      "eval_samples_per_second": 62.063,
+      "eval_steps_per_second": 4.048,
+      "step": 59
     },
     {
       "epoch": 17.14,
+      "learning_rate": 0.01,
+      "loss": 1.351,
+      "step": 60
     },
     {
+      "epoch": 18.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2218742370605469,
+      "eval_runtime": 0.7782,
+      "eval_samples_per_second": 59.109,
+      "eval_steps_per_second": 3.855,
+      "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2199996709823608,
+      "eval_runtime": 0.7592,
+      "eval_samples_per_second": 60.591,
+      "eval_steps_per_second": 3.952,
+      "step": 66
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.008333333333333333,
+      "loss": 1.2678,
+      "step": 70
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.2277557849884033,
+      "eval_runtime": 0.7951,
+      "eval_samples_per_second": 57.858,
+      "eval_steps_per_second": 3.773,
+      "step": 70
     },
     {
+      "epoch": 20.86,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2318228483200073,
+      "eval_runtime": 0.7641,
+      "eval_samples_per_second": 60.201,
+      "eval_steps_per_second": 3.926,
+      "step": 73
     },
     {
+      "epoch": 22.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.210179328918457,
+      "eval_runtime": 0.8337,
+      "eval_samples_per_second": 55.176,
+      "eval_steps_per_second": 3.598,
+      "step": 77
     },
     {
       "epoch": 22.86,
+      "learning_rate": 0.006666666666666666,
+      "loss": 1.244,
+      "step": 80
     },
     {
       "epoch": 22.86,
+      "eval_accuracy": 0.32608695652173914,
+      "eval_loss": 1.2466037273406982,
+      "eval_runtime": 0.7413,
+      "eval_samples_per_second": 62.052,
+      "eval_steps_per_second": 4.047,
+      "step": 80
+    },
+    {
+      "epoch": 24.0,
       "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2102508544921875,
+      "eval_runtime": 0.7646,
+      "eval_samples_per_second": 60.165,
+      "eval_steps_per_second": 3.924,
+      "step": 84
     },
     {
+      "epoch": 24.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2067211866378784,
+      "eval_runtime": 0.7768,
+      "eval_samples_per_second": 59.217,
+      "eval_steps_per_second": 3.862,
+      "step": 87
+    },
+    {
+      "epoch": 25.71,
+      "learning_rate": 0.005,
+      "loss": 1.2585,
+      "step": 90
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.212925910949707,
+      "eval_runtime": 0.8062,
+      "eval_samples_per_second": 57.056,
+      "eval_steps_per_second": 3.721,
+      "step": 91
+    },
+    {
+      "epoch": 26.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2109757661819458,
+      "eval_runtime": 0.7677,
+      "eval_samples_per_second": 59.921,
+      "eval_steps_per_second": 3.908,
+      "step": 94
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.213108777999878,
+      "eval_runtime": 0.8052,
+      "eval_samples_per_second": 57.129,
+      "eval_steps_per_second": 3.726,
+      "step": 98
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 0.003333333333333333,
+      "loss": 1.2405,
+      "step": 100
+    },
+    {
+      "epoch": 28.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2072187662124634,
+      "eval_runtime": 0.7726,
+      "eval_samples_per_second": 59.536,
+      "eval_steps_per_second": 3.883,
+      "step": 101
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.209886908531189,
+      "eval_runtime": 0.8687,
+      "eval_samples_per_second": 52.953,
+      "eval_steps_per_second": 3.453,
+      "step": 105
+    },
+    {
+      "epoch": 30.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.211473822593689,
+      "eval_runtime": 0.7408,
+      "eval_samples_per_second": 62.098,
+      "eval_steps_per_second": 4.05,
+      "step": 108
+    },
+    {
+      "epoch": 31.43,
+      "learning_rate": 0.0016666666666666666,
+      "loss": 1.2134,
+      "step": 110
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2137932777404785,
+      "eval_runtime": 0.7962,
+      "eval_samples_per_second": 57.776,
+      "eval_steps_per_second": 3.768,
+      "step": 112
+    },
+    {
+      "epoch": 32.86,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2094972133636475,
+      "eval_runtime": 0.7562,
+      "eval_samples_per_second": 60.832,
+      "eval_steps_per_second": 3.967,
+      "step": 115
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2080820798873901,
+      "eval_runtime": 0.7958,
+      "eval_samples_per_second": 57.802,
+      "eval_steps_per_second": 3.77,
+      "step": 119
+    },
+    {
+      "epoch": 34.29,
+      "learning_rate": 0.0,
+      "loss": 1.1982,
+      "step": 120
+    },
+    {
+      "epoch": 34.29,
+      "eval_accuracy": 0.45652173913043476,
+      "eval_loss": 1.2080086469650269,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 51.468,
+      "eval_steps_per_second": 3.357,
+      "step": 120
+    },
+    {
+      "epoch": 34.29,
+      "step": 120,
+      "total_flos": 2.3770905934823424e+17,
+      "train_loss": 2.3613997220993044,
+      "train_runtime": 205.5721,
+      "train_samples_per_second": 41.445,
+      "train_steps_per_second": 0.584
     }
   ],
   "logging_steps": 10,
+  "max_steps": 120,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 40,
   "save_steps": 500,
+  "total_flos": 2.3770905934823424e+17,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }