Training in progress, step 8000, checkpoint

Browse files

Files changed (6) hide show

checkpoint-8000/model.safetensors +1 -1
checkpoint-8000/optimizer.pt +1 -1
checkpoint-8000/rng_state.pth +1 -1
checkpoint-8000/tokenizer.json +0 -0
checkpoint-8000/trainer_state.json +31 -31
checkpoint-8000/training_args.bin +1 -1

checkpoint-8000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:627229742a2d293c1beac9304f1d11ed17fcd6fcdf22b770ecb36237829f130a
 size 51007160

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d3ebe97ee50f546614ac9f949feee247bc5dc408ceaad89fcce6a53e1752f38
 size 51007160

checkpoint-8000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0fb22c8ee61e10feb3524488f9ce5fb88ae53870247546b683a4718d13b1daf
 size 102078202

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f462633d16d687e09aeea034e4d00318608d3344167292227cee0583a4f48de
 size 102078202

checkpoint-8000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9cbde3cb69d8ca158786a74c764490a016e8910b7620e6dd0143fffdadddefa
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:189d6e84bc40b3cc8958937f6d3c0e2a60ff9b6d811dec81418c92589744536a
 size 14308

checkpoint-8000/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 4.42986536026001,
-  "best_model_checkpoint": "/home/p318482/babyLM_controlled/models_trained/fr_clm/childes_30/checkpoint-8000",
-  "epoch": 12.578616352201259,
   "eval_steps": 2000,
   "global_step": 8000,
   "is_hyper_param_search": false,
@@ -9,56 +9,56 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 3.1446540880503147,
-      "eval_loss": 6.67229700088501,
-      "eval_runtime": 0.6568,
-      "eval_samples_per_second": 1386.938,
-      "eval_steps_per_second": 86.779,
       "step": 2000
     },
     {
-      "epoch": 6.289308176100629,
-      "grad_norm": 1.4630517959594727,
       "learning_rate": 1e-05,
-      "loss": 6.5359,
       "step": 4000
     },
     {
-      "epoch": 6.289308176100629,
-      "eval_loss": 5.102311611175537,
-      "eval_runtime": 0.6383,
-      "eval_samples_per_second": 1427.13,
-      "eval_steps_per_second": 89.294,
       "step": 4000
     },
     {
-      "epoch": 9.433962264150944,
-      "eval_loss": 4.675341606140137,
-      "eval_runtime": 0.6396,
-      "eval_samples_per_second": 1424.427,
-      "eval_steps_per_second": 89.124,
       "step": 6000
     },
     {
-      "epoch": 12.578616352201259,
-      "grad_norm": 2.3778915405273438,
       "learning_rate": 2e-05,
-      "loss": 4.34,
       "step": 8000
     },
     {
-      "epoch": 12.578616352201259,
-      "eval_loss": 4.42986536026001,
-      "eval_runtime": 0.646,
-      "eval_samples_per_second": 1410.229,
-      "eval_steps_per_second": 88.236,
       "step": 8000
     }
   ],
   "logging_steps": 4000,
   "max_steps": 100000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 158,
   "save_steps": 4000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -72,7 +72,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2068336144809984.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 5.2793288230896,
+  "best_model_checkpoint": "/home/p318482/babyLM_controlled/models_trained/de_clm/childes_30/checkpoint-8000",
+  "epoch": 8.385744234800839,
   "eval_steps": 2000,
   "global_step": 8000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.0964360587002098,
+      "eval_loss": 7.102903366088867,
+      "eval_runtime": 0.9708,
+      "eval_samples_per_second": 1416.286,
+      "eval_steps_per_second": 88.582,
       "step": 2000
     },
     {
+      "epoch": 4.1928721174004195,
+      "grad_norm": 1.3964662551879883,
       "learning_rate": 1e-05,
+      "loss": 6.9987,
       "step": 4000
     },
     {
+      "epoch": 4.1928721174004195,
+      "eval_loss": 5.884151935577393,
+      "eval_runtime": 0.966,
+      "eval_samples_per_second": 1423.408,
+      "eval_steps_per_second": 89.028,
       "step": 4000
     },
     {
+      "epoch": 6.289308176100629,
+      "eval_loss": 5.54873514175415,
+      "eval_runtime": 0.9657,
+      "eval_samples_per_second": 1423.84,
+      "eval_steps_per_second": 89.055,
       "step": 6000
     },
     {
+      "epoch": 8.385744234800839,
+      "grad_norm": 2.7172107696533203,
       "learning_rate": 2e-05,
+      "loss": 5.2204,
       "step": 8000
     },
     {
+      "epoch": 8.385744234800839,
+      "eval_loss": 5.2793288230896,
+      "eval_runtime": 0.9644,
+      "eval_samples_per_second": 1425.779,
+      "eval_steps_per_second": 89.176,
       "step": 8000
     }
   ],
   "logging_steps": 4000,
   "max_steps": 100000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 105,
   "save_steps": 4000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2068529059479552.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-8000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6af9de70859d62cbd3b61f71e8a5bc95702dbc6ddb62d2994641a31953e4ea9b
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c779122676b54107edc62ae0b9293c062733193c5f82a36a2bc097bca192814
 size 5368