Training in progress, step 1000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +2 -2
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +36 -216
last-checkpoint/training_args.bin +2 -2

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "pilotj/roberta-base-v1",
   "architectures": [
     "RobertaForSequenceClassification"
   ],
@@ -77,7 +77,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.44.2",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

 {
+  "_name_or_path": "pilotj/roberta-base-pretrained-v1",
   "architectures": [
     "RobertaForSequenceClassification"
   ],
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 50265

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9900b3c186c079bcb23fca4d7455eb1c1fa4a6834aa080210c16cf89ed37cf6a
 size 498686648

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbb47bfaa1236115f61567fe8fdfd755a48f14a81fe810bfa5b05f0456856537
 size 498686648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79da3e9caf7d4d2e6f1dcc2334761728f64c3e8f0ede33e99992bae602b52fc1
-size 997493050

 version https://git-lfs.github.com/spec/v1
+oid sha256:f815fc74f6bd8a68f85c1a97196329bbeb31b2a1aab556c287e80f3e106ef1f2
+size 997493114

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:721bc7a5b221d6b012d2388a6a09216865e2462e31bd2e0fe77aaddae689aeb6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ba896bfc67506377d370f41aae67965419a152a2bf120ebf3532f5747c268a3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e27a97977fcc445cdd5c99153117efc644690cb82cdc8080515d4ff3a8dec66
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:570b944acc1715de82f5f251df6b944775e9ac9603b83fb9b4e3b4e43503d7f8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,239 +1,59 @@
 {
-  "best_metric": 0.4090208411216736,
-  "best_model_checkpoint": "results/checkpoint-5000",
-  "epoch": 1.0429506020669386,
   "eval_steps": 500,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0948136910969944,
-      "grad_norm": 273121.5,
-      "learning_rate": 1.905177318414565e-05,
-      "loss": 0.4026,
       "step": 500
     },
     {
-      "epoch": 0.0948136910969944,
-      "eval_accuracy": 0.8695388065978226,
-      "eval_f1_macro": 0.8390046601833578,
-      "eval_f1_w": 0.8708233733420756,
-      "eval_loss": 0.471578985452652,
-      "eval_precision": 0.8742116654929993,
-      "eval_recall": 0.8695388065978226,
-      "eval_runtime": 376.2807,
-      "eval_samples_per_second": 56.875,
-      "eval_steps_per_second": 0.446,
       "step": 500
     },
     {
-      "epoch": 0.1896273821939888,
-      "grad_norm": 298776.75,
-      "learning_rate": 1.8103546368291297e-05,
-      "loss": 0.3968,
       "step": 1000
     },
     {
-      "epoch": 0.1896273821939888,
-      "eval_accuracy": 0.8686977244054016,
-      "eval_f1_macro": 0.8346677335711247,
-      "eval_f1_w": 0.8703092882080509,
-      "eval_loss": 0.45676785707473755,
-      "eval_precision": 0.8751669722412856,
-      "eval_recall": 0.8686977244054016,
-      "eval_runtime": 375.4216,
-      "eval_samples_per_second": 57.005,
-      "eval_steps_per_second": 0.447,
       "step": 1000
-    },
-    {
-      "epoch": 0.2844410732909832,
-      "grad_norm": 330839.46875,
-      "learning_rate": 1.7155319552436945e-05,
-      "loss": 0.3614,
-      "step": 1500
-    },
-    {
-      "epoch": 0.2844410732909832,
-      "eval_accuracy": 0.8692117190785478,
-      "eval_f1_macro": 0.8366798796528604,
-      "eval_f1_w": 0.8714368286444473,
-      "eval_loss": 0.4663577973842621,
-      "eval_precision": 0.8769017804493384,
-      "eval_recall": 0.8692117190785478,
-      "eval_runtime": 369.6202,
-      "eval_samples_per_second": 57.9,
-      "eval_steps_per_second": 0.455,
-      "step": 1500
-    },
-    {
-      "epoch": 0.3792547643879776,
-      "grad_norm": 351888.96875,
-      "learning_rate": 1.6207092736582593e-05,
-      "loss": 0.3413,
-      "step": 2000
-    },
-    {
-      "epoch": 0.3792547643879776,
-      "eval_accuracy": 0.8746320265408158,
-      "eval_f1_macro": 0.8421666352401839,
-      "eval_f1_w": 0.8757671689389476,
-      "eval_loss": 0.4543912708759308,
-      "eval_precision": 0.8788228792310168,
-      "eval_recall": 0.8746320265408158,
-      "eval_runtime": 369.4569,
-      "eval_samples_per_second": 57.926,
-      "eval_steps_per_second": 0.455,
-      "step": 2000
-    },
-    {
-      "epoch": 0.474068455484972,
-      "grad_norm": 248588.671875,
-      "learning_rate": 1.5258865920728237e-05,
-      "loss": 0.3377,
-      "step": 2500
-    },
-    {
-      "epoch": 0.474068455484972,
-      "eval_accuracy": 0.8697724405401617,
-      "eval_f1_macro": 0.8382571121374275,
-      "eval_f1_w": 0.8717700909838132,
-      "eval_loss": 0.4674856960773468,
-      "eval_precision": 0.8768311756042306,
-      "eval_recall": 0.8697724405401617,
-      "eval_runtime": 369.663,
-      "eval_samples_per_second": 57.893,
-      "eval_steps_per_second": 0.454,
-      "step": 2500
-    },
-    {
-      "epoch": 0.5688821465819665,
-      "grad_norm": 296608.8125,
-      "learning_rate": 1.4310639104873887e-05,
-      "loss": 0.4106,
-      "step": 3000
-    },
-    {
-      "epoch": 0.5688821465819665,
-      "eval_accuracy": 0.8773889070604177,
-      "eval_f1_macro": 0.84599701470003,
-      "eval_f1_w": 0.8787421942102768,
-      "eval_loss": 0.42805689573287964,
-      "eval_precision": 0.8819775414007026,
-      "eval_recall": 0.8773889070604177,
-      "eval_runtime": 369.0758,
-      "eval_samples_per_second": 57.985,
-      "eval_steps_per_second": 0.455,
-      "step": 3000
-    },
-    {
-      "epoch": 0.6636958376789608,
-      "grad_norm": 360671.71875,
-      "learning_rate": 1.3362412289019534e-05,
-      "loss": 0.4845,
-      "step": 3500
-    },
-    {
-      "epoch": 0.6636958376789608,
-      "eval_accuracy": 0.8777627213681604,
-      "eval_f1_macro": 0.8440419694609644,
-      "eval_f1_w": 0.8784727825739984,
-      "eval_loss": 0.4156029224395752,
-      "eval_precision": 0.8807763829362149,
-      "eval_recall": 0.8777627213681604,
-      "eval_runtime": 369.3183,
-      "eval_samples_per_second": 57.947,
-      "eval_steps_per_second": 0.455,
-      "step": 3500
-    },
-    {
-      "epoch": 0.7585095287759552,
-      "grad_norm": 292012.375,
-      "learning_rate": 1.241418547316518e-05,
-      "loss": 0.4711,
-      "step": 4000
-    },
-    {
-      "epoch": 0.7585095287759552,
-      "eval_accuracy": 0.8772487266950143,
-      "eval_f1_macro": 0.8459498008507077,
-      "eval_f1_w": 0.878978287181103,
-      "eval_loss": 0.42315369844436646,
-      "eval_precision": 0.8830933782031678,
-      "eval_recall": 0.8772487266950143,
-      "eval_runtime": 369.6327,
-      "eval_samples_per_second": 57.898,
-      "eval_steps_per_second": 0.455,
-      "step": 4000
-    },
-    {
-      "epoch": 0.8533232198729497,
-      "grad_norm": 553655.25,
-      "learning_rate": 1.146595865731083e-05,
-      "loss": 0.4648,
-      "step": 4500
-    },
-    {
-      "epoch": 0.8533232198729497,
-      "eval_accuracy": 0.876501098079529,
-      "eval_f1_macro": 0.8445177150549945,
-      "eval_f1_w": 0.8782560075605943,
-      "eval_loss": 0.4161696434020996,
-      "eval_precision": 0.8828712896671246,
-      "eval_recall": 0.876501098079529,
-      "eval_runtime": 376.9735,
-      "eval_samples_per_second": 56.771,
-      "eval_steps_per_second": 0.446,
-      "step": 4500
-    },
-    {
-      "epoch": 0.948136910969944,
-      "grad_norm": 312566.46875,
-      "learning_rate": 1.0517731841456478e-05,
-      "loss": 0.4634,
-      "step": 5000
-    },
-    {
-      "epoch": 0.948136910969944,
-      "eval_accuracy": 0.8801925143684874,
-      "eval_f1_macro": 0.8492634513992154,
-      "eval_f1_w": 0.8814973283712985,
-      "eval_loss": 0.4090208411216736,
-      "eval_precision": 0.8851875251536223,
-      "eval_recall": 0.8801925143684874,
-      "eval_runtime": 373.6216,
-      "eval_samples_per_second": 57.28,
-      "eval_steps_per_second": 0.45,
-      "step": 5000
-    },
-    {
-      "epoch": 1.0429506020669386,
-      "grad_norm": 298623.21875,
-      "learning_rate": 9.569505025602126e-06,
-      "loss": 0.4332,
-      "step": 5500
-    },
-    {
-      "epoch": 1.0429506020669386,
-      "eval_accuracy": 0.8806597822531658,
-      "eval_f1_macro": 0.8501793427912383,
-      "eval_f1_w": 0.8820343950051113,
-      "eval_loss": 0.4112658202648163,
-      "eval_precision": 0.8853039418950968,
-      "eval_recall": 0.8806597822531658,
-      "eval_runtime": 377.6622,
-      "eval_samples_per_second": 56.667,
-      "eval_steps_per_second": 0.445,
-      "step": 5500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 10546,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -246,8 +66,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8526799220115046e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4097191095352173,
+  "best_model_checkpoint": "results/checkpoint-1000",
+  "epoch": 0.37921880925293894,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.18960940462646947,
+      "grad_norm": 3.0855796337127686,
+      "learning_rate": 1.8103905953735305e-05,
+      "loss": 0.3932,
       "step": 500
     },
     {
+      "epoch": 0.18960940462646947,
+      "eval_accuracy": 0.8802859679454231,
+      "eval_f1_macro": 0.8504927369674822,
+      "eval_f1_w": 0.8815894117039326,
+      "eval_loss": 0.41382548213005066,
+      "eval_precision": 0.8847207792383885,
+      "eval_recall": 0.8802859679454231,
+      "eval_runtime": 26.8685,
+      "eval_samples_per_second": 796.51,
+      "eval_steps_per_second": 12.468,
       "step": 500
     },
     {
+      "epoch": 0.37921880925293894,
+      "grad_norm": 3.5775933265686035,
+      "learning_rate": 1.6207811907470613e-05,
+      "loss": 0.3997,
       "step": 1000
     },
     {
+      "epoch": 0.37921880925293894,
+      "eval_accuracy": 0.8809401429839727,
+      "eval_f1_macro": 0.8499475297827489,
+      "eval_f1_w": 0.8824416398671949,
+      "eval_loss": 0.4097191095352173,
+      "eval_precision": 0.8860689951754195,
+      "eval_recall": 0.8809401429839727,
+      "eval_runtime": 26.7804,
+      "eval_samples_per_second": 799.129,
+      "eval_steps_per_second": 12.509,
       "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5274,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 6.7370944561152e+16,
+  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5add9cc612ced3da535c4ff1875848067ed7f560d9dea79e9817af3f61331a
-size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d2ac5ef996fdddaed4945f20a88f7c048db0d5270b6ecce4dd956dcf5aae1d5
+size 5240