Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

latest +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
trainer_state.json +243 -3

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1200~~


1	+ global_step1400

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b692de05056f10e069f7e9c0915bb02734793c59dca77041aa1eea315cd3a34
 size 4944210912

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2a7378f1bd417634c652504fb1e073ff746c4473bbae4330d0538bf5807bb8f
 size 4944210912

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01a591f9840a3d2a9ee3c6234e6fd9ab33bcc1c98a7b45790346153f338a5b2f
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a0968dc461aae4fc1998cdc77c5cbb847ea94aa677782e98019100676a5651b
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d2eebebc0731faba3082c7171851b35cf53492353b5c7014bd348a3bae4aaa3
 size 4541564920

 version https://git-lfs.github.com/spec/v1
+oid sha256:17d84f4054dd4557afb62fbc6491863a0b10f8c4a27f0c3c24f787a70a891f75
 size 4541564920

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04874209844888426,
   "eval_steps": 400,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1477,6 +1477,246 @@
       "eval_samples_per_second": 17.136,
       "eval_steps_per_second": 2.861,
       "step": 1200
     }
   ],
   "logging_steps": 5,
@@ -1484,7 +1724,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
-  "total_flos": 166374297772032.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.056865781523698304,
   "eval_steps": 400,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.136,
       "eval_steps_per_second": 2.861,
       "step": 1200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.992385060274044e-06,
+      "loss": 0.6971,
+      "step": 1205
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9923054673134564e-06,
+      "loss": 0.7887,
+      "step": 1210
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.992225462157807e-06,
+      "loss": 0.7134,
+      "step": 1215
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.99214504484033e-06,
+      "loss": 0.7384,
+      "step": 1220
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9920642153944288e-06,
+      "loss": 0.7228,
+      "step": 1225
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9919829738536806e-06,
+      "loss": 0.6835,
+      "step": 1230
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991901320251831e-06,
+      "loss": 0.6922,
+      "step": 1235
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9918192546227995e-06,
+      "loss": 0.7258,
+      "step": 1240
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991736777000675e-06,
+      "loss": 0.7399,
+      "step": 1245
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9916538874197176e-06,
+      "loss": 0.7625,
+      "step": 1250
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9915705859143594e-06,
+      "loss": 0.6707,
+      "step": 1255
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9914868725192025e-06,
+      "loss": 0.6932,
+      "step": 1260
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991402747269022e-06,
+      "loss": 0.7425,
+      "step": 1265
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991318210198761e-06,
+      "loss": 0.7002,
+      "step": 1270
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991233261343537e-06,
+      "loss": 0.6766,
+      "step": 1275
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9911479007386364e-06,
+      "loss": 0.7258,
+      "step": 1280
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.991062128419517e-06,
+      "loss": 0.7467,
+      "step": 1285
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9909759444218085e-06,
+      "loss": 0.722,
+      "step": 1290
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9908893487813106e-06,
+      "loss": 0.7107,
+      "step": 1295
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.990802341533994e-06,
+      "loss": 0.7337,
+      "step": 1300
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9907149227160016e-06,
+      "loss": 0.7075,
+      "step": 1305
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9906270923636457e-06,
+      "loss": 0.7157,
+      "step": 1310
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9905388505134107e-06,
+      "loss": 0.6916,
+      "step": 1315
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.990450197201951e-06,
+      "loss": 0.6997,
+      "step": 1320
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.990361132466093e-06,
+      "loss": 0.7067,
+      "step": 1325
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9902716563428335e-06,
+      "loss": 0.7209,
+      "step": 1330
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9901817688693395e-06,
+      "loss": 0.7004,
+      "step": 1335
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.99009147008295e-06,
+      "loss": 0.713,
+      "step": 1340
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9900007600211735e-06,
+      "loss": 0.6596,
+      "step": 1345
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9899096387216914e-06,
+      "loss": 0.7426,
+      "step": 1350
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9898181062223536e-06,
+      "loss": 0.7103,
+      "step": 1355
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9897261625611822e-06,
+      "loss": 0.6906,
+      "step": 1360
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9896338077763704e-06,
+      "loss": 0.7082,
+      "step": 1365
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.989541041906281e-06,
+      "loss": 0.7135,
+      "step": 1370
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9894478649894484e-06,
+      "loss": 0.7033,
+      "step": 1375
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.989354277064577e-06,
+      "loss": 0.7452,
+      "step": 1380
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9892602781705427e-06,
+      "loss": 0.6947,
+      "step": 1385
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.9891658683463922e-06,
+      "loss": 0.7412,
+      "step": 1390
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.989071047631342e-06,
+      "loss": 0.6646,
+      "step": 1395
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.98897581606478e-06,
+      "loss": 0.6847,
+      "step": 1400
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
+  "total_flos": 194475417608192.0,
   "trial_name": null,
   "trial_params": null
 }