Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

latest +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
trainer_state.json +243 -3

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step800~~


1	+ global_step1000

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a86fef55663ceab77cfbc176dbdd7e4f081736340f277ec77498a59dc161cb9
 size 4944210912

 version https://git-lfs.github.com/spec/v1
+oid sha256:44c5dd58db09ef6c8d26f575bb1c52fc43bb2da069752a940c3c786d5296ab76
 size 4944210912

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4637578c863f7b6c9e7b90fae2c226a5d8ee9f85970a6c7b0d065458dc213a58
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fc780af17679805c0358ac7f2f9355f4108dcfad591c2b4c924313d821ed4f2
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cab56107817da51d8770ed50dc05a9d5ca28cfac0d5c0c8437e3afd0b6205b82
 size 4541564920

 version https://git-lfs.github.com/spec/v1
+oid sha256:780efe7446c48ba32e596540697fa9c2036e9ced694d2d25e4cba8622a7085b1
 size 4541564920

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.032494732299256174,
   "eval_steps": 400,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -989,6 +989,246 @@
       "eval_samples_per_second": 17.143,
       "eval_steps_per_second": 2.862,
       "step": 800
     }
   ],
   "logging_steps": 5,
@@ -996,7 +1236,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
-  "total_flos": 110960495632384.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04061841537407022,
   "eval_steps": 400,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.143,
       "eval_steps_per_second": 2.862,
       "step": 800
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.997414356980759e-06,
+      "loss": 0.7896,
+      "step": 805
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9973678321159443e-06,
+      "loss": 0.7029,
+      "step": 810
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9973208929532063e-06,
+      "loss": 0.7063,
+      "step": 815
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9972735395120418e-06,
+      "loss": 0.7171,
+      "step": 820
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.997225771812122e-06,
+      "loss": 0.7217,
+      "step": 825
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9971775898732893e-06,
+      "loss": 0.725,
+      "step": 830
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9971289937155577e-06,
+      "loss": 0.7252,
+      "step": 835
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.997079983359113e-06,
+      "loss": 0.7049,
+      "step": 840
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9970305588243145e-06,
+      "loss": 0.7056,
+      "step": 845
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9969807201316925e-06,
+      "loss": 0.6981,
+      "step": 850
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9969304673019494e-06,
+      "loss": 0.7154,
+      "step": 855
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.99687980035596e-06,
+      "loss": 0.7277,
+      "step": 860
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996828719314771e-06,
+      "loss": 0.7181,
+      "step": 865
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996777224199601e-06,
+      "loss": 0.7028,
+      "step": 870
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.99672531503184e-06,
+      "loss": 0.7336,
+      "step": 875
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996672991833051e-06,
+      "loss": 0.714,
+      "step": 880
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996620254624969e-06,
+      "loss": 0.713,
+      "step": 885
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9965671034295e-06,
+      "loss": 0.7295,
+      "step": 890
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996513538268723e-06,
+      "loss": 0.7798,
+      "step": 895
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9964595591648883e-06,
+      "loss": 0.7388,
+      "step": 900
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9964051661404185e-06,
+      "loss": 0.6813,
+      "step": 905
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9963503592179078e-06,
+      "loss": 0.7163,
+      "step": 910
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996295138420122e-06,
+      "loss": 0.7595,
+      "step": 915
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9962395037700007e-06,
+      "loss": 0.7457,
+      "step": 920
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996183455290653e-06,
+      "loss": 0.6897,
+      "step": 925
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996126993005361e-06,
+      "loss": 0.7031,
+      "step": 930
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.996070116937579e-06,
+      "loss": 0.7177,
+      "step": 935
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9960128271109326e-06,
+      "loss": 0.6966,
+      "step": 940
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9959551235492195e-06,
+      "loss": 0.7391,
+      "step": 945
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9958970062764095e-06,
+      "loss": 0.7456,
+      "step": 950
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9958384753166437e-06,
+      "loss": 0.7072,
+      "step": 955
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.995779530694236e-06,
+      "loss": 0.6894,
+      "step": 960
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9957201724336704e-06,
+      "loss": 0.704,
+      "step": 965
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9956604005596043e-06,
+      "loss": 0.6939,
+      "step": 970
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9956002150968667e-06,
+      "loss": 0.7045,
+      "step": 975
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9955396160704582e-06,
+      "loss": 0.6791,
+      "step": 980
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.99547860350555e-06,
+      "loss": 0.675,
+      "step": 985
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.995417177427488e-06,
+      "loss": 0.7163,
+      "step": 990
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9953553378617866e-06,
+      "loss": 0.6922,
+      "step": 995
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.995293084834134e-06,
+      "loss": 0.7101,
+      "step": 1000
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
+  "total_flos": 138834746810368.0,
   "trial_name": null,
   "trial_params": null
 }