Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

latest +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
trainer_state.json +251 -3

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1000~~


1	+ global_step1200

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44c5dd58db09ef6c8d26f575bb1c52fc43bb2da069752a940c3c786d5296ab76
 size 4944210912

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b692de05056f10e069f7e9c0915bb02734793c59dca77041aa1eea315cd3a34
 size 4944210912

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fc780af17679805c0358ac7f2f9355f4108dcfad591c2b4c924313d821ed4f2
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:01a591f9840a3d2a9ee3c6234e6fd9ab33bcc1c98a7b45790346153f338a5b2f
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:780efe7446c48ba32e596540697fa9c2036e9ced694d2d25e4cba8622a7085b1
 size 4541564920

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d2eebebc0731faba3082c7171851b35cf53492353b5c7014bd348a3bae4aaa3
 size 4541564920

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04061841537407022,
   "eval_steps": 400,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1229,6 +1229,254 @@
       "learning_rate": 1.995293084834134e-06,
       "loss": 0.7101,
       "step": 1000
     }
   ],
   "logging_steps": 5,
@@ -1236,7 +1484,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
-  "total_flos": 138834746810368.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04874209844888426,
   "eval_steps": 400,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.995293084834134e-06,
       "loss": 0.7101,
       "step": 1000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9952304183703893e-06,
+      "loss": 0.7109,
+      "step": 1005
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9951673384965835e-06,
+      "loss": 0.7103,
+      "step": 1010
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.99510384523892e-06,
+      "loss": 0.7677,
+      "step": 1015
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.995039938623773e-06,
+      "loss": 0.7371,
+      "step": 1020
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9949756186776893e-06,
+      "loss": 0.7204,
+      "step": 1025
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9949108854273855e-06,
+      "loss": 0.7271,
+      "step": 1030
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9948457388997528e-06,
+      "loss": 0.7031,
+      "step": 1035
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.994780179121851e-06,
+      "loss": 0.7612,
+      "step": 1040
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.994714206120914e-06,
+      "loss": 0.7234,
+      "step": 1045
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9946478199243466e-06,
+      "loss": 0.7187,
+      "step": 1050
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9945810205597246e-06,
+      "loss": 0.7004,
+      "step": 1055
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9945138080547957e-06,
+      "loss": 0.6932,
+      "step": 1060
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.99444618243748e-06,
+      "loss": 0.7135,
+      "step": 1065
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.994378143735868e-06,
+      "loss": 0.7056,
+      "step": 1070
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9943096919782225e-06,
+      "loss": 0.6984,
+      "step": 1075
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.994240827192978e-06,
+      "loss": 0.6947,
+      "step": 1080
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9941715494087408e-06,
+      "loss": 0.7332,
+      "step": 1085
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9941018586542866e-06,
+      "loss": 0.6963,
+      "step": 1090
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9940317549585665e-06,
+      "loss": 0.7245,
+      "step": 1095
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9939612383506993e-06,
+      "loss": 0.769,
+      "step": 1100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.993890308859978e-06,
+      "loss": 0.7245,
+      "step": 1105
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9938189665158654e-06,
+      "loss": 0.6868,
+      "step": 1110
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9937472113479966e-06,
+      "loss": 0.7072,
+      "step": 1115
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9936750433861787e-06,
+      "loss": 0.7415,
+      "step": 1120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993602462660389e-06,
+      "loss": 0.71,
+      "step": 1125
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993529469200777e-06,
+      "loss": 0.7006,
+      "step": 1130
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993456063037664e-06,
+      "loss": 0.6957,
+      "step": 1135
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9933822442015416e-06,
+      "loss": 0.733,
+      "step": 1140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993308012723074e-06,
+      "loss": 0.7156,
+      "step": 1145
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993233368633096e-06,
+      "loss": 0.6977,
+      "step": 1150
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.993158311962614e-06,
+      "loss": 0.6911,
+      "step": 1155
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9930828427428066e-06,
+      "loss": 0.7124,
+      "step": 1160
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9930069610050224e-06,
+      "loss": 0.7197,
+      "step": 1165
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9929306667807823e-06,
+      "loss": 0.7129,
+      "step": 1170
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.992853960101778e-06,
+      "loss": 0.6775,
+      "step": 1175
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9927768409998733e-06,
+      "loss": 0.7333,
+      "step": 1180
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.992699309507102e-06,
+      "loss": 0.6704,
+      "step": 1185
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.992621365655671e-06,
+      "loss": 0.7136,
+      "step": 1190
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9925430094779566e-06,
+      "loss": 0.696,
+      "step": 1195
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.9924642410065075e-06,
+      "loss": 0.7362,
+      "step": 1200
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.6821444630622864,
+      "eval_runtime": 138.0679,
+      "eval_samples_per_second": 17.136,
+      "eval_steps_per_second": 2.861,
+      "step": 1200
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 200,
+  "total_flos": 166374297772032.0,
   "trial_name": null,
   "trial_params": null
 }