Actualización del modelo checkpoint-7500

Files changed (5) hide show

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:238ab42553be8fc3276610b67c07339429ab61e9b3f8f2b2d218aed3e4ca07a7
 size 441688704

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0eab42afbe7426243ce2d1ba6d75bee3824af2608b6de41071a84386819d212
 size 441688704

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:576ae156a30975aea89972278d576665dce6fd9ed104db62242d985ba6444cf4
 size 883471290

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ac4342be3e5e9c64cccffd26a9b64e7ba43b1a71341df9c15fcdb95bfdc8c6
 size 883471290

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5345d70bc19018e998f69ac4b42c33f542673240cb13fd624a4131428322821
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fa65d50f300351e16710ce6fdba2dfa9ec2f3bdf289c24ec5e16f4d3b6df252
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abf4e8f15b919e4ad1922068bdbba1f948f1a02e34d004401a6af2ada11f889b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3cb4a4f1b4e6790e05db05fba5f2ecb9a205991b4a9dda8eb6e91346526cb8c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09830425165888425,
   "eval_steps": 500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -91,6 +91,27 @@
       "learning_rate": 0.000593235766021606,
       "loss": 1.2326,
       "step": 6000
     }
   ],
   "logging_steps": 500,
@@ -110,7 +131,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.00336140288e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1228803145736053,
   "eval_steps": 500,
+  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.000593235766021606,
       "loss": 1.2326,
       "step": 6000
+    },
+    {
+      "epoch": 0.10649627263045794,
+      "grad_norm": 0.15231232345104218,
+      "learning_rate": 0.000591446651015159,
+      "loss": 1.2247,
+      "step": 6500
+    },
+    {
+      "epoch": 0.11468829360203162,
+      "grad_norm": 0.14419229328632355,
+      "learning_rate": 0.0005894512099580222,
+      "loss": 1.2203,
+      "step": 7000
+    },
+    {
+      "epoch": 0.1228803145736053,
+      "grad_norm": 0.1426558941602707,
+      "learning_rate": 0.0005872508554980035,
+      "loss": 1.2077,
+      "step": 7500
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.2542017536e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null