MHGanainy/8-clusters-balanced-lex-best-v2-2

Browse files

Files changed (4) hide show

all_results.json +9 -9
eval_results.json +5 -5
train_results.json +4 -4
trainer_state.json +46 -46

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 1.5749374628067017,
-    "eval_runtime": 30.5122,
-    "eval_samples_per_second": 15.404,
-    "eval_steps_per_second": 1.934,
-    "perplexity": 4.83043952653401,
     "total_flos": 3.505428283392e+16,
-    "train_loss": 1.8147928668926288,
-    "train_runtime": 577.3896,
-    "train_samples_per_second": 6.666,
-    "train_steps_per_second": 3.334
 }

 {
     "epoch": 1.0,
+    "eval_loss": 1.5753202438354492,
+    "eval_runtime": 30.3994,
+    "eval_samples_per_second": 15.461,
+    "eval_steps_per_second": 1.941,
+    "perplexity": 4.832288881071616,
     "total_flos": 3.505428283392e+16,
+    "train_loss": 1.8155303717278815,
+    "train_runtime": 577.5445,
+    "train_samples_per_second": 6.664,
+    "train_steps_per_second": 3.333
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_loss": 1.5749374628067017,
-    "eval_runtime": 30.5122,
-    "eval_samples_per_second": 15.404,
-    "eval_steps_per_second": 1.934,
-    "perplexity": 4.83043952653401
 }

 {
     "epoch": 1.0,
+    "eval_loss": 1.5753202438354492,
+    "eval_runtime": 30.3994,
+    "eval_samples_per_second": 15.461,
+    "eval_steps_per_second": 1.941,
+    "perplexity": 4.832288881071616
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
     "total_flos": 3.505428283392e+16,
-    "train_loss": 1.8147928668926288,
-    "train_runtime": 577.3896,
-    "train_samples_per_second": 6.666,
-    "train_steps_per_second": 3.334
 }

 {
     "epoch": 1.0,
     "total_flos": 3.505428283392e+16,
+    "train_loss": 1.8155303717278815,
+    "train_runtime": 577.5445,
+    "train_samples_per_second": 6.664,
+    "train_steps_per_second": 3.333
 }

trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.05194805194805195,
-      "grad_norm": 0.17290189862251282,
       "learning_rate": 1.0416666666666668e-05,
-      "loss": 2.3684,
       "step": 100
     },
     {
       "epoch": 0.1038961038961039,
-      "grad_norm": 0.3600994646549225,
       "learning_rate": 1.9998948413537803e-05,
-      "loss": 2.3046,
       "step": 200
     },
     {
       "epoch": 0.15584415584415584,
-      "grad_norm": 0.5850092172622681,
       "learning_rate": 1.980895642046523e-05,
-      "loss": 2.1318,
       "step": 300
     },
     {
       "epoch": 0.2077922077922078,
-      "grad_norm": 0.8237331509590149,
       "learning_rate": 1.929749789909194e-05,
-      "loss": 1.9827,
       "step": 400
     },
     {
       "epoch": 0.2597402597402597,
-      "grad_norm": 0.8907209038734436,
       "learning_rate": 1.8481334754373765e-05,
-      "loss": 1.9117,
       "step": 500
     },
     {
       "epoch": 0.3116883116883117,
-      "grad_norm": 0.9720600843429565,
       "learning_rate": 1.738721490131949e-05,
-      "loss": 1.8286,
       "step": 600
     },
     {
       "epoch": 0.36363636363636365,
-      "grad_norm": 1.116287350654602,
       "learning_rate": 1.6050995662118095e-05,
-      "loss": 1.7962,
       "step": 700
     },
     {
       "epoch": 0.4155844155844156,
-      "grad_norm": 1.459151268005371,
       "learning_rate": 1.4516468622893718e-05,
-      "loss": 1.7518,
       "step": 800
     },
     {
       "epoch": 0.4675324675324675,
-      "grad_norm": 1.180469274520874,
       "learning_rate": 1.2833924462770364e-05,
-      "loss": 1.7222,
       "step": 900
     },
     {
       "epoch": 0.5194805194805194,
-      "grad_norm": 1.3427335023880005,
       "learning_rate": 1.1058504789752234e-05,
-      "loss": 1.7119,
       "step": 1000
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.9414641261100769,
       "learning_rate": 9.248394998298933e-06,
-      "loss": 1.6849,
       "step": 1100
     },
     {
       "epoch": 0.6233766233766234,
-      "grad_norm": 1.2423919439315796,
       "learning_rate": 7.462917373632123e-06,
-      "loss": 1.6988,
       "step": 1200
     },
     {
       "epoch": 0.6753246753246753,
-      "grad_norm": 1.192747712135315,
       "learning_rate": 5.760586936999395e-06,
-      "loss": 1.6711,
       "step": 1300
     },
     {
       "epoch": 0.7272727272727273,
-      "grad_norm": 1.2693215608596802,
       "learning_rate": 4.197193747202849e-06,
-      "loss": 1.6736,
       "step": 1400
     },
     {
       "epoch": 0.7792207792207793,
-      "grad_norm": 1.3713454008102417,
       "learning_rate": 2.8239745066550085e-06,
-      "loss": 1.7001,
       "step": 1500
     },
     {
       "epoch": 0.8311688311688312,
-      "grad_norm": 1.3934439420700073,
       "learning_rate": 1.6859333934694332e-06,
-      "loss": 1.6551,
       "step": 1600
     },
     {
       "epoch": 0.8831168831168831,
-      "grad_norm": 1.3122085332870483,
       "learning_rate": 8.20367150544884e-07,
-      "loss": 1.6369,
       "step": 1700
     },
     {
       "epoch": 0.935064935064935,
-      "grad_norm": 1.1316357851028442,
       "learning_rate": 2.5564276853764057e-07,
-      "loss": 1.6674,
       "step": 1800
     },
     {
       "epoch": 0.987012987012987,
-      "grad_norm": 1.294811487197876,
       "learning_rate": 1.026782141876237e-08,
-      "loss": 1.6051,
       "step": 1900
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.5749374628067017,
-      "eval_runtime": 30.4803,
-      "eval_samples_per_second": 15.42,
-      "eval_steps_per_second": 1.936,
       "step": 1925
     },
     {
       "epoch": 1.0,
       "step": 1925,
       "total_flos": 3.505428283392e+16,
-      "train_loss": 1.8147928668926288,
-      "train_runtime": 577.3896,
-      "train_samples_per_second": 6.666,
-      "train_steps_per_second": 3.334
     }
   ],
   "logging_steps": 100,

   "log_history": [
     {
       "epoch": 0.05194805194805195,
+      "grad_norm": 0.16665750741958618,
       "learning_rate": 1.0416666666666668e-05,
+      "loss": 2.3686,
       "step": 100
     },
     {
       "epoch": 0.1038961038961039,
+      "grad_norm": 0.3539956212043762,
       "learning_rate": 1.9998948413537803e-05,
+      "loss": 2.3053,
       "step": 200
     },
     {
       "epoch": 0.15584415584415584,
+      "grad_norm": 0.5798401236534119,
       "learning_rate": 1.980895642046523e-05,
+      "loss": 2.1333,
       "step": 300
     },
     {
       "epoch": 0.2077922077922078,
+      "grad_norm": 0.8114813566207886,
       "learning_rate": 1.929749789909194e-05,
+      "loss": 1.985,
       "step": 400
     },
     {
       "epoch": 0.2597402597402597,
+      "grad_norm": 0.8917730450630188,
       "learning_rate": 1.8481334754373765e-05,
+      "loss": 1.9134,
       "step": 500
     },
     {
       "epoch": 0.3116883116883117,
+      "grad_norm": 0.9438478350639343,
       "learning_rate": 1.738721490131949e-05,
+      "loss": 1.8299,
       "step": 600
     },
     {
       "epoch": 0.36363636363636365,
+      "grad_norm": 1.0963283777236938,
       "learning_rate": 1.6050995662118095e-05,
+      "loss": 1.797,
       "step": 700
     },
     {
       "epoch": 0.4155844155844156,
+      "grad_norm": 1.442098617553711,
       "learning_rate": 1.4516468622893718e-05,
+      "loss": 1.7525,
       "step": 800
     },
     {
       "epoch": 0.4675324675324675,
+      "grad_norm": 1.1528605222702026,
       "learning_rate": 1.2833924462770364e-05,
+      "loss": 1.7228,
       "step": 900
     },
     {
       "epoch": 0.5194805194805194,
+      "grad_norm": 1.329001545906067,
       "learning_rate": 1.1058504789752234e-05,
+      "loss": 1.7123,
       "step": 1000
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.9347788691520691,
       "learning_rate": 9.248394998298933e-06,
+      "loss": 1.6857,
       "step": 1100
     },
     {
       "epoch": 0.6233766233766234,
+      "grad_norm": 1.225298523902893,
       "learning_rate": 7.462917373632123e-06,
+      "loss": 1.6992,
       "step": 1200
     },
     {
       "epoch": 0.6753246753246753,
+      "grad_norm": 1.1854369640350342,
       "learning_rate": 5.760586936999395e-06,
+      "loss": 1.6715,
       "step": 1300
     },
     {
       "epoch": 0.7272727272727273,
+      "grad_norm": 1.2654165029525757,
       "learning_rate": 4.197193747202849e-06,
+      "loss": 1.6741,
       "step": 1400
     },
     {
       "epoch": 0.7792207792207793,
+      "grad_norm": 1.3753448724746704,
       "learning_rate": 2.8239745066550085e-06,
+      "loss": 1.7005,
       "step": 1500
     },
     {
       "epoch": 0.8311688311688312,
+      "grad_norm": 1.3942779302597046,
       "learning_rate": 1.6859333934694332e-06,
+      "loss": 1.6554,
       "step": 1600
     },
     {
       "epoch": 0.8831168831168831,
+      "grad_norm": 1.2966676950454712,
       "learning_rate": 8.20367150544884e-07,
+      "loss": 1.6371,
       "step": 1700
     },
     {
       "epoch": 0.935064935064935,
+      "grad_norm": 1.1420341730117798,
       "learning_rate": 2.5564276853764057e-07,
+      "loss": 1.6679,
       "step": 1800
     },
     {
       "epoch": 0.987012987012987,
+      "grad_norm": 1.289973497390747,
       "learning_rate": 1.026782141876237e-08,
+      "loss": 1.6056,
       "step": 1900
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.5753202438354492,
+      "eval_runtime": 30.4933,
+      "eval_samples_per_second": 15.413,
+      "eval_steps_per_second": 1.935,
       "step": 1925
     },
     {
       "epoch": 1.0,
       "step": 1925,
       "total_flos": 3.505428283392e+16,
+      "train_loss": 1.8155303717278815,
+      "train_runtime": 577.5445,
+      "train_samples_per_second": 6.664,
+      "train_steps_per_second": 3.333
     }
   ],
   "logging_steps": 100,