masapasa
/

xls-r-300m-it-cv8-ds13

+{
+    "epoch": 49.99,
+    "eval_loss": 0.35485121607780457,
+    "eval_runtime": 165.9954,
+    "eval_samples": 4843,
+    "eval_samples_per_second": 29.176,
+    "eval_steps_per_second": 0.916,
+    "eval_wer": 0.38265682656826566,
+    "train_loss": 2.1873197584885817,
+    "train_runtime": 245048.5131,
+    "train_samples": 11690,
+    "train_samples_per_second": 2.385,
+    "train_steps_per_second": 0.019
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 49.99,
+    "eval_loss": 0.35485121607780457,
+    "eval_runtime": 165.9954,
+    "eval_samples": 4843,
+    "eval_samples_per_second": 29.176,
+    "eval_steps_per_second": 0.916,
+    "eval_wer": 0.38265682656826566
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 49.99,
+    "train_loss": 2.1873197584885817,
+    "train_runtime": 245048.5131,
+    "train_samples": 11690,
+    "train_samples_per_second": 2.385,
+    "train_steps_per_second": 0.019
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,376 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 49.994535519125684,
+  "global_step": 4550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.1,
+      "learning_rate": 3.7499999999999997e-06,
+      "loss": 14.8405,
+      "step": 100
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 7.499999999999999e-06,
+      "loss": 6.8597,
+      "step": 200
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.1249999999999999e-05,
+      "loss": 4.4132,
+      "step": 300
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 1.4999999999999999e-05,
+      "loss": 3.7795,
+      "step": 400
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 1.875e-05,
+      "loss": 3.4129,
+      "step": 500
+    },
+    {
+      "epoch": 5.49,
+      "eval_loss": 3.3224499225616455,
+      "eval_runtime": 168.3653,
+      "eval_samples_per_second": 28.765,
+      "eval_steps_per_second": 0.903,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 2.2499999999999998e-05,
+      "loss": 3.2045,
+      "step": 600
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 2.6249999999999998e-05,
+      "loss": 3.142,
+      "step": 700
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 3.0872,
+      "step": 800
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 3.375e-05,
+      "loss": 2.9848,
+      "step": 900
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 3.75e-05,
+      "loss": 2.9323,
+      "step": 1000
+    },
+    {
+      "epoch": 10.98,
+      "eval_loss": 2.9127891063690186,
+      "eval_runtime": 166.7051,
+      "eval_samples_per_second": 29.051,
+      "eval_steps_per_second": 0.912,
+      "eval_wer": 1.0000283848992335,
+      "step": 1000
+    },
+    {
+      "epoch": 12.09,
+      "learning_rate": 4.125e-05,
+      "loss": 2.9013,
+      "step": 1100
+    },
+    {
+      "epoch": 13.19,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 2.729,
+      "step": 1200
+    },
+    {
+      "epoch": 14.28,
+      "learning_rate": 4.875e-05,
+      "loss": 2.1939,
+      "step": 1300
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 5.2499999999999995e-05,
+      "loss": 1.8125,
+      "step": 1400
+    },
+    {
+      "epoch": 16.48,
+      "learning_rate": 5.625e-05,
+      "loss": 1.6839,
+      "step": 1500
+    },
+    {
+      "epoch": 16.48,
+      "eval_loss": 0.7740097641944885,
+      "eval_runtime": 167.3266,
+      "eval_samples_per_second": 28.943,
+      "eval_steps_per_second": 0.908,
+      "eval_wer": 0.685381776894692,
+      "step": 1500
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.6194,
+      "step": 1600
+    },
+    {
+      "epoch": 18.68,
+      "learning_rate": 6.374999999999999e-05,
+      "loss": 1.5613,
+      "step": 1700
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 6.75e-05,
+      "loss": 1.5197,
+      "step": 1800
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 7.1175e-05,
+      "loss": 1.5009,
+      "step": 1900
+    },
+    {
+      "epoch": 21.97,
+      "learning_rate": 7.492499999999999e-05,
+      "loss": 1.485,
+      "step": 2000
+    },
+    {
+      "epoch": 21.97,
+      "eval_loss": 0.5829736590385437,
+      "eval_runtime": 166.3956,
+      "eval_samples_per_second": 29.105,
+      "eval_steps_per_second": 0.913,
+      "eval_wer": 0.597615668464377,
+      "step": 2000
+    },
+    {
+      "epoch": 23.08,
+      "learning_rate": 7.211764705882351e-05,
+      "loss": 1.4606,
+      "step": 2100
+    },
+    {
+      "epoch": 24.17,
+      "learning_rate": 6.920588235294117e-05,
+      "loss": 1.4257,
+      "step": 2200
+    },
+    {
+      "epoch": 25.27,
+      "learning_rate": 6.626470588235294e-05,
+      "loss": 1.4002,
+      "step": 2300
+    },
+    {
+      "epoch": 26.37,
+      "learning_rate": 6.33235294117647e-05,
+      "loss": 1.3856,
+      "step": 2400
+    },
+    {
+      "epoch": 27.47,
+      "learning_rate": 6.038235294117646e-05,
+      "loss": 1.362,
+      "step": 2500
+    },
+    {
+      "epoch": 27.47,
+      "eval_loss": 0.48657190799713135,
+      "eval_runtime": 166.2387,
+      "eval_samples_per_second": 29.133,
+      "eval_steps_per_second": 0.914,
+      "eval_wer": 0.490519443655975,
+      "step": 2500
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 5.744117647058823e-05,
+      "loss": 1.3342,
+      "step": 2600
+    },
+    {
+      "epoch": 29.67,
+      "learning_rate": 5.4499999999999997e-05,
+      "loss": 1.318,
+      "step": 2700
+    },
+    {
+      "epoch": 30.77,
+      "learning_rate": 5.155882352941176e-05,
+      "loss": 1.3013,
+      "step": 2800
+    },
+    {
+      "epoch": 31.86,
+      "learning_rate": 4.861764705882352e-05,
+      "loss": 1.2849,
+      "step": 2900
+    },
+    {
+      "epoch": 32.96,
+      "learning_rate": 4.567647058823529e-05,
+      "loss": 1.2752,
+      "step": 3000
+    },
+    {
+      "epoch": 32.96,
+      "eval_loss": 0.42398178577423096,
+      "eval_runtime": 167.0219,
+      "eval_samples_per_second": 28.996,
+      "eval_steps_per_second": 0.91,
+      "eval_wer": 0.4966789667896679,
+      "step": 3000
+    },
+    {
+      "epoch": 34.07,
+      "learning_rate": 4.2735294117647056e-05,
+      "loss": 1.2682,
+      "step": 3100
+    },
+    {
+      "epoch": 35.16,
+      "learning_rate": 3.979411764705882e-05,
+      "loss": 1.2428,
+      "step": 3200
+    },
+    {
+      "epoch": 36.26,
+      "learning_rate": 3.6852941176470586e-05,
+      "loss": 1.2282,
+      "step": 3300
+    },
+    {
+      "epoch": 37.36,
+      "learning_rate": 3.391176470588235e-05,
+      "loss": 1.2198,
+      "step": 3400
+    },
+    {
+      "epoch": 38.46,
+      "learning_rate": 3.0970588235294116e-05,
+      "loss": 1.1957,
+      "step": 3500
+    },
+    {
+      "epoch": 38.46,
+      "eval_loss": 0.38985687494277954,
+      "eval_runtime": 166.2154,
+      "eval_samples_per_second": 29.137,
+      "eval_steps_per_second": 0.914,
+      "eval_wer": 0.42577348850411584,
+      "step": 3500
+    },
+    {
+      "epoch": 39.56,
+      "learning_rate": 2.8029411764705878e-05,
+      "loss": 1.1891,
+      "step": 3600
+    },
+    {
+      "epoch": 40.66,
+      "learning_rate": 2.5088235294117646e-05,
+      "loss": 1.1847,
+      "step": 3700
+    },
+    {
+      "epoch": 41.75,
+      "learning_rate": 2.2147058823529408e-05,
+      "loss": 1.1779,
+      "step": 3800
+    },
+    {
+      "epoch": 42.85,
+      "learning_rate": 1.9205882352941176e-05,
+      "loss": 1.1654,
+      "step": 3900
+    },
+    {
+      "epoch": 43.95,
+      "learning_rate": 1.626470588235294e-05,
+      "loss": 1.1646,
+      "step": 4000
+    },
+    {
+      "epoch": 43.95,
+      "eval_loss": 0.3597247898578644,
+      "eval_runtime": 165.7161,
+      "eval_samples_per_second": 29.225,
+      "eval_steps_per_second": 0.917,
+      "eval_wer": 0.401447629860914,
+      "step": 4000
+    },
+    {
+      "epoch": 45.05,
+      "learning_rate": 1.3323529411764704e-05,
+      "loss": 1.1574,
+      "step": 4100
+    },
+    {
+      "epoch": 46.15,
+      "learning_rate": 1.0411764705882353e-05,
+      "loss": 1.1513,
+      "step": 4200
+    },
+    {
+      "epoch": 47.25,
+      "learning_rate": 7.470588235294117e-06,
+      "loss": 1.1412,
+      "step": 4300
+    },
+    {
+      "epoch": 48.35,
+      "learning_rate": 4.529411764705882e-06,
+      "loss": 1.1383,
+      "step": 4400
+    },
+    {
+      "epoch": 49.45,
+      "learning_rate": 1.5882352941176468e-06,
+      "loss": 1.1265,
+      "step": 4500
+    },
+    {
+      "epoch": 49.45,
+      "eval_loss": 0.35590532422065735,
+      "eval_runtime": 165.6811,
+      "eval_samples_per_second": 29.231,
+      "eval_steps_per_second": 0.917,
+      "eval_wer": 0.38288390576213455,
+      "step": 4500
+    },
+    {
+      "epoch": 49.99,
+      "step": 4550,
+      "total_flos": 7.032770514539837e+19,
+      "train_loss": 2.1873197584885817,
+      "train_runtime": 245048.5131,
+      "train_samples_per_second": 2.385,
+      "train_steps_per_second": 0.019
+    }
+  ],
+  "max_steps": 4550,
+  "num_train_epochs": 50,
+  "total_flos": 7.032770514539837e+19,
+  "trial_name": null,
+  "trial_params": null
+}