End of training

Browse files

Files changed (7) hide show

README.md +4 -1
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Dec29_10-50-15_srvrocgpu011.uct.ac.za/events.out.tfevents.1735466492.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +442 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bigcgen-female-30hrs-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
 - Wer: 0.5369

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bigcgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bigcgen-female-30hrs-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BIGCGEN - BEM dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
 - Wer: 0.5369

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15de0db1d4c88574527bfc1528fff4eac3a2aad371946d2d759c9766517a1dc2
+size 8793408

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.2519408965689958,
+    "eval_loss": Infinity,
+    "eval_runtime": 33.0579,
+    "eval_samples": 475,
+    "eval_samples_per_second": 14.369,
+    "eval_steps_per_second": 3.6,
+    "eval_wer": 0.5368898978433598,
+    "total_flos": 1.2637235735504001e+19,
+    "train_loss": 2.4210814453125,
+    "train_runtime": 3711.8357,
+    "train_samples": 15972,
+    "train_samples_per_second": 5.388,
+    "train_steps_per_second": 0.674
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.2519408965689958,
+    "eval_loss": Infinity,
+    "eval_runtime": 33.0579,
+    "eval_samples": 475,
+    "eval_samples_per_second": 14.369,
+    "eval_steps_per_second": 3.6,
+    "eval_wer": 0.5368898978433598
+}

runs/Dec29_10-50-15_srvrocgpu011.uct.ac.za/events.out.tfevents.1735466492.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8314b0ae1adf153b214db193b2acdf35b3ae80ece0525eb2ed6f5664cb1564de
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.2519408965689958,
+    "total_flos": 1.2637235735504001e+19,
+    "train_loss": 2.4210814453125,
+    "train_runtime": 3711.8357,
+    "train_samples": 15972,
+    "train_samples_per_second": 5.388,
+    "train_steps_per_second": 0.674
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "best_metric": Infinity,
+  "best_model_checkpoint": null,
+  "epoch": 1.2519408965689958,
+  "eval_steps": 100,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05008765339343852,
+      "grad_norm": 4.929053783416748,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 14.2597,
+      "step": 100
+    },
+    {
+      "epoch": 0.05008765339343852,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8397,
+      "eval_samples_per_second": 14.464,
+      "eval_steps_per_second": 3.624,
+      "eval_wer": 1.0024971623155505,
+      "step": 100
+    },
+    {
+      "epoch": 0.10017530678687704,
+      "grad_norm": 5.331048488616943,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 6.2197,
+      "step": 200
+    },
+    {
+      "epoch": 0.10017530678687704,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.789,
+      "eval_samples_per_second": 14.487,
+      "eval_steps_per_second": 3.629,
+      "eval_wer": 0.9945516458569807,
+      "step": 200
+    },
+    {
+      "epoch": 0.15026296018031554,
+      "grad_norm": 8.833192825317383,
+      "learning_rate": 0.0002755,
+      "loss": 5.2752,
+      "step": 300
+    },
+    {
+      "epoch": 0.15026296018031554,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.5896,
+      "eval_samples_per_second": 14.575,
+      "eval_steps_per_second": 3.651,
+      "eval_wer": 1.03155505107832,
+      "step": 300
+    },
+    {
+      "epoch": 0.20035061357375408,
+      "grad_norm": 4.219055652618408,
+      "learning_rate": 0.000263,
+      "loss": 2.3626,
+      "step": 400
+    },
+    {
+      "epoch": 0.20035061357375408,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.7388,
+      "eval_samples_per_second": 14.509,
+      "eval_steps_per_second": 3.635,
+      "eval_wer": 0.5997729852440409,
+      "step": 400
+    },
+    {
+      "epoch": 0.25043826696719257,
+      "grad_norm": 3.2875781059265137,
+      "learning_rate": 0.000250625,
+      "loss": 1.7448,
+      "step": 500
+    },
+    {
+      "epoch": 0.25043826696719257,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8725,
+      "eval_samples_per_second": 14.45,
+      "eval_steps_per_second": 3.62,
+      "eval_wer": 0.5813847900113507,
+      "step": 500
+    },
+    {
+      "epoch": 0.3005259203606311,
+      "grad_norm": 4.664038181304932,
+      "learning_rate": 0.00023812499999999997,
+      "loss": 1.6955,
+      "step": 600
+    },
+    {
+      "epoch": 0.3005259203606311,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.747,
+      "eval_samples_per_second": 14.505,
+      "eval_steps_per_second": 3.634,
+      "eval_wer": 0.5709421112372304,
+      "step": 600
+    },
+    {
+      "epoch": 0.3506135737540696,
+      "grad_norm": 9.165749549865723,
+      "learning_rate": 0.00022562499999999997,
+      "loss": 1.6841,
+      "step": 700
+    },
+    {
+      "epoch": 0.3506135737540696,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8731,
+      "eval_samples_per_second": 14.45,
+      "eval_steps_per_second": 3.62,
+      "eval_wer": 0.5595913734392736,
+      "step": 700
+    },
+    {
+      "epoch": 0.40070122714750817,
+      "grad_norm": 5.03289270401001,
+      "learning_rate": 0.000213125,
+      "loss": 1.693,
+      "step": 800
+    },
+    {
+      "epoch": 0.40070122714750817,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.7297,
+      "eval_samples_per_second": 14.513,
+      "eval_steps_per_second": 3.636,
+      "eval_wer": 0.5639046538024972,
+      "step": 800
+    },
+    {
+      "epoch": 0.4507888805409467,
+      "grad_norm": 6.008096218109131,
+      "learning_rate": 0.00020062499999999996,
+      "loss": 1.688,
+      "step": 900
+    },
+    {
+      "epoch": 0.4507888805409467,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 14.403,
+      "eval_steps_per_second": 3.608,
+      "eval_wer": 0.5555051078320091,
+      "step": 900
+    },
+    {
+      "epoch": 0.5008765339343851,
+      "grad_norm": 5.064396381378174,
+      "learning_rate": 0.00018812499999999998,
+      "loss": 1.5718,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5008765339343851,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8424,
+      "eval_samples_per_second": 14.463,
+      "eval_steps_per_second": 3.623,
+      "eval_wer": 0.5475595913734392,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5509641873278237,
+      "grad_norm": 3.990177869796753,
+      "learning_rate": 0.000175625,
+      "loss": 1.5855,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5509641873278237,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8353,
+      "eval_samples_per_second": 14.466,
+      "eval_steps_per_second": 3.624,
+      "eval_wer": 0.5482406356413166,
+      "step": 1100
+    },
+    {
+      "epoch": 0.6010518407212622,
+      "grad_norm": 3.535385847091675,
+      "learning_rate": 0.00016312499999999997,
+      "loss": 1.4783,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6010518407212622,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8042,
+      "eval_samples_per_second": 14.48,
+      "eval_steps_per_second": 3.628,
+      "eval_wer": 0.547105561861521,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6511394941147007,
+      "grad_norm": 2.9750921726226807,
+      "learning_rate": 0.000150625,
+      "loss": 1.5198,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6511394941147007,
+      "eval_loss": Infinity,
+      "eval_runtime": 33.111,
+      "eval_samples_per_second": 14.346,
+      "eval_steps_per_second": 3.594,
+      "eval_wer": 0.5475595913734392,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7012271475081392,
+      "grad_norm": 5.642059803009033,
+      "learning_rate": 0.00013812499999999998,
+      "loss": 1.4941,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7012271475081392,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8838,
+      "eval_samples_per_second": 14.445,
+      "eval_steps_per_second": 3.619,
+      "eval_wer": 0.5468785471055618,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7513148009015778,
+      "grad_norm": 3.8275411128997803,
+      "learning_rate": 0.000125625,
+      "loss": 1.5916,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7513148009015778,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8921,
+      "eval_samples_per_second": 14.441,
+      "eval_steps_per_second": 3.618,
+      "eval_wer": 0.5425652667423383,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8014024542950163,
+      "grad_norm": 4.227853298187256,
+      "learning_rate": 0.00011312499999999999,
+      "loss": 1.4683,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8014024542950163,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.9486,
+      "eval_samples_per_second": 14.416,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.5459704880817253,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8514901076884548,
+      "grad_norm": 3.1832377910614014,
+      "learning_rate": 0.00010062499999999998,
+      "loss": 1.486,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8514901076884548,
+      "eval_loss": Infinity,
+      "eval_runtime": 33.1266,
+      "eval_samples_per_second": 14.339,
+      "eval_steps_per_second": 3.592,
+      "eval_wer": 0.5527809307604994,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9015777610818934,
+      "grad_norm": 3.4040753841400146,
+      "learning_rate": 8.8125e-05,
+      "loss": 1.4353,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9015777610818934,
+      "eval_loss": Infinity,
+      "eval_runtime": 33.0102,
+      "eval_samples_per_second": 14.39,
+      "eval_steps_per_second": 3.605,
+      "eval_wer": 0.5434733257661748,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9516654144753318,
+      "grad_norm": 3.732764482498169,
+      "learning_rate": 7.5625e-05,
+      "loss": 1.6166,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9516654144753318,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8972,
+      "eval_samples_per_second": 14.439,
+      "eval_steps_per_second": 3.617,
+      "eval_wer": 0.5541430192962542,
+      "step": 1900
+    },
+    {
+      "epoch": 1.0015026296018033,
+      "grad_norm": 5.252945423126221,
+      "learning_rate": 6.312499999999999e-05,
+      "loss": 1.531,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0015026296018033,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8286,
+      "eval_samples_per_second": 14.469,
+      "eval_steps_per_second": 3.625,
+      "eval_wer": 0.5534619750283768,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0515902829952417,
+      "grad_norm": 6.164999008178711,
+      "learning_rate": 5.0625e-05,
+      "loss": 1.5441,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0515902829952417,
+      "eval_loss": Infinity,
+      "eval_runtime": 33.1705,
+      "eval_samples_per_second": 14.32,
+      "eval_steps_per_second": 3.588,
+      "eval_wer": 0.5477866061293984,
+      "step": 2100
+    },
+    {
+      "epoch": 1.1016779363886802,
+      "grad_norm": 9.455016136169434,
+      "learning_rate": 3.812499999999999e-05,
+      "loss": 1.3459,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1016779363886802,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.9466,
+      "eval_samples_per_second": 14.417,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.527355278093076,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1517655897821186,
+      "grad_norm": 2.4571692943573,
+      "learning_rate": 2.5625e-05,
+      "loss": 1.357,
+      "step": 2300
+    },
+    {
+      "epoch": 1.1517655897821186,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8004,
+      "eval_samples_per_second": 14.482,
+      "eval_steps_per_second": 3.628,
+      "eval_wer": 0.5269012485811577,
+      "step": 2300
+    },
+    {
+      "epoch": 1.2018532431755573,
+      "grad_norm": 6.859475135803223,
+      "learning_rate": 1.3124999999999999e-05,
+      "loss": 1.4464,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2018532431755573,
+      "eval_loss": Infinity,
+      "eval_runtime": 32.8189,
+      "eval_samples_per_second": 14.473,
+      "eval_steps_per_second": 3.626,
+      "eval_wer": 0.5225879682179342,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2519408965689958,
+      "grad_norm": 2.8902647495269775,
+      "learning_rate": 6.249999999999999e-07,
+      "loss": 1.4326,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2519408965689958,
+      "eval_loss": Infinity,
+      "eval_runtime": 33.1168,
+      "eval_samples_per_second": 14.343,
+      "eval_steps_per_second": 3.593,
+      "eval_wer": 0.5368898978433598,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2519408965689958,
+      "step": 2500,
+      "total_flos": 1.2637235735504001e+19,
+      "train_loss": 2.4210814453125,
+      "train_runtime": 3711.8357,
+      "train_samples_per_second": 5.388,
+      "train_steps_per_second": 0.674
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2637235735504001e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}