End of training

Browse files

Files changed (7) hide show

README.md +4 -1
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Dec28_01-44-16_srvrocgpu011.uct.ac.za/events.out.tfevents.1735346552.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +387 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bigcgen-male-30hrs-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4418
 - Wer: 0.4513

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bigcgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bigcgen-male-30hrs-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BIGCGEN - BEM dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4418
 - Wer: 0.4513

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e306bf2581df8524d16ee3c945db59c4d8e3786079b61ee1e95d4e38b417de98
+size 8798532

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.0869790318405383,
+    "eval_loss": 0.4418056011199951,
+    "eval_runtime": 30.974,
+    "eval_samples": 441,
+    "eval_samples_per_second": 14.238,
+    "eval_steps_per_second": 3.584,
+    "eval_wer": 0.45131041115652804,
+    "total_flos": 1.1010996680275614e+19,
+    "train_loss": 1.948471661522275,
+    "train_runtime": 3045.3624,
+    "train_samples": 15450,
+    "train_samples_per_second": 152.199,
+    "train_steps_per_second": 19.022
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0869790318405383,
+    "eval_loss": 0.4418056011199951,
+    "eval_runtime": 30.974,
+    "eval_samples": 441,
+    "eval_samples_per_second": 14.238,
+    "eval_steps_per_second": 3.584,
+    "eval_wer": 0.45131041115652804
+}

runs/Dec28_01-44-16_srvrocgpu011.uct.ac.za/events.out.tfevents.1735346552.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b05f5ea3e218b04561a72d13418c46d2029725f4c54bd53d41825c1671922561
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0869790318405383,
+    "total_flos": 1.1010996680275614e+19,
+    "train_loss": 1.948471661522275,
+    "train_runtime": 3045.3624,
+    "train_samples": 15450,
+    "train_samples_per_second": 152.199,
+    "train_steps_per_second": 19.022
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,387 @@

+{
+  "best_metric": 0.4401148855686188,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-bigcgen-male-30hrs-model/checkpoint-1700",
+  "epoch": 1.0869790318405383,
+  "eval_steps": 100,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05177323323841574,
+      "grad_norm": 5.1029253005981445,
+      "learning_rate": 0.000285,
+      "loss": 14.8177,
+      "step": 100
+    },
+    {
+      "epoch": 0.05177323323841574,
+      "eval_loss": 0.9883018732070923,
+      "eval_runtime": 30.7186,
+      "eval_samples_per_second": 14.356,
+      "eval_steps_per_second": 3.613,
+      "eval_wer": 0.8360182736234671,
+      "step": 100
+    },
+    {
+      "epoch": 0.10354646647683148,
+      "grad_norm": 3.1198737621307373,
+      "learning_rate": 0.0002995071762061214,
+      "loss": 1.9066,
+      "step": 200
+    },
+    {
+      "epoch": 0.10354646647683148,
+      "eval_loss": 0.6110880374908447,
+      "eval_runtime": 30.676,
+      "eval_samples_per_second": 14.376,
+      "eval_steps_per_second": 3.618,
+      "eval_wer": 0.5657610002404424,
+      "step": 200
+    },
+    {
+      "epoch": 0.15531969971524723,
+      "grad_norm": 2.1564688682556152,
+      "learning_rate": 0.00029898841431782807,
+      "loss": 1.6259,
+      "step": 300
+    },
+    {
+      "epoch": 0.15531969971524723,
+      "eval_loss": 0.5918548107147217,
+      "eval_runtime": 30.4361,
+      "eval_samples_per_second": 14.489,
+      "eval_steps_per_second": 3.647,
+      "eval_wer": 0.5599903823034383,
+      "step": 300
+    },
+    {
+      "epoch": 0.20709293295366296,
+      "grad_norm": 2.736656665802002,
+      "learning_rate": 0.0002984696524295348,
+      "loss": 1.5344,
+      "step": 400
+    },
+    {
+      "epoch": 0.20709293295366296,
+      "eval_loss": 0.5518040657043457,
+      "eval_runtime": 30.3097,
+      "eval_samples_per_second": 14.55,
+      "eval_steps_per_second": 3.662,
+      "eval_wer": 0.5453233950468863,
+      "step": 400
+    },
+    {
+      "epoch": 0.2588661661920787,
+      "grad_norm": 7.7691874504089355,
+      "learning_rate": 0.00029795089054124156,
+      "loss": 1.5788,
+      "step": 500
+    },
+    {
+      "epoch": 0.2588661661920787,
+      "eval_loss": 0.5321589112281799,
+      "eval_runtime": 30.6676,
+      "eval_samples_per_second": 14.38,
+      "eval_steps_per_second": 3.619,
+      "eval_wer": 0.5417167588362587,
+      "step": 500
+    },
+    {
+      "epoch": 0.31063939943049446,
+      "grad_norm": 2.1344313621520996,
+      "learning_rate": 0.00029743212865294825,
+      "loss": 1.3816,
+      "step": 600
+    },
+    {
+      "epoch": 0.31063939943049446,
+      "eval_loss": 0.48904091119766235,
+      "eval_runtime": 30.416,
+      "eval_samples_per_second": 14.499,
+      "eval_steps_per_second": 3.649,
+      "eval_wer": 0.5234431353690792,
+      "step": 600
+    },
+    {
+      "epoch": 0.36241263266891016,
+      "grad_norm": 8.843093872070312,
+      "learning_rate": 0.000296913366764655,
+      "loss": 1.3242,
+      "step": 700
+    },
+    {
+      "epoch": 0.36241263266891016,
+      "eval_loss": 0.47984835505485535,
+      "eval_runtime": 30.416,
+      "eval_samples_per_second": 14.499,
+      "eval_steps_per_second": 3.649,
+      "eval_wer": 0.5032459725895648,
+      "step": 700
+    },
+    {
+      "epoch": 0.4141858659073259,
+      "grad_norm": 2.9696879386901855,
+      "learning_rate": 0.00029639460487636173,
+      "loss": 1.301,
+      "step": 800
+    },
+    {
+      "epoch": 0.4141858659073259,
+      "eval_loss": 0.4812551736831665,
+      "eval_runtime": 30.5011,
+      "eval_samples_per_second": 14.458,
+      "eval_steps_per_second": 3.639,
+      "eval_wer": 0.5159894205337822,
+      "step": 800
+    },
+    {
+      "epoch": 0.46595909914574163,
+      "grad_norm": 3.925156593322754,
+      "learning_rate": 0.0002958758429880684,
+      "loss": 1.1288,
+      "step": 900
+    },
+    {
+      "epoch": 0.46595909914574163,
+      "eval_loss": 0.463159441947937,
+      "eval_runtime": 30.6981,
+      "eval_samples_per_second": 14.366,
+      "eval_steps_per_second": 3.616,
+      "eval_wer": 0.4895407549891801,
+      "step": 900
+    },
+    {
+      "epoch": 0.5177323323841574,
+      "grad_norm": 5.512630462646484,
+      "learning_rate": 0.00029535708109977517,
+      "loss": 1.2779,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5177323323841574,
+      "eval_loss": 0.46061971783638,
+      "eval_runtime": 30.6206,
+      "eval_samples_per_second": 14.402,
+      "eval_steps_per_second": 3.625,
+      "eval_wer": 0.48545323395046885,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5695055656225732,
+      "grad_norm": 2.1363961696624756,
+      "learning_rate": 0.0002948383192114819,
+      "loss": 1.172,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5695055656225732,
+      "eval_loss": 0.45322486758232117,
+      "eval_runtime": 30.4814,
+      "eval_samples_per_second": 14.468,
+      "eval_steps_per_second": 3.642,
+      "eval_wer": 0.48352969463813417,
+      "step": 1100
+    },
+    {
+      "epoch": 0.6212787988609889,
+      "grad_norm": 3.3401312828063965,
+      "learning_rate": 0.0002943195573231886,
+      "loss": 1.2388,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6212787988609889,
+      "eval_loss": 0.4610104262828827,
+      "eval_runtime": 30.4897,
+      "eval_samples_per_second": 14.464,
+      "eval_steps_per_second": 3.641,
+      "eval_wer": 0.4832892522240923,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6730520320994046,
+      "grad_norm": 2.449324369430542,
+      "learning_rate": 0.00029380079543489535,
+      "loss": 1.2582,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6730520320994046,
+      "eval_loss": 0.4502464532852173,
+      "eval_runtime": 30.8643,
+      "eval_samples_per_second": 14.288,
+      "eval_steps_per_second": 3.596,
+      "eval_wer": 0.4666987256552056,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7248252653378203,
+      "grad_norm": 1.9429669380187988,
+      "learning_rate": 0.0002932820335466021,
+      "loss": 1.1046,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7248252653378203,
+      "eval_loss": 0.46078842878341675,
+      "eval_runtime": 30.6937,
+      "eval_samples_per_second": 14.368,
+      "eval_steps_per_second": 3.616,
+      "eval_wer": 0.4695840346237076,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7765984985762361,
+      "grad_norm": 4.626898765563965,
+      "learning_rate": 0.00029276327165830883,
+      "loss": 1.2732,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7765984985762361,
+      "eval_loss": 0.4449756443500519,
+      "eval_runtime": 30.6809,
+      "eval_samples_per_second": 14.374,
+      "eval_steps_per_second": 3.618,
+      "eval_wer": 0.4695840346237076,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8283717318146518,
+      "grad_norm": 1.7688357830047607,
+      "learning_rate": 0.0002922445097700155,
+      "loss": 1.2323,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8283717318146518,
+      "eval_loss": 0.44945722818374634,
+      "eval_runtime": 30.5188,
+      "eval_samples_per_second": 14.45,
+      "eval_steps_per_second": 3.637,
+      "eval_wer": 0.463092089444578,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8801449650530676,
+      "grad_norm": 3.03289794921875,
+      "learning_rate": 0.00029172574788172227,
+      "loss": 1.282,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8801449650530676,
+      "eval_loss": 0.4401148855686188,
+      "eval_runtime": 30.7912,
+      "eval_samples_per_second": 14.322,
+      "eval_steps_per_second": 3.605,
+      "eval_wer": 0.4604472228901178,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9319181982914833,
+      "grad_norm": 2.1416518688201904,
+      "learning_rate": 0.000291206985993429,
+      "loss": 1.1099,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9319181982914833,
+      "eval_loss": 0.4439827501773834,
+      "eval_runtime": 30.5981,
+      "eval_samples_per_second": 14.413,
+      "eval_steps_per_second": 3.628,
+      "eval_wer": 0.46116855013224334,
+      "step": 1800
+    },
+    {
+      "epoch": 0.983691431529899,
+      "grad_norm": 3.6136231422424316,
+      "learning_rate": 0.0002906882241051357,
+      "loss": 1.1463,
+      "step": 1900
+    },
+    {
+      "epoch": 0.983691431529899,
+      "eval_loss": 0.44165703654289246,
+      "eval_runtime": 30.6823,
+      "eval_samples_per_second": 14.373,
+      "eval_steps_per_second": 3.618,
+      "eval_wer": 0.4688627073815821,
+      "step": 1900
+    },
+    {
+      "epoch": 1.0352057986021228,
+      "grad_norm": 2.6243932247161865,
+      "learning_rate": 0.00029016946221684244,
+      "loss": 1.12,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0352057986021228,
+      "eval_loss": 0.44080641865730286,
+      "eval_runtime": 30.5757,
+      "eval_samples_per_second": 14.423,
+      "eval_steps_per_second": 3.63,
+      "eval_wer": 0.45491704736715555,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0869790318405383,
+      "grad_norm": 3.724260091781616,
+      "learning_rate": 0.0002896507003285492,
+      "loss": 1.1037,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0869790318405383,
+      "eval_loss": 0.4417917728424072,
+      "eval_runtime": 30.9792,
+      "eval_samples_per_second": 14.235,
+      "eval_steps_per_second": 3.583,
+      "eval_wer": 0.45131041115652804,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0869790318405383,
+      "step": 2100,
+      "total_flos": 1.1010996680275614e+19,
+      "train_loss": 1.948471661522275,
+      "train_runtime": 3045.3624,
+      "train_samples_per_second": 152.199,
+      "train_steps_per_second": 19.022
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 57930,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 4,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1010996680275614e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}