Training in progress, step 20400, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/config.json +109 -0
last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/preprocessor_config.json +9 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +837 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "_name_or_path": "facebook/wav2vec2-xls-r-300m",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 77,
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 80,
+  "xvector_output_dim": 512
+}

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01af806bfb43537f473716c6921c56c3f1b6cff5b24f430ec50b63d6432ff62c
+size 1262135480

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f54746b0feae2e036d16930d4e673363c77f9f9aafe635895c1098194f55d6ef
+size 2490815798

last-checkpoint/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7ec026adbf9bcbd8a783c266184ac6a8dfb47b9e7d5a7687187770c89b84faf
+size 14308

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05c969971a5565a3fd0897b347349de9a9a330022bc9b3755b121094b8004da8
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,837 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 13.83989145183175,
+  "eval_steps": 400,
+  "global_step": 20400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.27,
+      "grad_norm": 4.026116371154785,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 5.8396,
+      "step": 400
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 0.9751555919647217,
+      "eval_runtime": 211.3976,
+      "eval_samples_per_second": 6.618,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.8373902326297951,
+      "step": 400
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.9866678714752197,
+      "learning_rate": 0.00029794144556267153,
+      "loss": 0.6967,
+      "step": 800
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.38119566440582275,
+      "eval_runtime": 210.7469,
+      "eval_samples_per_second": 6.638,
+      "eval_steps_per_second": 0.83,
+      "eval_wer": 0.5935140964412263,
+      "step": 800
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.540819525718689,
+      "learning_rate": 0.00029519670631290027,
+      "loss": 0.4806,
+      "step": 1200
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.3368071913719177,
+      "eval_runtime": 211.9206,
+      "eval_samples_per_second": 6.602,
+      "eval_steps_per_second": 0.826,
+      "eval_wer": 0.4757356339547065,
+      "step": 1200
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 0.9303820729255676,
+      "learning_rate": 0.000292451967063129,
+      "loss": 0.3996,
+      "step": 1600
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.199427992105484,
+      "eval_runtime": 210.2196,
+      "eval_samples_per_second": 6.655,
+      "eval_steps_per_second": 0.832,
+      "eval_wer": 0.3142813125866584,
+      "step": 1600
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 0.5186350345611572,
+      "learning_rate": 0.0002897072278133577,
+      "loss": 0.3497,
+      "step": 2000
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.16836047172546387,
+      "eval_runtime": 210.345,
+      "eval_samples_per_second": 6.651,
+      "eval_steps_per_second": 0.832,
+      "eval_wer": 0.2564319827453397,
+      "step": 2000
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 0.9710769057273865,
+      "learning_rate": 0.00028696248856358643,
+      "loss": 0.3372,
+      "step": 2400
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.15862207114696503,
+      "eval_runtime": 212.5997,
+      "eval_samples_per_second": 6.58,
+      "eval_steps_per_second": 0.823,
+      "eval_wer": 0.2418733631181636,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.8559458255767822,
+      "learning_rate": 0.00028421774931381517,
+      "loss": 0.312,
+      "step": 2800
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.1412586122751236,
+      "eval_runtime": 211.389,
+      "eval_samples_per_second": 6.618,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.2226929594823602,
+      "step": 2800
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 0.6652762293815613,
+      "learning_rate": 0.0002814730100640439,
+      "loss": 0.2797,
+      "step": 3200
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.1465640813112259,
+      "eval_runtime": 210.5595,
+      "eval_samples_per_second": 6.644,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.22731474349098751,
+      "step": 3200
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 0.361288458108902,
+      "learning_rate": 0.0002787282708142726,
+      "loss": 0.2554,
+      "step": 3600
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 0.1542745977640152,
+      "eval_runtime": 211.2213,
+      "eval_samples_per_second": 6.623,
+      "eval_steps_per_second": 0.829,
+      "eval_wer": 0.2365583115082422,
+      "step": 3600
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.5574541091918945,
+      "learning_rate": 0.00027598353156450134,
+      "loss": 0.2613,
+      "step": 4000
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 0.14501063525676727,
+      "eval_runtime": 212.1205,
+      "eval_samples_per_second": 6.595,
+      "eval_steps_per_second": 0.825,
+      "eval_wer": 0.23255276536743183,
+      "step": 4000
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 0.4116342067718506,
+      "learning_rate": 0.0002732387923147301,
+      "loss": 0.2399,
+      "step": 4400
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 0.12376150488853455,
+      "eval_runtime": 212.9821,
+      "eval_samples_per_second": 6.569,
+      "eval_steps_per_second": 0.822,
+      "eval_wer": 0.20297334771221692,
+      "step": 4400
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 0.834938645362854,
+      "learning_rate": 0.0002704940530649588,
+      "loss": 0.2125,
+      "step": 4800
+    },
+    {
+      "epoch": 3.26,
+      "eval_loss": 0.09888482838869095,
+      "eval_runtime": 213.2706,
+      "eval_samples_per_second": 6.56,
+      "eval_steps_per_second": 0.821,
+      "eval_wer": 0.16099214296718534,
+      "step": 4800
+    },
+    {
+      "epoch": 3.53,
+      "grad_norm": 0.4636085331439972,
+      "learning_rate": 0.0002677493138151875,
+      "loss": 0.2144,
+      "step": 5200
+    },
+    {
+      "epoch": 3.53,
+      "eval_loss": 0.09842105209827423,
+      "eval_runtime": 210.8983,
+      "eval_samples_per_second": 6.634,
+      "eval_steps_per_second": 0.83,
+      "eval_wer": 0.1612232321676167,
+      "step": 5200
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.4843950569629669,
+      "learning_rate": 0.0002650045745654163,
+      "loss": 0.212,
+      "step": 5600
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.08756741881370544,
+      "eval_runtime": 210.9696,
+      "eval_samples_per_second": 6.631,
+      "eval_steps_per_second": 0.83,
+      "eval_wer": 0.1507471884147281,
+      "step": 5600
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 0.847865641117096,
+      "learning_rate": 0.000262259835315645,
+      "loss": 0.1964,
+      "step": 6000
+    },
+    {
+      "epoch": 4.07,
+      "eval_loss": 0.1017051413655281,
+      "eval_runtime": 211.736,
+      "eval_samples_per_second": 6.607,
+      "eval_steps_per_second": 0.827,
+      "eval_wer": 0.17531967339393006,
+      "step": 6000
+    },
+    {
+      "epoch": 4.34,
+      "grad_norm": 0.35252293944358826,
+      "learning_rate": 0.0002595150960658737,
+      "loss": 0.1814,
+      "step": 6400
+    },
+    {
+      "epoch": 4.34,
+      "eval_loss": 0.0966610386967659,
+      "eval_runtime": 211.5792,
+      "eval_samples_per_second": 6.612,
+      "eval_steps_per_second": 0.827,
+      "eval_wer": 0.1653828377753813,
+      "step": 6400
+    },
+    {
+      "epoch": 4.61,
+      "grad_norm": 0.38534751534461975,
+      "learning_rate": 0.00025677035681610246,
+      "loss": 0.1772,
+      "step": 6800
+    },
+    {
+      "epoch": 4.61,
+      "eval_loss": 0.0955633744597435,
+      "eval_runtime": 211.2723,
+      "eval_samples_per_second": 6.622,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.16314897550454474,
+      "step": 6800
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 0.3151361346244812,
+      "learning_rate": 0.0002540256175663312,
+      "loss": 0.1748,
+      "step": 7200
+    },
+    {
+      "epoch": 4.88,
+      "eval_loss": 0.08700825273990631,
+      "eval_runtime": 213.02,
+      "eval_samples_per_second": 6.567,
+      "eval_steps_per_second": 0.822,
+      "eval_wer": 0.14828223694346018,
+      "step": 7200
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 1.1274446249008179,
+      "learning_rate": 0.0002512808783165599,
+      "loss": 0.1706,
+      "step": 7600
+    },
+    {
+      "epoch": 5.16,
+      "eval_loss": 0.07706322520971298,
+      "eval_runtime": 212.6781,
+      "eval_samples_per_second": 6.578,
+      "eval_steps_per_second": 0.823,
+      "eval_wer": 0.1306424279771992,
+      "step": 7600
+    },
+    {
+      "epoch": 5.43,
+      "grad_norm": 1.3828215599060059,
+      "learning_rate": 0.0002485361390667886,
+      "loss": 0.1545,
+      "step": 8000
+    },
+    {
+      "epoch": 5.43,
+      "eval_loss": 0.06534561514854431,
+      "eval_runtime": 211.3365,
+      "eval_samples_per_second": 6.62,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.1198582652904021,
+      "step": 8000
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 0.4036734402179718,
+      "learning_rate": 0.00024579139981701736,
+      "loss": 0.1627,
+      "step": 8400
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.060022782534360886,
+      "eval_runtime": 211.4007,
+      "eval_samples_per_second": 6.618,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.11030657833923894,
+      "step": 8400
+    },
+    {
+      "epoch": 5.97,
+      "grad_norm": 0.3543277084827423,
+      "learning_rate": 0.0002430466605672461,
+      "loss": 0.1541,
+      "step": 8800
+    },
+    {
+      "epoch": 5.97,
+      "eval_loss": 0.058936990797519684,
+      "eval_runtime": 212.2764,
+      "eval_samples_per_second": 6.59,
+      "eval_steps_per_second": 0.824,
+      "eval_wer": 0.10676321059929132,
+      "step": 8800
+    },
+    {
+      "epoch": 6.24,
+      "grad_norm": 0.23857054114341736,
+      "learning_rate": 0.00024030192131747481,
+      "loss": 0.1382,
+      "step": 9200
+    },
+    {
+      "epoch": 6.24,
+      "eval_loss": 0.07100619375705719,
+      "eval_runtime": 213.3512,
+      "eval_samples_per_second": 6.557,
+      "eval_steps_per_second": 0.82,
+      "eval_wer": 0.12309351409644123,
+      "step": 9200
+    },
+    {
+      "epoch": 6.51,
+      "grad_norm": 0.6902241706848145,
+      "learning_rate": 0.00023755718206770355,
+      "loss": 0.1397,
+      "step": 9600
+    },
+    {
+      "epoch": 6.51,
+      "eval_loss": 0.06513579189777374,
+      "eval_runtime": 211.6334,
+      "eval_samples_per_second": 6.61,
+      "eval_steps_per_second": 0.827,
+      "eval_wer": 0.12478816823293791,
+      "step": 9600
+    },
+    {
+      "epoch": 6.78,
+      "grad_norm": 0.3040298819541931,
+      "learning_rate": 0.00023481244281793227,
+      "loss": 0.1345,
+      "step": 10000
+    },
+    {
+      "epoch": 6.78,
+      "eval_loss": 0.06700535863637924,
+      "eval_runtime": 211.9668,
+      "eval_samples_per_second": 6.6,
+      "eval_steps_per_second": 0.826,
+      "eval_wer": 0.11939608688953936,
+      "step": 10000
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 1.0794196128845215,
+      "learning_rate": 0.000232067703568161,
+      "loss": 0.1281,
+      "step": 10400
+    },
+    {
+      "epoch": 7.06,
+      "eval_loss": 0.054103270173072815,
+      "eval_runtime": 209.427,
+      "eval_samples_per_second": 6.68,
+      "eval_steps_per_second": 0.836,
+      "eval_wer": 0.10060083192112156,
+      "step": 10400
+    },
+    {
+      "epoch": 7.33,
+      "grad_norm": 0.8765202164649963,
+      "learning_rate": 0.00022932296431838972,
+      "loss": 0.1315,
+      "step": 10800
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 0.05593947321176529,
+      "eval_runtime": 208.8917,
+      "eval_samples_per_second": 6.697,
+      "eval_steps_per_second": 0.838,
+      "eval_wer": 0.10622400246495148,
+      "step": 10800
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.5989521741867065,
+      "learning_rate": 0.00022657822506861846,
+      "loss": 0.1234,
+      "step": 11200
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.05276945233345032,
+      "eval_runtime": 209.5765,
+      "eval_samples_per_second": 6.675,
+      "eval_steps_per_second": 0.835,
+      "eval_wer": 0.09698043444769681,
+      "step": 11200
+    },
+    {
+      "epoch": 7.87,
+      "grad_norm": 0.3679282069206238,
+      "learning_rate": 0.00022383348581884717,
+      "loss": 0.1248,
+      "step": 11600
+    },
+    {
+      "epoch": 7.87,
+      "eval_loss": 0.044818080961704254,
+      "eval_runtime": 209.7397,
+      "eval_samples_per_second": 6.67,
+      "eval_steps_per_second": 0.834,
+      "eval_wer": 0.0865043906948082,
+      "step": 11600
+    },
+    {
+      "epoch": 8.14,
+      "grad_norm": 0.3467447757720947,
+      "learning_rate": 0.00022108874656907594,
+      "loss": 0.115,
+      "step": 12000
+    },
+    {
+      "epoch": 8.14,
+      "eval_loss": 0.0545777752995491,
+      "eval_runtime": 209.6701,
+      "eval_samples_per_second": 6.672,
+      "eval_steps_per_second": 0.835,
+      "eval_wer": 0.0993683561854876,
+      "step": 12000
+    },
+    {
+      "epoch": 8.41,
+      "grad_norm": 1.4704556465148926,
+      "learning_rate": 0.00021834400731930465,
+      "loss": 0.1143,
+      "step": 12400
+    },
+    {
+      "epoch": 8.41,
+      "eval_loss": 0.05952217057347298,
+      "eval_runtime": 210.7235,
+      "eval_samples_per_second": 6.639,
+      "eval_steps_per_second": 0.83,
+      "eval_wer": 0.10861192420274225,
+      "step": 12400
+    },
+    {
+      "epoch": 8.68,
+      "grad_norm": 0.2509690821170807,
+      "learning_rate": 0.0002155992680695334,
+      "loss": 0.1169,
+      "step": 12800
+    },
+    {
+      "epoch": 8.68,
+      "eval_loss": 0.04853290319442749,
+      "eval_runtime": 209.7854,
+      "eval_samples_per_second": 6.669,
+      "eval_steps_per_second": 0.834,
+      "eval_wer": 0.08742874749653366,
+      "step": 12800
+    },
+    {
+      "epoch": 8.96,
+      "grad_norm": 0.2134234458208084,
+      "learning_rate": 0.0002128545288197621,
+      "loss": 0.1165,
+      "step": 13200
+    },
+    {
+      "epoch": 8.96,
+      "eval_loss": 0.05237515643239021,
+      "eval_runtime": 210.2596,
+      "eval_samples_per_second": 6.654,
+      "eval_steps_per_second": 0.832,
+      "eval_wer": 0.09767370204899091,
+      "step": 13200
+    },
+    {
+      "epoch": 9.23,
+      "grad_norm": 0.4314160943031311,
+      "learning_rate": 0.00021010978956999084,
+      "loss": 0.1035,
+      "step": 13600
+    },
+    {
+      "epoch": 9.23,
+      "eval_loss": 0.044478464871644974,
+      "eval_runtime": 210.5273,
+      "eval_samples_per_second": 6.645,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.0837313202896318,
+      "step": 13600
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.4133451581001282,
+      "learning_rate": 0.00020736505032021955,
+      "loss": 0.1017,
+      "step": 14000
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.04130551964044571,
+      "eval_runtime": 210.2347,
+      "eval_samples_per_second": 6.654,
+      "eval_steps_per_second": 0.832,
+      "eval_wer": 0.0791865660144816,
+      "step": 14000
+    },
+    {
+      "epoch": 9.77,
+      "grad_norm": 0.29300200939178467,
+      "learning_rate": 0.0002046203110704483,
+      "loss": 0.109,
+      "step": 14400
+    },
+    {
+      "epoch": 9.77,
+      "eval_loss": 0.04202074185013771,
+      "eval_runtime": 211.2523,
+      "eval_samples_per_second": 6.622,
+      "eval_steps_per_second": 0.828,
+      "eval_wer": 0.08326914188876906,
+      "step": 14400
+    },
+    {
+      "epoch": 10.04,
+      "grad_norm": 0.2547191083431244,
+      "learning_rate": 0.000201875571820677,
+      "loss": 0.1018,
+      "step": 14800
+    },
+    {
+      "epoch": 10.04,
+      "eval_loss": 0.04540720209479332,
+      "eval_runtime": 210.6476,
+      "eval_samples_per_second": 6.641,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.0823447850870436,
+      "step": 14800
+    },
+    {
+      "epoch": 10.31,
+      "grad_norm": 0.2799816131591797,
+      "learning_rate": 0.00019913083257090574,
+      "loss": 0.0929,
+      "step": 15200
+    },
+    {
+      "epoch": 10.31,
+      "eval_loss": 0.042868729680776596,
+      "eval_runtime": 209.1492,
+      "eval_samples_per_second": 6.689,
+      "eval_steps_per_second": 0.837,
+      "eval_wer": 0.0785703281466646,
+      "step": 15200
+    },
+    {
+      "epoch": 10.58,
+      "grad_norm": 0.18747101724147797,
+      "learning_rate": 0.00019638609332113446,
+      "loss": 0.0956,
+      "step": 15600
+    },
+    {
+      "epoch": 10.58,
+      "eval_loss": 0.04033521190285683,
+      "eval_runtime": 209.4853,
+      "eval_samples_per_second": 6.678,
+      "eval_steps_per_second": 0.835,
+      "eval_wer": 0.07718379294407642,
+      "step": 15600
+    },
+    {
+      "epoch": 10.85,
+      "grad_norm": 0.3078967034816742,
+      "learning_rate": 0.0001936413540713632,
+      "loss": 0.0986,
+      "step": 16000
+    },
+    {
+      "epoch": 10.85,
+      "eval_loss": 0.046831514686346054,
+      "eval_runtime": 209.7149,
+      "eval_samples_per_second": 6.671,
+      "eval_steps_per_second": 0.834,
+      "eval_wer": 0.09058696656909566,
+      "step": 16000
+    },
+    {
+      "epoch": 11.13,
+      "grad_norm": 0.10461205244064331,
+      "learning_rate": 0.0001908966148215919,
+      "loss": 0.0941,
+      "step": 16400
+    },
+    {
+      "epoch": 11.13,
+      "eval_loss": 0.03615270182490349,
+      "eval_runtime": 209.392,
+      "eval_samples_per_second": 6.681,
+      "eval_steps_per_second": 0.836,
+      "eval_wer": 0.06940378986288707,
+      "step": 16400
+    },
+    {
+      "epoch": 11.4,
+      "grad_norm": 0.5313912630081177,
+      "learning_rate": 0.00018815187557182068,
+      "loss": 0.0845,
+      "step": 16800
+    },
+    {
+      "epoch": 11.4,
+      "eval_loss": 0.038695286959409714,
+      "eval_runtime": 210.5021,
+      "eval_samples_per_second": 6.646,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.0701740871976583,
+      "step": 16800
+    },
+    {
+      "epoch": 11.67,
+      "grad_norm": 0.5434714555740356,
+      "learning_rate": 0.0001854071363220494,
+      "loss": 0.0955,
+      "step": 17200
+    },
+    {
+      "epoch": 11.67,
+      "eval_loss": 0.03512905538082123,
+      "eval_runtime": 210.6242,
+      "eval_samples_per_second": 6.642,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.06270220305037745,
+      "step": 17200
+    },
+    {
+      "epoch": 11.94,
+      "grad_norm": 0.6010161638259888,
+      "learning_rate": 0.00018266239707227813,
+      "loss": 0.089,
+      "step": 17600
+    },
+    {
+      "epoch": 11.94,
+      "eval_loss": 0.03609244525432587,
+      "eval_runtime": 210.1814,
+      "eval_samples_per_second": 6.656,
+      "eval_steps_per_second": 0.833,
+      "eval_wer": 0.06747804652595903,
+      "step": 17600
+    },
+    {
+      "epoch": 12.21,
+      "grad_norm": 0.2907910943031311,
+      "learning_rate": 0.00017991765782250684,
+      "loss": 0.0806,
+      "step": 18000
+    },
+    {
+      "epoch": 12.21,
+      "eval_loss": 0.03811544552445412,
+      "eval_runtime": 210.0932,
+      "eval_samples_per_second": 6.659,
+      "eval_steps_per_second": 0.833,
+      "eval_wer": 0.06847943306116161,
+      "step": 18000
+    },
+    {
+      "epoch": 12.48,
+      "grad_norm": 0.25918644666671753,
+      "learning_rate": 0.00017717291857273558,
+      "loss": 0.0803,
+      "step": 18400
+    },
+    {
+      "epoch": 12.48,
+      "eval_loss": 0.0369856134057045,
+      "eval_runtime": 210.0481,
+      "eval_samples_per_second": 6.66,
+      "eval_steps_per_second": 0.833,
+      "eval_wer": 0.06747804652595903,
+      "step": 18400
+    },
+    {
+      "epoch": 12.75,
+      "grad_norm": 0.3781072199344635,
+      "learning_rate": 0.0001744281793229643,
+      "loss": 0.0839,
+      "step": 18800
+    },
+    {
+      "epoch": 12.75,
+      "eval_loss": 0.0333174392580986,
+      "eval_runtime": 210.517,
+      "eval_samples_per_second": 6.646,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.06193190571560622,
+      "step": 18800
+    },
+    {
+      "epoch": 13.03,
+      "grad_norm": 0.42045047879219055,
+      "learning_rate": 0.00017168344007319303,
+      "loss": 0.0834,
+      "step": 19200
+    },
+    {
+      "epoch": 13.03,
+      "eval_loss": 0.033445805311203,
+      "eval_runtime": 210.6516,
+      "eval_samples_per_second": 6.641,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.057695270374364505,
+      "step": 19200
+    },
+    {
+      "epoch": 13.3,
+      "grad_norm": 0.4078648090362549,
+      "learning_rate": 0.00016893870082342174,
+      "loss": 0.0779,
+      "step": 19600
+    },
+    {
+      "epoch": 13.3,
+      "eval_loss": 0.03577824681997299,
+      "eval_runtime": 210.5433,
+      "eval_samples_per_second": 6.645,
+      "eval_steps_per_second": 0.831,
+      "eval_wer": 0.06208596518256047,
+      "step": 19600
+    },
+    {
+      "epoch": 13.57,
+      "grad_norm": 0.8884561657905579,
+      "learning_rate": 0.00016619396157365048,
+      "loss": 0.0773,
+      "step": 20000
+    },
+    {
+      "epoch": 13.57,
+      "eval_loss": 0.032973628491163254,
+      "eval_runtime": 210.0131,
+      "eval_samples_per_second": 6.661,
+      "eval_steps_per_second": 0.833,
+      "eval_wer": 0.05646279463873055,
+      "step": 20000
+    },
+    {
+      "epoch": 13.84,
+      "grad_norm": 0.5232133269309998,
+      "learning_rate": 0.0001634492223238792,
+      "loss": 0.0717,
+      "step": 20400
+    },
+    {
+      "epoch": 13.84,
+      "eval_loss": 0.03495289012789726,
+      "eval_runtime": 210.8453,
+      "eval_samples_per_second": 6.635,
+      "eval_steps_per_second": 0.83,
+      "eval_wer": 0.0625481435834232,
+      "step": 20400
+    }
+  ],
+  "logging_steps": 400,
+  "max_steps": 44220,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "total_flos": 6.2228407342062576e+19,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6cdc5b20075b1fce2a136d9f42ed3f0b21546cf27b594236f7beba8f280a4aa
+size 5048