Training in progress, step 1500

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-3/checkpoint-1500/config.json +24 -0
run-3/checkpoint-1500/model.safetensors +3 -0
run-3/checkpoint-1500/optimizer.pt +3 -0
run-3/checkpoint-1500/rng_state.pth +3 -0
run-3/checkpoint-1500/scheduler.pt +3 -0
run-3/checkpoint-1500/special_tokens_map.json +7 -0
run-3/checkpoint-1500/tokenizer.json +0 -0
run-3/checkpoint-1500/tokenizer_config.json +55 -0
run-3/checkpoint-1500/trainer_state.json +272 -0
run-3/checkpoint-1500/training_args.bin +3 -0
run-3/checkpoint-1500/vocab.txt +0 -0
runs/Nov18_10-11-09_aa151f0a91fc/events.out.tfevents.1731925772.aa151f0a91fc.1516.3 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e115a1f2b1f262906bc019b4c3a75cf162328368642d9948324a4022903ce93
 size 265470032

 version https://git-lfs.github.com/spec/v1
+oid sha256:7067dddc82824bd08360f27db4a9e691d0b8c8f31e5c39f230e146cdef033f65
 size 265470032

run-3/checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForQuestionAnswering"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
+  "vocab_size": 30522
+}

run-3/checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7067dddc82824bd08360f27db4a9e691d0b8c8f31e5c39f230e146cdef033f65
+size 265470032

run-3/checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30cf7c12de4c53bb19e5f019f2c2b7f5fbd785a10f6293400f5311498aa91741
+size 531000890

run-3/checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6a8056e31f8a9f83d1264f113f2124c815a001de7e1630f10e0cebbbd337976
+size 14244

run-3/checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5b2b404090148404bf67a349e8777ccd0d7f2f9412c37e70a51fea86f0f2907
+size 1064

run-3/checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,272 @@

+{
+  "best_metric": 1.625908613204956,
+  "best_model_checkpoint": "qa_finetuning/run-3/checkpoint-1000",
+  "epoch": 2.4,
+  "eval_steps": 100,
+  "global_step": 1500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.762316703796387,
+      "learning_rate": 4.309025425308167e-05,
+      "loss": 3.9927,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 3.2011678218841553,
+      "eval_runtime": 3.8548,
+      "eval_samples_per_second": 129.707,
+      "eval_steps_per_second": 4.151,
+      "step": 100
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 28.462312698364258,
+      "learning_rate": 4.066263429516157e-05,
+      "loss": 2.9504,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.258704900741577,
+      "eval_runtime": 3.6383,
+      "eval_samples_per_second": 137.425,
+      "eval_steps_per_second": 4.398,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 31.754859924316406,
+      "learning_rate": 3.823501433724148e-05,
+      "loss": 2.2188,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 1.7734456062316895,
+      "eval_runtime": 3.6015,
+      "eval_samples_per_second": 138.831,
+      "eval_steps_per_second": 4.443,
+      "step": 300
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 19.329771041870117,
+      "learning_rate": 3.580739437932139e-05,
+      "loss": 1.8494,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.7346322536468506,
+      "eval_runtime": 3.7979,
+      "eval_samples_per_second": 131.653,
+      "eval_steps_per_second": 4.213,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 36.452842712402344,
+      "learning_rate": 3.3379774421401294e-05,
+      "loss": 1.6365,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.7207331657409668,
+      "eval_runtime": 3.6332,
+      "eval_samples_per_second": 137.618,
+      "eval_steps_per_second": 4.404,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 22.892818450927734,
+      "learning_rate": 3.09521544634812e-05,
+      "loss": 1.5395,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.6212908029556274,
+      "eval_runtime": 3.7235,
+      "eval_samples_per_second": 134.282,
+      "eval_steps_per_second": 4.297,
+      "step": 600
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 13.673020362854004,
+      "learning_rate": 2.852453450556111e-05,
+      "loss": 1.0662,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.726162075996399,
+      "eval_runtime": 3.7463,
+      "eval_samples_per_second": 133.467,
+      "eval_steps_per_second": 4.271,
+      "step": 700
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 7.783051013946533,
+      "learning_rate": 2.6096914547641013e-05,
+      "loss": 1.0033,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 1.6507431268692017,
+      "eval_runtime": 3.6574,
+      "eval_samples_per_second": 136.709,
+      "eval_steps_per_second": 4.375,
+      "step": 800
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 11.287247657775879,
+      "learning_rate": 2.3669294589720917e-05,
+      "loss": 0.9921,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 1.621005654335022,
+      "eval_runtime": 3.664,
+      "eval_samples_per_second": 136.464,
+      "eval_steps_per_second": 4.367,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 25.076732635498047,
+      "learning_rate": 2.1241674631800824e-05,
+      "loss": 0.9504,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.625908613204956,
+      "eval_runtime": 3.6844,
+      "eval_samples_per_second": 135.705,
+      "eval_steps_per_second": 4.343,
+      "step": 1000
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 25.947256088256836,
+      "learning_rate": 1.8814054673880728e-05,
+      "loss": 1.0562,
+      "step": 1100
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 1.5677456855773926,
+      "eval_runtime": 3.714,
+      "eval_samples_per_second": 134.626,
+      "eval_steps_per_second": 4.308,
+      "step": 1100
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 15.176019668579102,
+      "learning_rate": 1.6386434715960635e-05,
+      "loss": 0.9439,
+      "step": 1200
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.5484856367111206,
+      "eval_runtime": 3.6747,
+      "eval_samples_per_second": 136.067,
+      "eval_steps_per_second": 4.354,
+      "step": 1200
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 20.43083381652832,
+      "learning_rate": 1.395881475804054e-05,
+      "loss": 0.7892,
+      "step": 1300
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 1.6866594552993774,
+      "eval_runtime": 3.6496,
+      "eval_samples_per_second": 137.001,
+      "eval_steps_per_second": 4.384,
+      "step": 1300
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 8.673001289367676,
+      "learning_rate": 1.1531194800120449e-05,
+      "loss": 0.4846,
+      "step": 1400
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 1.7682734727859497,
+      "eval_runtime": 3.6802,
+      "eval_samples_per_second": 135.862,
+      "eval_steps_per_second": 4.348,
+      "step": 1400
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 32.21913146972656,
+      "learning_rate": 9.103574842200352e-06,
+      "loss": 0.5397,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 1.7596288919448853,
+      "eval_runtime": 3.679,
+      "eval_samples_per_second": 135.907,
+      "eval_steps_per_second": 4.349,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1175877900288000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 4.5517874211001764e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 4,
+    "seed": 18
+  }
+}

run-3/checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a37f5b8dfa12292086ae10710a829db6ed3942399f7b20f71f43f3abb90d0284
+size 5176

run-3/checkpoint-1500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Nov18_10-11-09_aa151f0a91fc/events.out.tfevents.1731925772.aa151f0a91fc.1516.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1866a9ec9e8ac7c02631f853bfe3c07ffcd19a2b1c14af6699f0cc73e89e758
-size 9854

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d999dd7b51510c7c685452ed7b60fdd6bea24d91db04ae570f5112ce4f4a71d
+size 12407