Training in progress, step 72000, checkpoint

Browse files

Files changed (11) hide show

checkpoint-72000/config.json +32 -0
checkpoint-72000/generation_config.json +6 -0
checkpoint-72000/model.safetensors +3 -0
checkpoint-72000/optimizer.pt +3 -0
checkpoint-72000/rng_state.pth +3 -0
checkpoint-72000/scheduler.pt +3 -0
checkpoint-72000/special_tokens_map.json +34 -0
checkpoint-72000/tokenizer.json +0 -0
checkpoint-72000/tokenizer_config.json +63 -0
checkpoint-72000/trainer_state.json +447 -0
checkpoint-72000/training_args.bin +3 -0

checkpoint-72000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 0,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 1,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 512,
+  "n_embd": 256,
+  "n_head": 8,
+  "n_inner": 2048,
+  "n_layer": 8,
+  "n_positions": 512,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "use_cache": true,
+  "vocab_size": 8192
+}

checkpoint-72000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 1,
+  "transformers_version": "4.45.2"
+}

checkpoint-72000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da495f87ae14beb0bb43b40adf1333fa339f93e711c187f1956a4563c6d91f09
+size 51007160

checkpoint-72000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4588f3008b3aaf826bea62d6e5ad33dc0de087a52b43a1d4e4e162163ee827cd
+size 102078202

checkpoint-72000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e9cca44949e1a30fbb24a96f5654955c68068e53a92cc56f36e9594bddc34c6
+size 14244

checkpoint-72000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:487ad1f531bda2b080d4a44391cc890fe1de78806332bbb0af3b79ab7b4622b2
+size 1000

checkpoint-72000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-72000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-72000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 128,
+  "pad_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

checkpoint-72000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,447 @@

+{
+  "best_metric": 4.028749465942383,
+  "best_model_checkpoint": "/home/p318482/babyLM_controlled/models_trained/en_clm/childes_42/checkpoint-36000",
+  "epoch": 47.792897444407565,
+  "eval_steps": 2000,
+  "global_step": 72000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.3275804845668768,
+      "eval_loss": 6.811094760894775,
+      "eval_runtime": 1.2294,
+      "eval_samples_per_second": 1423.487,
+      "eval_steps_per_second": 89.476,
+      "step": 2000
+    },
+    {
+      "epoch": 2.6551609691337537,
+      "grad_norm": 1.632613182067871,
+      "learning_rate": 1e-05,
+      "loss": 6.7052,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6551609691337537,
+      "eval_loss": 5.248932838439941,
+      "eval_runtime": 1.1859,
+      "eval_samples_per_second": 1475.676,
+      "eval_steps_per_second": 92.757,
+      "step": 4000
+    },
+    {
+      "epoch": 3.9827414537006307,
+      "eval_loss": 4.83342170715332,
+      "eval_runtime": 1.2422,
+      "eval_samples_per_second": 1408.831,
+      "eval_steps_per_second": 88.555,
+      "step": 6000
+    },
+    {
+      "epoch": 5.310321938267507,
+      "grad_norm": 2.778367757797241,
+      "learning_rate": 2e-05,
+      "loss": 4.6011,
+      "step": 8000
+    },
+    {
+      "epoch": 5.310321938267507,
+      "eval_loss": 4.594471454620361,
+      "eval_runtime": 1.2286,
+      "eval_samples_per_second": 1424.405,
+      "eval_steps_per_second": 89.534,
+      "step": 8000
+    },
+    {
+      "epoch": 6.637902422834385,
+      "eval_loss": 4.447059154510498,
+      "eval_runtime": 1.212,
+      "eval_samples_per_second": 1443.928,
+      "eval_steps_per_second": 90.761,
+      "step": 10000
+    },
+    {
+      "epoch": 7.965482907401261,
+      "grad_norm": 2.503838062286377,
+      "learning_rate": 2.9995e-05,
+      "loss": 4.1311,
+      "step": 12000
+    },
+    {
+      "epoch": 7.965482907401261,
+      "eval_loss": 4.349567413330078,
+      "eval_runtime": 1.1943,
+      "eval_samples_per_second": 1465.347,
+      "eval_steps_per_second": 92.108,
+      "step": 12000
+    },
+    {
+      "epoch": 9.293063391968138,
+      "eval_loss": 4.279144287109375,
+      "eval_runtime": 1.2744,
+      "eval_samples_per_second": 1373.229,
+      "eval_steps_per_second": 86.317,
+      "step": 14000
+    },
+    {
+      "epoch": 10.620643876535015,
+      "grad_norm": 2.356257200241089,
+      "learning_rate": 3.999e-05,
+      "loss": 3.8551,
+      "step": 16000
+    },
+    {
+      "epoch": 10.620643876535015,
+      "eval_loss": 4.21755838394165,
+      "eval_runtime": 1.2069,
+      "eval_samples_per_second": 1450.015,
+      "eval_steps_per_second": 91.144,
+      "step": 16000
+    },
+    {
+      "epoch": 11.948224361101891,
+      "eval_loss": 4.180819988250732,
+      "eval_runtime": 1.2612,
+      "eval_samples_per_second": 1387.52,
+      "eval_steps_per_second": 87.216,
+      "step": 18000
+    },
+    {
+      "epoch": 13.275804845668768,
+      "grad_norm": 2.202317237854004,
+      "learning_rate": 4.9985e-05,
+      "loss": 3.6553,
+      "step": 20000
+    },
+    {
+      "epoch": 13.275804845668768,
+      "eval_loss": 4.148049831390381,
+      "eval_runtime": 1.1967,
+      "eval_samples_per_second": 1462.412,
+      "eval_steps_per_second": 91.923,
+      "step": 20000
+    },
+    {
+      "epoch": 14.603385330235646,
+      "eval_loss": 4.124350070953369,
+      "eval_runtime": 1.2029,
+      "eval_samples_per_second": 1454.863,
+      "eval_steps_per_second": 91.449,
+      "step": 22000
+    },
+    {
+      "epoch": 15.930965814802523,
+      "grad_norm": 1.9641308784484863,
+      "learning_rate": 5.9980000000000005e-05,
+      "loss": 3.4944,
+      "step": 24000
+    },
+    {
+      "epoch": 15.930965814802523,
+      "eval_loss": 4.103585720062256,
+      "eval_runtime": 1.2371,
+      "eval_samples_per_second": 1414.56,
+      "eval_steps_per_second": 88.915,
+      "step": 24000
+    },
+    {
+      "epoch": 17.2585462993694,
+      "eval_loss": 4.083707809448242,
+      "eval_runtime": 1.193,
+      "eval_samples_per_second": 1466.868,
+      "eval_steps_per_second": 92.203,
+      "step": 26000
+    },
+    {
+      "epoch": 18.586126783936276,
+      "grad_norm": 1.8919872045516968,
+      "learning_rate": 6.997500000000001e-05,
+      "loss": 3.3589,
+      "step": 28000
+    },
+    {
+      "epoch": 18.586126783936276,
+      "eval_loss": 4.0663957595825195,
+      "eval_runtime": 1.2019,
+      "eval_samples_per_second": 1456.061,
+      "eval_steps_per_second": 91.524,
+      "step": 28000
+    },
+    {
+      "epoch": 19.913707268503153,
+      "eval_loss": 4.049406051635742,
+      "eval_runtime": 1.258,
+      "eval_samples_per_second": 1391.058,
+      "eval_steps_per_second": 87.438,
+      "step": 30000
+    },
+    {
+      "epoch": 21.24128775307003,
+      "grad_norm": 1.8024287223815918,
+      "learning_rate": 7.997e-05,
+      "loss": 3.2511,
+      "step": 32000
+    },
+    {
+      "epoch": 21.24128775307003,
+      "eval_loss": 4.053829669952393,
+      "eval_runtime": 1.2009,
+      "eval_samples_per_second": 1457.199,
+      "eval_steps_per_second": 91.595,
+      "step": 32000
+    },
+    {
+      "epoch": 22.568868237636906,
+      "eval_loss": 4.051271915435791,
+      "eval_runtime": 1.2605,
+      "eval_samples_per_second": 1388.36,
+      "eval_steps_per_second": 87.268,
+      "step": 34000
+    },
+    {
+      "epoch": 23.896448722203782,
+      "grad_norm": 1.6429823637008667,
+      "learning_rate": 8.9965e-05,
+      "loss": 3.1592,
+      "step": 36000
+    },
+    {
+      "epoch": 23.896448722203782,
+      "eval_loss": 4.028749465942383,
+      "eval_runtime": 1.3249,
+      "eval_samples_per_second": 1320.851,
+      "eval_steps_per_second": 83.025,
+      "step": 36000
+    },
+    {
+      "epoch": 25.22402920677066,
+      "eval_loss": 4.039541721343994,
+      "eval_runtime": 1.2593,
+      "eval_samples_per_second": 1389.67,
+      "eval_steps_per_second": 87.351,
+      "step": 38000
+    },
+    {
+      "epoch": 26.551609691337536,
+      "grad_norm": 1.6173956394195557,
+      "learning_rate": 9.996000000000001e-05,
+      "loss": 3.0779,
+      "step": 40000
+    },
+    {
+      "epoch": 26.551609691337536,
+      "eval_loss": 4.046719551086426,
+      "eval_runtime": 1.278,
+      "eval_samples_per_second": 1369.312,
+      "eval_steps_per_second": 86.071,
+      "step": 40000
+    },
+    {
+      "epoch": 27.879190175904416,
+      "eval_loss": 4.04121208190918,
+      "eval_runtime": 1.1867,
+      "eval_samples_per_second": 1474.648,
+      "eval_steps_per_second": 92.692,
+      "step": 42000
+    },
+    {
+      "epoch": 29.206770660471292,
+      "grad_norm": 1.6253678798675537,
+      "learning_rate": 9.336333333333334e-05,
+      "loss": 3.0034,
+      "step": 44000
+    },
+    {
+      "epoch": 29.206770660471292,
+      "eval_loss": 4.051359176635742,
+      "eval_runtime": 1.196,
+      "eval_samples_per_second": 1463.173,
+      "eval_steps_per_second": 91.971,
+      "step": 44000
+    },
+    {
+      "epoch": 30.53435114503817,
+      "eval_loss": 4.058103084564209,
+      "eval_runtime": 1.2111,
+      "eval_samples_per_second": 1444.932,
+      "eval_steps_per_second": 90.824,
+      "step": 46000
+    },
+    {
+      "epoch": 31.861931629605046,
+      "grad_norm": 1.605022668838501,
+      "learning_rate": 8.67e-05,
+      "loss": 2.9282,
+      "step": 48000
+    },
+    {
+      "epoch": 31.861931629605046,
+      "eval_loss": 4.061252117156982,
+      "eval_runtime": 1.2378,
+      "eval_samples_per_second": 1413.846,
+      "eval_steps_per_second": 88.87,
+      "step": 48000
+    },
+    {
+      "epoch": 33.18951211417192,
+      "eval_loss": 4.073904991149902,
+      "eval_runtime": 1.1783,
+      "eval_samples_per_second": 1485.184,
+      "eval_steps_per_second": 93.354,
+      "step": 50000
+    },
+    {
+      "epoch": 34.5170925987388,
+      "grad_norm": 1.6729241609573364,
+      "learning_rate": 8.003666666666667e-05,
+      "loss": 2.8601,
+      "step": 52000
+    },
+    {
+      "epoch": 34.5170925987388,
+      "eval_loss": 4.086970329284668,
+      "eval_runtime": 1.1925,
+      "eval_samples_per_second": 1467.453,
+      "eval_steps_per_second": 92.24,
+      "step": 52000
+    },
+    {
+      "epoch": 35.84467308330567,
+      "eval_loss": 4.089752197265625,
+      "eval_runtime": 1.3022,
+      "eval_samples_per_second": 1343.925,
+      "eval_steps_per_second": 84.475,
+      "step": 54000
+    },
+    {
+      "epoch": 37.17225356787255,
+      "grad_norm": 1.7726185321807861,
+      "learning_rate": 7.337166666666667e-05,
+      "loss": 2.8037,
+      "step": 56000
+    },
+    {
+      "epoch": 37.17225356787255,
+      "eval_loss": 4.120365619659424,
+      "eval_runtime": 1.2009,
+      "eval_samples_per_second": 1457.256,
+      "eval_steps_per_second": 91.599,
+      "step": 56000
+    },
+    {
+      "epoch": 38.49983405243943,
+      "eval_loss": 4.132432460784912,
+      "eval_runtime": 1.2255,
+      "eval_samples_per_second": 1427.982,
+      "eval_steps_per_second": 89.759,
+      "step": 58000
+    },
+    {
+      "epoch": 39.827414537006305,
+      "grad_norm": 1.9301064014434814,
+      "learning_rate": 6.670833333333333e-05,
+      "loss": 2.751,
+      "step": 60000
+    },
+    {
+      "epoch": 39.827414537006305,
+      "eval_loss": 4.133945941925049,
+      "eval_runtime": 1.183,
+      "eval_samples_per_second": 1479.285,
+      "eval_steps_per_second": 92.984,
+      "step": 60000
+    },
+    {
+      "epoch": 41.154995021573185,
+      "eval_loss": 4.15323543548584,
+      "eval_runtime": 1.192,
+      "eval_samples_per_second": 1468.091,
+      "eval_steps_per_second": 92.28,
+      "step": 62000
+    },
+    {
+      "epoch": 42.48257550614006,
+      "grad_norm": 1.9594330787658691,
+      "learning_rate": 6.0045000000000005e-05,
+      "loss": 2.7015,
+      "step": 64000
+    },
+    {
+      "epoch": 42.48257550614006,
+      "eval_loss": 4.174168586730957,
+      "eval_runtime": 1.2323,
+      "eval_samples_per_second": 1420.062,
+      "eval_steps_per_second": 89.261,
+      "step": 64000
+    },
+    {
+      "epoch": 43.81015599070694,
+      "eval_loss": 4.171698570251465,
+      "eval_runtime": 1.1928,
+      "eval_samples_per_second": 1467.17,
+      "eval_steps_per_second": 92.222,
+      "step": 66000
+    },
+    {
+      "epoch": 45.13773647527381,
+      "grad_norm": 2.075021505355835,
+      "learning_rate": 5.338166666666668e-05,
+      "loss": 2.6626,
+      "step": 68000
+    },
+    {
+      "epoch": 45.13773647527381,
+      "eval_loss": 4.188798904418945,
+      "eval_runtime": 1.2242,
+      "eval_samples_per_second": 1429.478,
+      "eval_steps_per_second": 89.853,
+      "step": 68000
+    },
+    {
+      "epoch": 46.46531695984069,
+      "eval_loss": 4.200418949127197,
+      "eval_runtime": 1.2,
+      "eval_samples_per_second": 1458.315,
+      "eval_steps_per_second": 91.666,
+      "step": 70000
+    },
+    {
+      "epoch": 47.792897444407565,
+      "grad_norm": 2.2053654193878174,
+      "learning_rate": 4.6718333333333336e-05,
+      "loss": 2.6203,
+      "step": 72000
+    },
+    {
+      "epoch": 47.792897444407565,
+      "eval_loss": 4.213426113128662,
+      "eval_runtime": 1.1844,
+      "eval_samples_per_second": 1477.507,
+      "eval_steps_per_second": 92.872,
+      "step": 72000
+    }
+  ],
+  "logging_steps": 4000,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 67,
+  "save_steps": 4000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8614484940210176e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-72000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b14000269a14dc69f619038c3611edf21a043ef764a94b5e099aa54cf929ad1d
+size 5368