Upload 5 files

Browse files

Files changed (5) hide show

config.json +34 -0
generation_config.json +5 -0
model.safetensors +3 -0
trainer_state.json +141 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "microsoft/phi-1_5",
+  "architectures": [
+    "PhiForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/phi-1_5--configuration_phi.PhiConfig",
+    "AutoModelForCausalLM": "microsoft/phi-1_5--modeling_phi.PhiForCausalLM"
+  },
+  "bos_token_id": null,
+  "embd_pdrop": 0.0,
+  "eos_token_id": null,
+  "hidden_act": "gelu_new",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "phi",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 32,
+  "partial_rotary_factor": 0.5,
+  "qk_layernorm": false,
+  "resid_pdrop": 0.0,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.37.2",
+  "use_cache": false,
+  "vocab_size": 51200
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "do_sample": true,
+  "transformers_version": "4.37.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e93a877e2c6ef8b6db991f216635c6f6e091932f6638e5315a60b47bbf2739b
+size 2836579040

trainer_state.json ADDED Viewed

	@@ -0,0 +1,141 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 625,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.960000000000001e-06,
+      "loss": 1.9883,
+      "step": 31
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.920000000000002e-06,
+      "loss": 1.6761,
+      "step": 62
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.4880000000000002e-05,
+      "loss": 1.602,
+      "step": 93
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.9840000000000003e-05,
+      "loss": 1.5403,
+      "step": 124
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.88e-05,
+      "loss": 1.2675,
+      "step": 155
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.756e-05,
+      "loss": 1.2617,
+      "step": 186
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.632e-05,
+      "loss": 1.2548,
+      "step": 217
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.5080000000000001e-05,
+      "loss": 1.2142,
+      "step": 248
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 1.384e-05,
+      "loss": 0.7858,
+      "step": 279
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 0.7192,
+      "step": 310
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 1.136e-05,
+      "loss": 0.7358,
+      "step": 341
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 1.0120000000000001e-05,
+      "loss": 0.7185,
+      "step": 372
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 8.880000000000001e-06,
+      "loss": 0.3819,
+      "step": 403
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 7.640000000000001e-06,
+      "loss": 0.3223,
+      "step": 434
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.3149,
+      "step": 465
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 5.1600000000000006e-06,
+      "loss": 0.3246,
+      "step": 496
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 3.920000000000001e-06,
+      "loss": 0.1583,
+      "step": 527
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 2.68e-06,
+      "loss": 0.1207,
+      "step": 558
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 1.44e-06,
+      "loss": 0.118,
+      "step": 589
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.1169,
+      "step": 620
+    }
+  ],
+  "logging_steps": 31,
+  "max_steps": 625,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 625,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78ea760f40537c0dfdd399d657dfb664d5f51607943ea22fcf54963cf931ea7d
+size 6328