Ar4l commited on Sep 17, 2024

Commit

8821e9f

verified ·

1 Parent(s): a6ba0a3

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

all_results.json +17 -0
checkpoint-312/config.json +33 -0
checkpoint-312/model.safetensors +3 -0
checkpoint-312/optimizer.pt +3 -0
checkpoint-312/rng_state.pth +3 -0
checkpoint-312/scheduler.pt +3 -0
checkpoint-312/special_tokens_map.json +30 -0
checkpoint-312/tokenizer.json +0 -0
checkpoint-312/tokenizer_config.json +67 -0
checkpoint-312/trainer_state.json +53 -0
checkpoint-312/training_args.bin +3 -0
config.json +33 -0
eval_results.json +11 -0
model.safetensors +3 -0
predictions.txt +140 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +67 -0
train_results.json +9 -0
trainer_state.json +109 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.5179855823516846,
+    "eval_f1": 0.6127167630057804,
+    "eval_loss": 0.6988222599029541,
+    "eval_mcc": 0.09869207097117276,
+    "eval_runtime": 0.257,
+    "eval_samples": 139,
+    "eval_samples_per_second": 540.852,
+    "eval_steps_per_second": 70.038,
+    "total_flos": 587617475420160.0,
+    "train_loss": 0.5243261960836557,
+    "train_runtime": 82.8963,
+    "train_samples": 2490,
+    "train_samples_per_second": 600.751,
+    "train_steps_per_second": 75.275
+}

checkpoint-312/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

checkpoint-312/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1903e0b3bec7906948786c7724b47a7361ad86bfd8e4fe5b914d254342ebb413
+size 174103504

checkpoint-312/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:307c551d490a088f10492ad9e224d0fe702b090e654a844de6a361fbd1086b4d
+size 348288250

checkpoint-312/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feeb7ed71196744e1340d4d4adb484f14f6b41af20fccdd9e9c15c9f0f9ad88f
+size 14244

checkpoint-312/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6175e59510c6b0293bd93d0ede49b65bf27a38ddbf9738854a6ada0b7f5e0d86
+size 1064

checkpoint-312/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-312/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-312/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

checkpoint-312/trainer_state.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "best_metric": 0.6127167630057804,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/rte/checkpoint-312",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 312,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5179855823516846,
+      "eval_f1": 0.6127167630057804,
+      "eval_loss": 0.6988222599029541,
+      "eval_mcc": 0.09869207097117276,
+      "eval_runtime": 0.2603,
+      "eval_samples_per_second": 534.027,
+      "eval_steps_per_second": 69.155,
+      "step": 312
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 146904368855040.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-312/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81de75fec8e9df0468cf7d13e4ddf920d0e2af32c69cde8ff0341b09bc00d3d8
+size 5368

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.5179855823516846,
+    "eval_f1": 0.6127167630057804,
+    "eval_loss": 0.6988222599029541,
+    "eval_mcc": 0.09869207097117276,
+    "eval_runtime": 0.257,
+    "eval_samples": 139,
+    "eval_samples_per_second": 540.852,
+    "eval_steps_per_second": 70.038
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1903e0b3bec7906948786c7724b47a7361ad86bfd8e4fe5b914d254342ebb413
+size 174103504

predictions.txt ADDED Viewed

	@@ -0,0 +1,140 @@

+index	prediction
+0	1
+1	1
+2	0
+3	1
+4	1
+5	1
+6	1
+7	1
+8	1
+9	1
+10	1
+11	1
+12	1
+13	0
+14	0
+15	1
+16	0
+17	1
+18	1
+19	0
+20	0
+21	1
+22	0
+23	1
+24	1
+25	0
+26	1
+27	1
+28	1
+29	0
+30	1
+31	0
+32	0
+33	0
+34	0
+35	1
+36	1
+37	1
+38	1
+39	0
+40	1
+41	1
+42	0
+43	1
+44	0
+45	0
+46	1
+47	1
+48	1
+49	1
+50	1
+51	1
+52	1
+53	0
+54	1
+55	1
+56	1
+57	1
+58	1
+59	1
+60	1
+61	0
+62	1
+63	1
+64	1
+65	1
+66	1
+67	1
+68	1
+69	0
+70	1
+71	1
+72	1
+73	1
+74	1
+75	1
+76	1
+77	1
+78	1
+79	1
+80	1
+81	1
+82	1
+83	1
+84	1
+85	1
+86	1
+87	1
+88	1
+89	1
+90	0
+91	1
+92	1
+93	0
+94	0
+95	1
+96	1
+97	1
+98	0
+99	1
+100	0
+101	1
+102	1
+103	1
+104	1
+105	1
+106	1
+107	1
+108	1
+109	1
+110	1
+111	1
+112	0
+113	1
+114	1
+115	1
+116	1
+117	1
+118	1
+119	0
+120	1
+121	1
+122	0
+123	1
+124	0
+125	1
+126	1
+127	1
+128	1
+129	1
+130	1
+131	1
+132	1
+133	1
+134	1
+135	0
+136	1
+137	1
+138	1

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 4.0,
+    "total_flos": 587617475420160.0,
+    "train_loss": 0.5243261960836557,
+    "train_runtime": 82.8963,
+    "train_samples": 2490,
+    "train_samples_per_second": 600.751,
+    "train_steps_per_second": 75.275
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "best_metric": 0.6127167630057804,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/rte/checkpoint-312",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1248,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5179855823516846,
+      "eval_f1": 0.6127167630057804,
+      "eval_loss": 0.6988222599029541,
+      "eval_mcc": 0.09869207097117276,
+      "eval_runtime": 0.2603,
+      "eval_samples_per_second": 534.027,
+      "eval_steps_per_second": 69.155,
+      "step": 312
+    },
+    {
+      "epoch": 1.6025641025641026,
+      "grad_norm": 2.8960421085357666,
+      "learning_rate": 2.7596153846153846e-05,
+      "loss": 0.6829,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5899280309677124,
+      "eval_f1": 0.4864864864864865,
+      "eval_loss": 0.6877012848854065,
+      "eval_mcc": 0.1635282583804096,
+      "eval_runtime": 0.2394,
+      "eval_samples_per_second": 580.645,
+      "eval_steps_per_second": 75.191,
+      "step": 624
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.46043166518211365,
+      "eval_f1": 0.5714285714285714,
+      "eval_loss": 1.203949213027954,
+      "eval_mcc": -0.03987122665174367,
+      "eval_runtime": 0.2479,
+      "eval_samples_per_second": 560.646,
+      "eval_steps_per_second": 72.602,
+      "step": 936
+    },
+    {
+      "epoch": 3.2051282051282053,
+      "grad_norm": 10.899106979370117,
+      "learning_rate": 2.5192307692307694e-05,
+      "loss": 0.4839,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.49640288949012756,
+      "eval_f1": 0.5454545454545454,
+      "eval_loss": 1.811629295349121,
+      "eval_mcc": 0.016953317256112287,
+      "eval_runtime": 0.2418,
+      "eval_samples_per_second": 574.756,
+      "eval_steps_per_second": 74.429,
+      "step": 1248
+    },
+    {
+      "epoch": 4.0,
+      "step": 1248,
+      "total_flos": 587617475420160.0,
+      "train_loss": 0.5243261960836557,
+      "train_runtime": 82.8963,
+      "train_samples_per_second": 600.751,
+      "train_steps_per_second": 75.275
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 587617475420160.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81de75fec8e9df0468cf7d13e4ddf920d0e2af32c69cde8ff0341b09bc00d3d8
+size 5368