Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

checkpoint-1413/config.json +26 -0
checkpoint-1413/model.safetensors +3 -0
checkpoint-1413/optimizer.pt +3 -0
checkpoint-1413/rng_state.pth +3 -0
checkpoint-1413/scheduler.pt +3 -0
checkpoint-1413/special_tokens_map.json +7 -0
checkpoint-1413/tokenizer.json +0 -0
checkpoint-1413/tokenizer_config.json +56 -0
checkpoint-1413/trainer_state.json +259 -0
checkpoint-1413/training_args.bin +3 -0
checkpoint-1413/vocab.txt +0 -0
config.json +26 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +56 -0
vocab.txt +0 -0

checkpoint-1413/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

checkpoint-1413/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70a0ae2cb4bac7c2d330dd6fd0b668ebf330686cfec0695eb102b5f10aa8760e
+size 541317368

checkpoint-1413/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92536fd35dc61548236a192091bdfb7c5bd1b60b43cf5a2d6e809e2ff9c97f9f
+size 1082696890

checkpoint-1413/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecbdb486f45d21770a6a8c506d67ae992ed5d201c96375ba0c67e7a235bf64dc
+size 14244

checkpoint-1413/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a08c30c7856ff414c1e25b4833f35b648e6e81f982b3b1e22b09d20c7b0f5ca0
+size 1064

checkpoint-1413/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-1413/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1413/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1413/trainer_state.json ADDED Viewed

	@@ -0,0 +1,259 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1413,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10615711252653928,
+      "grad_norm": 0.822494387626648,
+      "learning_rate": 4.823071479122435e-05,
+      "loss": 0.6599,
+      "step": 50
+    },
+    {
+      "epoch": 0.21231422505307856,
+      "grad_norm": 0.9401699304580688,
+      "learning_rate": 4.6461429582448696e-05,
+      "loss": 0.6465,
+      "step": 100
+    },
+    {
+      "epoch": 0.3184713375796178,
+      "grad_norm": 0.5120589733123779,
+      "learning_rate": 4.469214437367304e-05,
+      "loss": 0.6396,
+      "step": 150
+    },
+    {
+      "epoch": 0.42462845010615713,
+      "grad_norm": 0.8457750678062439,
+      "learning_rate": 4.292285916489738e-05,
+      "loss": 0.6295,
+      "step": 200
+    },
+    {
+      "epoch": 0.5307855626326964,
+      "grad_norm": 0.7705994248390198,
+      "learning_rate": 4.115357395612173e-05,
+      "loss": 0.6223,
+      "step": 250
+    },
+    {
+      "epoch": 0.6369426751592356,
+      "grad_norm": 0.962993323802948,
+      "learning_rate": 3.9384288747346076e-05,
+      "loss": 0.6202,
+      "step": 300
+    },
+    {
+      "epoch": 0.7430997876857749,
+      "grad_norm": 0.8745971322059631,
+      "learning_rate": 3.761500353857042e-05,
+      "loss": 0.6179,
+      "step": 350
+    },
+    {
+      "epoch": 0.8492569002123143,
+      "grad_norm": 0.9388220310211182,
+      "learning_rate": 3.584571832979476e-05,
+      "loss": 0.6164,
+      "step": 400
+    },
+    {
+      "epoch": 0.9554140127388535,
+      "grad_norm": 0.643945038318634,
+      "learning_rate": 3.407643312101911e-05,
+      "loss": 0.6156,
+      "step": 450
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6478773375875211,
+      "eval_f1": 0.6935123042505593,
+      "eval_loss": 0.6068633794784546,
+      "eval_runtime": 29.9559,
+      "eval_samples_per_second": 376.654,
+      "eval_steps_per_second": 3.939,
+      "step": 471
+    },
+    {
+      "epoch": 1.0615711252653928,
+      "grad_norm": 0.9551882743835449,
+      "learning_rate": 3.2307147912243455e-05,
+      "loss": 0.5978,
+      "step": 500
+    },
+    {
+      "epoch": 1.167728237791932,
+      "grad_norm": 0.8925243020057678,
+      "learning_rate": 3.05378627034678e-05,
+      "loss": 0.5925,
+      "step": 550
+    },
+    {
+      "epoch": 1.2738853503184713,
+      "grad_norm": 1.4399162530899048,
+      "learning_rate": 2.8768577494692145e-05,
+      "loss": 0.5946,
+      "step": 600
+    },
+    {
+      "epoch": 1.3800424628450108,
+      "grad_norm": 0.8456072807312012,
+      "learning_rate": 2.699929228591649e-05,
+      "loss": 0.5872,
+      "step": 650
+    },
+    {
+      "epoch": 1.48619957537155,
+      "grad_norm": 0.8160797357559204,
+      "learning_rate": 2.523000707714084e-05,
+      "loss": 0.5868,
+      "step": 700
+    },
+    {
+      "epoch": 1.5923566878980893,
+      "grad_norm": 1.2058725357055664,
+      "learning_rate": 2.3460721868365182e-05,
+      "loss": 0.5844,
+      "step": 750
+    },
+    {
+      "epoch": 1.6985138004246285,
+      "grad_norm": 0.8997677564620972,
+      "learning_rate": 2.1691436659589525e-05,
+      "loss": 0.5942,
+      "step": 800
+    },
+    {
+      "epoch": 1.8046709129511678,
+      "grad_norm": 0.6996552348136902,
+      "learning_rate": 1.9922151450813872e-05,
+      "loss": 0.5934,
+      "step": 850
+    },
+    {
+      "epoch": 1.910828025477707,
+      "grad_norm": 1.2173207998275757,
+      "learning_rate": 1.8152866242038215e-05,
+      "loss": 0.5935,
+      "step": 900
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.654701763715324,
+      "eval_f1": 0.690252822388297,
+      "eval_loss": 0.6040562987327576,
+      "eval_runtime": 29.6452,
+      "eval_samples_per_second": 380.601,
+      "eval_steps_per_second": 3.98,
+      "step": 942
+    },
+    {
+      "epoch": 2.0169851380042463,
+      "grad_norm": 0.7898246645927429,
+      "learning_rate": 1.6383581033262562e-05,
+      "loss": 0.5917,
+      "step": 950
+    },
+    {
+      "epoch": 2.1231422505307855,
+      "grad_norm": 1.168487787246704,
+      "learning_rate": 1.461429582448691e-05,
+      "loss": 0.5637,
+      "step": 1000
+    },
+    {
+      "epoch": 2.229299363057325,
+      "grad_norm": 1.5715628862380981,
+      "learning_rate": 1.2845010615711253e-05,
+      "loss": 0.5563,
+      "step": 1050
+    },
+    {
+      "epoch": 2.335456475583864,
+      "grad_norm": 1.6441806554794312,
+      "learning_rate": 1.1075725406935598e-05,
+      "loss": 0.5399,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4416135881104033,
+      "grad_norm": 1.376325011253357,
+      "learning_rate": 9.306440198159943e-06,
+      "loss": 0.5608,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5477707006369426,
+      "grad_norm": 1.4360628128051758,
+      "learning_rate": 7.537154989384289e-06,
+      "loss": 0.5552,
+      "step": 1200
+    },
+    {
+      "epoch": 2.653927813163482,
+      "grad_norm": 1.4048738479614258,
+      "learning_rate": 5.767869780608635e-06,
+      "loss": 0.55,
+      "step": 1250
+    },
+    {
+      "epoch": 2.7600849256900215,
+      "grad_norm": 1.1524888277053833,
+      "learning_rate": 3.99858457183298e-06,
+      "loss": 0.5521,
+      "step": 1300
+    },
+    {
+      "epoch": 2.8662420382165603,
+      "grad_norm": 1.2835032939910889,
+      "learning_rate": 2.229299363057325e-06,
+      "loss": 0.5704,
+      "step": 1350
+    },
+    {
+      "epoch": 2.9723991507431,
+      "grad_norm": 1.3388535976409912,
+      "learning_rate": 4.6001415428167025e-07,
+      "loss": 0.5608,
+      "step": 1400
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6450412124434991,
+      "eval_f1": 0.6825208085612366,
+      "eval_loss": 0.6194082498550415,
+      "eval_runtime": 29.5475,
+      "eval_samples_per_second": 381.859,
+      "eval_steps_per_second": 3.994,
+      "step": 1413
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1413,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.7933568897447936e+16,
+  "train_batch_size": 96,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1413/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daf31243f710cadd7c3481998fafb12812a09847d81944a77ae6e616b24b8cfd
+size 5304

checkpoint-1413/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70a0ae2cb4bac7c2d330dd6fd0b668ebf330686cfec0695eb102b5f10aa8760e
+size 541317368

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff