Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

checkpoint-2661/config.json +26 -0
checkpoint-2661/model.safetensors +3 -0
checkpoint-2661/optimizer.pt +3 -0
checkpoint-2661/rng_state.pth +3 -0
checkpoint-2661/scheduler.pt +3 -0
checkpoint-2661/special_tokens_map.json +7 -0
checkpoint-2661/tokenizer.json +0 -0
checkpoint-2661/tokenizer_config.json +56 -0
checkpoint-2661/trainer_state.json +434 -0
checkpoint-2661/training_args.bin +3 -0
checkpoint-2661/vocab.txt +0 -0
model.safetensors +1 -1

checkpoint-2661/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

checkpoint-2661/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:591c68f23e62a2e2c2186c8f31dda5212136e630664963b224e4719c47dcd4ea
+size 541317368

checkpoint-2661/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bbf46c170717591038485a90221f42c04da067bcad1172f0dfe5e9cf4786086
+size 1082696890

checkpoint-2661/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51d81d9f2c53331206efe2ce78301f609f46b42e7344d02dafa3749e588b726c
+size 14244

checkpoint-2661/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32b93fb50a5142fbdd43ea128ac5e1d93e0dbdc81a227fedc2724f289978cae5
+size 1064

checkpoint-2661/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-2661/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2661/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2661/trainer_state.json ADDED Viewed

	@@ -0,0 +1,434 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 2661,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05636978579481398,
+      "grad_norm": 1.0439274311065674,
+      "learning_rate": 4.9060503570086435e-05,
+      "loss": 0.6368,
+      "step": 50
+    },
+    {
+      "epoch": 0.11273957158962795,
+      "grad_norm": 2.2991294860839844,
+      "learning_rate": 4.812100714017287e-05,
+      "loss": 0.5758,
+      "step": 100
+    },
+    {
+      "epoch": 0.16910935738444194,
+      "grad_norm": 1.6218173503875732,
+      "learning_rate": 4.71815107102593e-05,
+      "loss": 0.5639,
+      "step": 150
+    },
+    {
+      "epoch": 0.2254791431792559,
+      "grad_norm": 2.0030906200408936,
+      "learning_rate": 4.6242014280345734e-05,
+      "loss": 0.5421,
+      "step": 200
+    },
+    {
+      "epoch": 0.2818489289740699,
+      "grad_norm": 2.060424566268921,
+      "learning_rate": 4.530251785043217e-05,
+      "loss": 0.5377,
+      "step": 250
+    },
+    {
+      "epoch": 0.3382187147688839,
+      "grad_norm": 1.5049147605895996,
+      "learning_rate": 4.43630214205186e-05,
+      "loss": 0.5457,
+      "step": 300
+    },
+    {
+      "epoch": 0.3945885005636979,
+      "grad_norm": 2.017237663269043,
+      "learning_rate": 4.342352499060503e-05,
+      "loss": 0.5329,
+      "step": 350
+    },
+    {
+      "epoch": 0.4509582863585118,
+      "grad_norm": 1.5960201025009155,
+      "learning_rate": 4.2484028560691466e-05,
+      "loss": 0.538,
+      "step": 400
+    },
+    {
+      "epoch": 0.5073280721533259,
+      "grad_norm": 1.7139301300048828,
+      "learning_rate": 4.1544532130777905e-05,
+      "loss": 0.5141,
+      "step": 450
+    },
+    {
+      "epoch": 0.5636978579481398,
+      "grad_norm": 1.4965617656707764,
+      "learning_rate": 4.060503570086434e-05,
+      "loss": 0.5196,
+      "step": 500
+    },
+    {
+      "epoch": 0.6200676437429538,
+      "grad_norm": 1.2821619510650635,
+      "learning_rate": 3.966553927095078e-05,
+      "loss": 0.5114,
+      "step": 550
+    },
+    {
+      "epoch": 0.6764374295377678,
+      "grad_norm": 1.5799860954284668,
+      "learning_rate": 3.872604284103721e-05,
+      "loss": 0.52,
+      "step": 600
+    },
+    {
+      "epoch": 0.7328072153325818,
+      "grad_norm": 1.6334625482559204,
+      "learning_rate": 3.7786546411123644e-05,
+      "loss": 0.5093,
+      "step": 650
+    },
+    {
+      "epoch": 0.7891770011273957,
+      "grad_norm": 2.19488525390625,
+      "learning_rate": 3.6847049981210077e-05,
+      "loss": 0.503,
+      "step": 700
+    },
+    {
+      "epoch": 0.8455467869222097,
+      "grad_norm": 1.5821040868759155,
+      "learning_rate": 3.590755355129651e-05,
+      "loss": 0.4988,
+      "step": 750
+    },
+    {
+      "epoch": 0.9019165727170236,
+      "grad_norm": 2.2586898803710938,
+      "learning_rate": 3.496805712138294e-05,
+      "loss": 0.5102,
+      "step": 800
+    },
+    {
+      "epoch": 0.9582863585118376,
+      "grad_norm": 1.5365625619888306,
+      "learning_rate": 3.4028560691469375e-05,
+      "loss": 0.5047,
+      "step": 850
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.744162007235822,
+      "eval_f1": 0.7656552614590059,
+      "eval_loss": 0.4819556772708893,
+      "eval_runtime": 56.9558,
+      "eval_samples_per_second": 373.676,
+      "eval_steps_per_second": 3.898,
+      "step": 887
+    },
+    {
+      "epoch": 1.0146561443066517,
+      "grad_norm": 1.1745824813842773,
+      "learning_rate": 3.308906426155581e-05,
+      "loss": 0.4858,
+      "step": 900
+    },
+    {
+      "epoch": 1.0710259301014655,
+      "grad_norm": 3.0086119174957275,
+      "learning_rate": 3.214956783164224e-05,
+      "loss": 0.4368,
+      "step": 950
+    },
+    {
+      "epoch": 1.1273957158962795,
+      "grad_norm": 2.154918909072876,
+      "learning_rate": 3.1210071401728674e-05,
+      "loss": 0.4373,
+      "step": 1000
+    },
+    {
+      "epoch": 1.1837655016910935,
+      "grad_norm": 2.587249994277954,
+      "learning_rate": 3.0270574971815107e-05,
+      "loss": 0.4275,
+      "step": 1050
+    },
+    {
+      "epoch": 1.2401352874859075,
+      "grad_norm": 2.3393185138702393,
+      "learning_rate": 2.933107854190154e-05,
+      "loss": 0.4351,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2965050732807215,
+      "grad_norm": 1.727163553237915,
+      "learning_rate": 2.8391582111987973e-05,
+      "loss": 0.4457,
+      "step": 1150
+    },
+    {
+      "epoch": 1.3528748590755355,
+      "grad_norm": 2.3959648609161377,
+      "learning_rate": 2.745208568207441e-05,
+      "loss": 0.4291,
+      "step": 1200
+    },
+    {
+      "epoch": 1.4092446448703495,
+      "grad_norm": 2.1558401584625244,
+      "learning_rate": 2.6512589252160842e-05,
+      "loss": 0.4375,
+      "step": 1250
+    },
+    {
+      "epoch": 1.4656144306651635,
+      "grad_norm": 2.3182780742645264,
+      "learning_rate": 2.5573092822247275e-05,
+      "loss": 0.4297,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5219842164599775,
+      "grad_norm": 2.0232203006744385,
+      "learning_rate": 2.463359639233371e-05,
+      "loss": 0.4383,
+      "step": 1350
+    },
+    {
+      "epoch": 1.5783540022547915,
+      "grad_norm": 1.779449224472046,
+      "learning_rate": 2.3694099962420144e-05,
+      "loss": 0.4454,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6347237880496053,
+      "grad_norm": 2.562135696411133,
+      "learning_rate": 2.2754603532506577e-05,
+      "loss": 0.4251,
+      "step": 1450
+    },
+    {
+      "epoch": 1.6910935738444195,
+      "grad_norm": 2.216463327407837,
+      "learning_rate": 2.181510710259301e-05,
+      "loss": 0.4212,
+      "step": 1500
+    },
+    {
+      "epoch": 1.7474633596392333,
+      "grad_norm": 1.364642858505249,
+      "learning_rate": 2.0875610672679443e-05,
+      "loss": 0.4242,
+      "step": 1550
+    },
+    {
+      "epoch": 1.8038331454340475,
+      "grad_norm": 1.5100990533828735,
+      "learning_rate": 1.993611424276588e-05,
+      "loss": 0.4264,
+      "step": 1600
+    },
+    {
+      "epoch": 1.8602029312288613,
+      "grad_norm": 2.195282220840454,
+      "learning_rate": 1.8996617812852312e-05,
+      "loss": 0.4317,
+      "step": 1650
+    },
+    {
+      "epoch": 1.9165727170236753,
+      "grad_norm": 2.2001285552978516,
+      "learning_rate": 1.8057121382938748e-05,
+      "loss": 0.4392,
+      "step": 1700
+    },
+    {
+      "epoch": 1.9729425028184893,
+      "grad_norm": 2.5997512340545654,
+      "learning_rate": 1.711762495302518e-05,
+      "loss": 0.4199,
+      "step": 1750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7526194615420758,
+      "eval_f1": 0.768051456011278,
+      "eval_loss": 0.4766261875629425,
+      "eval_runtime": 56.2574,
+      "eval_samples_per_second": 378.314,
+      "eval_steps_per_second": 3.946,
+      "step": 1774
+    },
+    {
+      "epoch": 2.0293122886133035,
+      "grad_norm": 2.3610382080078125,
+      "learning_rate": 1.6178128523111614e-05,
+      "loss": 0.3941,
+      "step": 1800
+    },
+    {
+      "epoch": 2.0856820744081173,
+      "grad_norm": 3.2270758152008057,
+      "learning_rate": 1.5238632093198047e-05,
+      "loss": 0.3712,
+      "step": 1850
+    },
+    {
+      "epoch": 2.142051860202931,
+      "grad_norm": 2.4744791984558105,
+      "learning_rate": 1.429913566328448e-05,
+      "loss": 0.3755,
+      "step": 1900
+    },
+    {
+      "epoch": 2.1984216459977453,
+      "grad_norm": 3.3841307163238525,
+      "learning_rate": 1.3359639233370913e-05,
+      "loss": 0.3645,
+      "step": 1950
+    },
+    {
+      "epoch": 2.254791431792559,
+      "grad_norm": 2.185528516769409,
+      "learning_rate": 1.2420142803457347e-05,
+      "loss": 0.3716,
+      "step": 2000
+    },
+    {
+      "epoch": 2.3111612175873733,
+      "grad_norm": 2.18782639503479,
+      "learning_rate": 1.1480646373543782e-05,
+      "loss": 0.378,
+      "step": 2050
+    },
+    {
+      "epoch": 2.367531003382187,
+      "grad_norm": 2.1629090309143066,
+      "learning_rate": 1.0541149943630215e-05,
+      "loss": 0.3569,
+      "step": 2100
+    },
+    {
+      "epoch": 2.4239007891770012,
+      "grad_norm": 3.4792726039886475,
+      "learning_rate": 9.601653513716648e-06,
+      "loss": 0.3624,
+      "step": 2150
+    },
+    {
+      "epoch": 2.480270574971815,
+      "grad_norm": 2.1638121604919434,
+      "learning_rate": 8.662157083803082e-06,
+      "loss": 0.3647,
+      "step": 2200
+    },
+    {
+      "epoch": 2.5366403607666292,
+      "grad_norm": 1.679718255996704,
+      "learning_rate": 7.722660653889515e-06,
+      "loss": 0.3636,
+      "step": 2250
+    },
+    {
+      "epoch": 2.593010146561443,
+      "grad_norm": 3.7099499702453613,
+      "learning_rate": 6.783164223975949e-06,
+      "loss": 0.3619,
+      "step": 2300
+    },
+    {
+      "epoch": 2.649379932356257,
+      "grad_norm": 3.1615912914276123,
+      "learning_rate": 5.8436677940623835e-06,
+      "loss": 0.3667,
+      "step": 2350
+    },
+    {
+      "epoch": 2.705749718151071,
+      "grad_norm": 2.1708598136901855,
+      "learning_rate": 4.904171364148816e-06,
+      "loss": 0.3707,
+      "step": 2400
+    },
+    {
+      "epoch": 2.7621195039458852,
+      "grad_norm": 1.8847932815551758,
+      "learning_rate": 3.96467493423525e-06,
+      "loss": 0.3558,
+      "step": 2450
+    },
+    {
+      "epoch": 2.818489289740699,
+      "grad_norm": 2.6283624172210693,
+      "learning_rate": 3.025178504321684e-06,
+      "loss": 0.3575,
+      "step": 2500
+    },
+    {
+      "epoch": 2.874859075535513,
+      "grad_norm": 1.7425137758255005,
+      "learning_rate": 2.0856820744081176e-06,
+      "loss": 0.3685,
+      "step": 2550
+    },
+    {
+      "epoch": 2.931228861330327,
+      "grad_norm": 3.9649059772491455,
+      "learning_rate": 1.146185644494551e-06,
+      "loss": 0.374,
+      "step": 2600
+    },
+    {
+      "epoch": 2.987598647125141,
+      "grad_norm": 3.081310749053955,
+      "learning_rate": 2.066892145809846e-07,
+      "loss": 0.363,
+      "step": 2650
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7502701686792276,
+      "eval_f1": 0.7636622348703811,
+      "eval_loss": 0.5071986317634583,
+      "eval_runtime": 57.0998,
+      "eval_samples_per_second": 372.733,
+      "eval_steps_per_second": 3.888,
+      "step": 2661
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2661,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3829656736167936e+16,
+  "train_batch_size": 96,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2661/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76a7922b684c1c4953ec27b2cd8cab89ecad5c9324f5600caab8aaa80f8c94a
+size 5304

checkpoint-2661/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ea9b5e7183bbf5cf8fa18a035400a551437fae62101ab6a9f9b5deb3b2f5b8c
 size 541317368

 version https://git-lfs.github.com/spec/v1
+oid sha256:591c68f23e62a2e2c2186c8f31dda5212136e630664963b224e4719c47dcd4ea
 size 541317368