Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

checkpoint-2619/config.json +26 -0
checkpoint-2619/model.safetensors +3 -0
checkpoint-2619/optimizer.pt +3 -0
checkpoint-2619/rng_state.pth +3 -0
checkpoint-2619/scheduler.pt +3 -0
checkpoint-2619/special_tokens_map.json +7 -0
checkpoint-2619/tokenizer.json +0 -0
checkpoint-2619/tokenizer_config.json +56 -0
checkpoint-2619/trainer_state.json +427 -0
checkpoint-2619/training_args.bin +3 -0
checkpoint-2619/vocab.txt +0 -0
model.safetensors +1 -1

checkpoint-2619/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

checkpoint-2619/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d5dc69ddbb8668b38815b274b7fa286936063915ed21ba4e61d8cb8f145e5b0
+size 541317368

checkpoint-2619/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0de209748c1c3ca7bb580ccc6cde82004dbc4ae26261060038d62ea3b437e124
+size 1082696890

checkpoint-2619/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a5ca7efd4a375d77d25ddac2e8b35b94147dddd92d2588ea9d9b654bc545a69
+size 14244

checkpoint-2619/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db3fb0b03f25d427366074ae87640f63f368dd48e0fdf8e02a497643a0ca23f2
+size 1064

checkpoint-2619/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-2619/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2619/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-2619/trainer_state.json ADDED Viewed

	@@ -0,0 +1,427 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 2619,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0572737686139748,
+      "grad_norm": 1.6889350414276123,
+      "learning_rate": 4.904543718976709e-05,
+      "loss": 0.6367,
+      "step": 50
+    },
+    {
+      "epoch": 0.1145475372279496,
+      "grad_norm": 1.8329870700836182,
+      "learning_rate": 4.809087437953417e-05,
+      "loss": 0.5759,
+      "step": 100
+    },
+    {
+      "epoch": 0.1718213058419244,
+      "grad_norm": 1.3400354385375977,
+      "learning_rate": 4.713631156930126e-05,
+      "loss": 0.5711,
+      "step": 150
+    },
+    {
+      "epoch": 0.2290950744558992,
+      "grad_norm": 1.22416090965271,
+      "learning_rate": 4.618174875906835e-05,
+      "loss": 0.5597,
+      "step": 200
+    },
+    {
+      "epoch": 0.286368843069874,
+      "grad_norm": 1.6629807949066162,
+      "learning_rate": 4.522718594883544e-05,
+      "loss": 0.5442,
+      "step": 250
+    },
+    {
+      "epoch": 0.3436426116838488,
+      "grad_norm": 1.5647610425949097,
+      "learning_rate": 4.427262313860252e-05,
+      "loss": 0.5287,
+      "step": 300
+    },
+    {
+      "epoch": 0.4009163802978236,
+      "grad_norm": 1.5147887468338013,
+      "learning_rate": 4.331806032836961e-05,
+      "loss": 0.5362,
+      "step": 350
+    },
+    {
+      "epoch": 0.4581901489117984,
+      "grad_norm": 1.2945597171783447,
+      "learning_rate": 4.2363497518136695e-05,
+      "loss": 0.5235,
+      "step": 400
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 1.9351801872253418,
+      "learning_rate": 4.140893470790378e-05,
+      "loss": 0.5196,
+      "step": 450
+    },
+    {
+      "epoch": 0.572737686139748,
+      "grad_norm": 1.9045623540878296,
+      "learning_rate": 4.0454371897670865e-05,
+      "loss": 0.5093,
+      "step": 500
+    },
+    {
+      "epoch": 0.6300114547537228,
+      "grad_norm": 1.5518434047698975,
+      "learning_rate": 3.949980908743795e-05,
+      "loss": 0.5106,
+      "step": 550
+    },
+    {
+      "epoch": 0.6872852233676976,
+      "grad_norm": 1.466840386390686,
+      "learning_rate": 3.854524627720504e-05,
+      "loss": 0.5121,
+      "step": 600
+    },
+    {
+      "epoch": 0.7445589919816724,
+      "grad_norm": 1.359466791152954,
+      "learning_rate": 3.759068346697213e-05,
+      "loss": 0.507,
+      "step": 650
+    },
+    {
+      "epoch": 0.8018327605956472,
+      "grad_norm": 1.9663983583450317,
+      "learning_rate": 3.663612065673922e-05,
+      "loss": 0.5028,
+      "step": 700
+    },
+    {
+      "epoch": 0.8591065292096219,
+      "grad_norm": 1.6117963790893555,
+      "learning_rate": 3.5681557846506306e-05,
+      "loss": 0.4896,
+      "step": 750
+    },
+    {
+      "epoch": 0.9163802978235968,
+      "grad_norm": 1.4263460636138916,
+      "learning_rate": 3.4726995036273394e-05,
+      "loss": 0.4917,
+      "step": 800
+    },
+    {
+      "epoch": 0.9736540664375716,
+      "grad_norm": 1.079898715019226,
+      "learning_rate": 3.3772432226040476e-05,
+      "loss": 0.5124,
+      "step": 850
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.738814878479683,
+      "eval_f1": 0.728374217896514,
+      "eval_loss": 0.4868564307689667,
+      "eval_runtime": 56.2275,
+      "eval_samples_per_second": 372.469,
+      "eval_steps_per_second": 3.895,
+      "step": 873
+    },
+    {
+      "epoch": 1.0309278350515463,
+      "grad_norm": 1.4357503652572632,
+      "learning_rate": 3.2817869415807564e-05,
+      "loss": 0.4585,
+      "step": 900
+    },
+    {
+      "epoch": 1.088201603665521,
+      "grad_norm": 2.1344144344329834,
+      "learning_rate": 3.186330660557465e-05,
+      "loss": 0.4482,
+      "step": 950
+    },
+    {
+      "epoch": 1.145475372279496,
+      "grad_norm": 1.5237584114074707,
+      "learning_rate": 3.0908743795341734e-05,
+      "loss": 0.445,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2027491408934707,
+      "grad_norm": 2.1996545791625977,
+      "learning_rate": 2.9954180985108822e-05,
+      "loss": 0.4414,
+      "step": 1050
+    },
+    {
+      "epoch": 1.2600229095074456,
+      "grad_norm": 1.8122806549072266,
+      "learning_rate": 2.899961817487591e-05,
+      "loss": 0.4379,
+      "step": 1100
+    },
+    {
+      "epoch": 1.3172966781214204,
+      "grad_norm": 1.9378130435943604,
+      "learning_rate": 2.8045055364643e-05,
+      "loss": 0.4358,
+      "step": 1150
+    },
+    {
+      "epoch": 1.3745704467353952,
+      "grad_norm": 2.2606778144836426,
+      "learning_rate": 2.709049255441008e-05,
+      "loss": 0.4321,
+      "step": 1200
+    },
+    {
+      "epoch": 1.43184421534937,
+      "grad_norm": 1.9233603477478027,
+      "learning_rate": 2.6135929744177168e-05,
+      "loss": 0.4191,
+      "step": 1250
+    },
+    {
+      "epoch": 1.4891179839633448,
+      "grad_norm": 2.874886989593506,
+      "learning_rate": 2.5181366933944256e-05,
+      "loss": 0.4399,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 2.801513671875,
+      "learning_rate": 2.422680412371134e-05,
+      "loss": 0.4263,
+      "step": 1350
+    },
+    {
+      "epoch": 1.6036655211912945,
+      "grad_norm": 2.149822950363159,
+      "learning_rate": 2.3272241313478426e-05,
+      "loss": 0.4294,
+      "step": 1400
+    },
+    {
+      "epoch": 1.660939289805269,
+      "grad_norm": 1.6502012014389038,
+      "learning_rate": 2.2317678503245514e-05,
+      "loss": 0.4293,
+      "step": 1450
+    },
+    {
+      "epoch": 1.718213058419244,
+      "grad_norm": 3.247627019882202,
+      "learning_rate": 2.13631156930126e-05,
+      "loss": 0.4325,
+      "step": 1500
+    },
+    {
+      "epoch": 1.7754868270332187,
+      "grad_norm": 2.349097967147827,
+      "learning_rate": 2.0408552882779688e-05,
+      "loss": 0.4328,
+      "step": 1550
+    },
+    {
+      "epoch": 1.8327605956471937,
+      "grad_norm": 2.392411708831787,
+      "learning_rate": 1.9453990072546772e-05,
+      "loss": 0.4273,
+      "step": 1600
+    },
+    {
+      "epoch": 1.8900343642611683,
+      "grad_norm": 1.5783507823944092,
+      "learning_rate": 1.849942726231386e-05,
+      "loss": 0.4228,
+      "step": 1650
+    },
+    {
+      "epoch": 1.9473081328751431,
+      "grad_norm": 2.832991600036621,
+      "learning_rate": 1.754486445208095e-05,
+      "loss": 0.4246,
+      "step": 1700
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.752041254834551,
+      "eval_f1": 0.7557499647241428,
+      "eval_loss": 0.47728216648101807,
+      "eval_runtime": 55.7924,
+      "eval_samples_per_second": 375.373,
+      "eval_steps_per_second": 3.925,
+      "step": 1746
+    },
+    {
+      "epoch": 2.004581901489118,
+      "grad_norm": 1.2103527784347534,
+      "learning_rate": 1.6590301641848037e-05,
+      "loss": 0.4277,
+      "step": 1750
+    },
+    {
+      "epoch": 2.0618556701030926,
+      "grad_norm": 2.3143885135650635,
+      "learning_rate": 1.5635738831615122e-05,
+      "loss": 0.3644,
+      "step": 1800
+    },
+    {
+      "epoch": 2.1191294387170676,
+      "grad_norm": 1.9333767890930176,
+      "learning_rate": 1.4681176021382207e-05,
+      "loss": 0.3809,
+      "step": 1850
+    },
+    {
+      "epoch": 2.176403207331042,
+      "grad_norm": 1.8364256620407104,
+      "learning_rate": 1.3726613211149295e-05,
+      "loss": 0.3638,
+      "step": 1900
+    },
+    {
+      "epoch": 2.2336769759450172,
+      "grad_norm": 2.7426836490631104,
+      "learning_rate": 1.277205040091638e-05,
+      "loss": 0.3711,
+      "step": 1950
+    },
+    {
+      "epoch": 2.290950744558992,
+      "grad_norm": 2.5422801971435547,
+      "learning_rate": 1.1817487590683468e-05,
+      "loss": 0.3711,
+      "step": 2000
+    },
+    {
+      "epoch": 2.348224513172967,
+      "grad_norm": 3.0044119358062744,
+      "learning_rate": 1.0862924780450553e-05,
+      "loss": 0.372,
+      "step": 2050
+    },
+    {
+      "epoch": 2.4054982817869415,
+      "grad_norm": 3.1833741664886475,
+      "learning_rate": 9.90836197021764e-06,
+      "loss": 0.3645,
+      "step": 2100
+    },
+    {
+      "epoch": 2.4627720504009165,
+      "grad_norm": 2.613365650177002,
+      "learning_rate": 8.953799159984726e-06,
+      "loss": 0.3673,
+      "step": 2150
+    },
+    {
+      "epoch": 2.520045819014891,
+      "grad_norm": 2.555938959121704,
+      "learning_rate": 7.999236349751815e-06,
+      "loss": 0.3718,
+      "step": 2200
+    },
+    {
+      "epoch": 2.5773195876288657,
+      "grad_norm": 2.8468923568725586,
+      "learning_rate": 7.0446735395189e-06,
+      "loss": 0.3649,
+      "step": 2250
+    },
+    {
+      "epoch": 2.6345933562428407,
+      "grad_norm": 3.8473777770996094,
+      "learning_rate": 6.090110729285988e-06,
+      "loss": 0.3702,
+      "step": 2300
+    },
+    {
+      "epoch": 2.691867124856816,
+      "grad_norm": 2.7918660640716553,
+      "learning_rate": 5.135547919053074e-06,
+      "loss": 0.3564,
+      "step": 2350
+    },
+    {
+      "epoch": 2.7491408934707904,
+      "grad_norm": 2.7832207679748535,
+      "learning_rate": 4.18098510882016e-06,
+      "loss": 0.3647,
+      "step": 2400
+    },
+    {
+      "epoch": 2.806414662084765,
+      "grad_norm": 3.194080352783203,
+      "learning_rate": 3.226422298587247e-06,
+      "loss": 0.3695,
+      "step": 2450
+    },
+    {
+      "epoch": 2.86368843069874,
+      "grad_norm": 4.3022966384887695,
+      "learning_rate": 2.271859488354334e-06,
+      "loss": 0.358,
+      "step": 2500
+    },
+    {
+      "epoch": 2.9209621993127146,
+      "grad_norm": 1.7924271821975708,
+      "learning_rate": 1.3172966781214204e-06,
+      "loss": 0.3721,
+      "step": 2550
+    },
+    {
+      "epoch": 2.9782359679266897,
+      "grad_norm": 1.7951252460479736,
+      "learning_rate": 3.627338678885071e-07,
+      "loss": 0.3626,
+      "step": 2600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7545241846917825,
+      "eval_f1": 0.7647893123484467,
+      "eval_loss": 0.4975164234638214,
+      "eval_runtime": 55.5446,
+      "eval_samples_per_second": 377.048,
+      "eval_steps_per_second": 3.943,
+      "step": 2619
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2619,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3289189749651456e+16,
+  "train_batch_size": 96,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2619/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6146ad1dc98175c3ae7f8a62eacf07a21eecf97d91bd50cf4d4048071a0d9148
+size 5304

checkpoint-2619/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72c245f92356c32148d492903e49c78e13061a7949f3b427847c884513b060b1
 size 541317368

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d5dc69ddbb8668b38815b274b7fa286936063915ed21ba4e61d8cb8f145e5b0
 size 541317368