Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

checkpoint-3993/config.json +26 -0
checkpoint-3993/model.safetensors +3 -0
checkpoint-3993/optimizer.pt +3 -0
checkpoint-3993/rng_state.pth +3 -0
checkpoint-3993/scheduler.pt +3 -0
checkpoint-3993/special_tokens_map.json +7 -0
checkpoint-3993/tokenizer.json +0 -0
checkpoint-3993/tokenizer_config.json +56 -0
checkpoint-3993/trainer_state.json +616 -0
checkpoint-3993/training_args.bin +3 -0
checkpoint-3993/vocab.txt +0 -0
config.json +26 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +56 -0
vocab.txt +0 -0

checkpoint-3993/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

checkpoint-3993/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ea9b5e7183bbf5cf8fa18a035400a551437fae62101ab6a9f9b5deb3b2f5b8c
+size 541317368

checkpoint-3993/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:790a47a1e084ea24a5141b94cd9e7642464dcde31589e665983af95a17982f9d
+size 1082696890

checkpoint-3993/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f77155ef51b39b582fee6b7532a11655f8bbce22f1a1541c851f69568820fae
+size 14244

checkpoint-3993/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c9a100e2f2b7b8fc6eaa82083fc485d0bcbe8913f96de28b5d46bbcaee0f201
+size 1064

checkpoint-3993/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-3993/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3993/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-3993/trainer_state.json ADDED Viewed

	@@ -0,0 +1,616 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 3993,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.037565740045078885,
+      "grad_norm": 1.0086880922317505,
+      "learning_rate": 4.937390433258202e-05,
+      "loss": 0.6372,
+      "step": 50
+    },
+    {
+      "epoch": 0.07513148009015777,
+      "grad_norm": 2.3579623699188232,
+      "learning_rate": 4.874780866516404e-05,
+      "loss": 0.5979,
+      "step": 100
+    },
+    {
+      "epoch": 0.11269722013523667,
+      "grad_norm": 1.6555202007293701,
+      "learning_rate": 4.812171299774606e-05,
+      "loss": 0.5668,
+      "step": 150
+    },
+    {
+      "epoch": 0.15026296018031554,
+      "grad_norm": 2.134246587753296,
+      "learning_rate": 4.749561733032808e-05,
+      "loss": 0.5677,
+      "step": 200
+    },
+    {
+      "epoch": 0.18782870022539444,
+      "grad_norm": 1.2070592641830444,
+      "learning_rate": 4.6869521662910095e-05,
+      "loss": 0.5519,
+      "step": 250
+    },
+    {
+      "epoch": 0.22539444027047334,
+      "grad_norm": 1.7169790267944336,
+      "learning_rate": 4.6243425995492114e-05,
+      "loss": 0.5403,
+      "step": 300
+    },
+    {
+      "epoch": 0.26296018031555224,
+      "grad_norm": 2.367072105407715,
+      "learning_rate": 4.561733032807413e-05,
+      "loss": 0.5375,
+      "step": 350
+    },
+    {
+      "epoch": 0.3005259203606311,
+      "grad_norm": 1.7623053789138794,
+      "learning_rate": 4.499123466065615e-05,
+      "loss": 0.5425,
+      "step": 400
+    },
+    {
+      "epoch": 0.33809166040571,
+      "grad_norm": 1.7148823738098145,
+      "learning_rate": 4.436513899323817e-05,
+      "loss": 0.5454,
+      "step": 450
+    },
+    {
+      "epoch": 0.3756574004507889,
+      "grad_norm": 1.318366527557373,
+      "learning_rate": 4.373904332582019e-05,
+      "loss": 0.5353,
+      "step": 500
+    },
+    {
+      "epoch": 0.4132231404958678,
+      "grad_norm": 2.0299246311187744,
+      "learning_rate": 4.311294765840221e-05,
+      "loss": 0.5296,
+      "step": 550
+    },
+    {
+      "epoch": 0.4507888805409467,
+      "grad_norm": 1.5541517734527588,
+      "learning_rate": 4.2486851990984225e-05,
+      "loss": 0.5433,
+      "step": 600
+    },
+    {
+      "epoch": 0.4883546205860255,
+      "grad_norm": 1.6975432634353638,
+      "learning_rate": 4.1860756323566244e-05,
+      "loss": 0.5142,
+      "step": 650
+    },
+    {
+      "epoch": 0.5259203606311045,
+      "grad_norm": 1.6241447925567627,
+      "learning_rate": 4.123466065614826e-05,
+      "loss": 0.5139,
+      "step": 700
+    },
+    {
+      "epoch": 0.5634861006761833,
+      "grad_norm": 1.4247183799743652,
+      "learning_rate": 4.060856498873028e-05,
+      "loss": 0.5102,
+      "step": 750
+    },
+    {
+      "epoch": 0.6010518407212622,
+      "grad_norm": 2.266134023666382,
+      "learning_rate": 3.99824693213123e-05,
+      "loss": 0.5036,
+      "step": 800
+    },
+    {
+      "epoch": 0.6386175807663411,
+      "grad_norm": 1.5822668075561523,
+      "learning_rate": 3.935637365389432e-05,
+      "loss": 0.5203,
+      "step": 850
+    },
+    {
+      "epoch": 0.67618332081142,
+      "grad_norm": 2.1509227752685547,
+      "learning_rate": 3.873027798647634e-05,
+      "loss": 0.5116,
+      "step": 900
+    },
+    {
+      "epoch": 0.7137490608564989,
+      "grad_norm": 1.511104941368103,
+      "learning_rate": 3.810418231905835e-05,
+      "loss": 0.5048,
+      "step": 950
+    },
+    {
+      "epoch": 0.7513148009015778,
+      "grad_norm": 2.872206211090088,
+      "learning_rate": 3.747808665164037e-05,
+      "loss": 0.5137,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7888805409466566,
+      "grad_norm": 3.4886534214019775,
+      "learning_rate": 3.685199098422239e-05,
+      "loss": 0.4881,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "grad_norm": 2.8081490993499756,
+      "learning_rate": 3.622589531680441e-05,
+      "loss": 0.4764,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8640120210368144,
+      "grad_norm": 1.6759647130966187,
+      "learning_rate": 3.559979964938643e-05,
+      "loss": 0.5082,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9015777610818934,
+      "grad_norm": 2.0700764656066895,
+      "learning_rate": 3.497370398196845e-05,
+      "loss": 0.5035,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9391435011269722,
+      "grad_norm": 1.5199862718582153,
+      "learning_rate": 3.434760831455047e-05,
+      "loss": 0.5007,
+      "step": 1250
+    },
+    {
+      "epoch": 0.976709241172051,
+      "grad_norm": 2.5575571060180664,
+      "learning_rate": 3.3721512647132486e-05,
+      "loss": 0.5015,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7457595263825588,
+      "eval_f1": 0.7615774399647499,
+      "eval_loss": 0.47971779108047485,
+      "eval_runtime": 154.8323,
+      "eval_samples_per_second": 137.458,
+      "eval_steps_per_second": 2.151,
+      "step": 1331
+    },
+    {
+      "epoch": 1.01427498121713,
+      "grad_norm": 1.657974362373352,
+      "learning_rate": 3.30954169797145e-05,
+      "loss": 0.4846,
+      "step": 1350
+    },
+    {
+      "epoch": 1.051840721262209,
+      "grad_norm": 2.831270217895508,
+      "learning_rate": 3.2469321312296516e-05,
+      "loss": 0.4359,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0894064613072878,
+      "grad_norm": 2.0967586040496826,
+      "learning_rate": 3.184322564487854e-05,
+      "loss": 0.4352,
+      "step": 1450
+    },
+    {
+      "epoch": 1.1269722013523666,
+      "grad_norm": 2.5382165908813477,
+      "learning_rate": 3.121712997746056e-05,
+      "loss": 0.423,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1645379413974455,
+      "grad_norm": 1.702189326286316,
+      "learning_rate": 3.059103431004258e-05,
+      "loss": 0.4178,
+      "step": 1550
+    },
+    {
+      "epoch": 1.2021036814425243,
+      "grad_norm": 2.0063211917877197,
+      "learning_rate": 2.9964938642624597e-05,
+      "loss": 0.4235,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2396694214876034,
+      "grad_norm": 2.133720874786377,
+      "learning_rate": 2.9338842975206616e-05,
+      "loss": 0.4381,
+      "step": 1650
+    },
+    {
+      "epoch": 1.2772351615326822,
+      "grad_norm": 1.841479778289795,
+      "learning_rate": 2.8712747307788628e-05,
+      "loss": 0.4531,
+      "step": 1700
+    },
+    {
+      "epoch": 1.314800901577761,
+      "grad_norm": 2.0691092014312744,
+      "learning_rate": 2.808665164037065e-05,
+      "loss": 0.4247,
+      "step": 1750
+    },
+    {
+      "epoch": 1.35236664162284,
+      "grad_norm": 4.776940822601318,
+      "learning_rate": 2.7460555972952668e-05,
+      "loss": 0.4265,
+      "step": 1800
+    },
+    {
+      "epoch": 1.389932381667919,
+      "grad_norm": 1.9305018186569214,
+      "learning_rate": 2.6834460305534687e-05,
+      "loss": 0.4306,
+      "step": 1850
+    },
+    {
+      "epoch": 1.4274981217129978,
+      "grad_norm": 2.0644538402557373,
+      "learning_rate": 2.6208364638116705e-05,
+      "loss": 0.4255,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4650638617580767,
+      "grad_norm": 3.263160228729248,
+      "learning_rate": 2.5582268970698724e-05,
+      "loss": 0.4427,
+      "step": 1950
+    },
+    {
+      "epoch": 1.5026296018031555,
+      "grad_norm": 3.1235225200653076,
+      "learning_rate": 2.4956173303280743e-05,
+      "loss": 0.4433,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5401953418482344,
+      "grad_norm": 1.4947174787521362,
+      "learning_rate": 2.433007763586276e-05,
+      "loss": 0.4359,
+      "step": 2050
+    },
+    {
+      "epoch": 1.5777610818933132,
+      "grad_norm": 1.4775031805038452,
+      "learning_rate": 2.370398196844478e-05,
+      "loss": 0.4397,
+      "step": 2100
+    },
+    {
+      "epoch": 1.615326821938392,
+      "grad_norm": 3.387707233428955,
+      "learning_rate": 2.30778863010268e-05,
+      "loss": 0.4202,
+      "step": 2150
+    },
+    {
+      "epoch": 1.6528925619834711,
+      "grad_norm": 3.0223426818847656,
+      "learning_rate": 2.2451790633608817e-05,
+      "loss": 0.4275,
+      "step": 2200
+    },
+    {
+      "epoch": 1.69045830202855,
+      "grad_norm": 2.5161309242248535,
+      "learning_rate": 2.1825694966190836e-05,
+      "loss": 0.406,
+      "step": 2250
+    },
+    {
+      "epoch": 1.7280240420736288,
+      "grad_norm": 2.2194652557373047,
+      "learning_rate": 2.1199599298772854e-05,
+      "loss": 0.416,
+      "step": 2300
+    },
+    {
+      "epoch": 1.7655897821187079,
+      "grad_norm": 2.4205820560455322,
+      "learning_rate": 2.057350363135487e-05,
+      "loss": 0.4315,
+      "step": 2350
+    },
+    {
+      "epoch": 1.8031555221637867,
+      "grad_norm": 1.2840783596038818,
+      "learning_rate": 1.994740796393689e-05,
+      "loss": 0.4155,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8407212622088656,
+      "grad_norm": 1.456228256225586,
+      "learning_rate": 1.932131229651891e-05,
+      "loss": 0.4247,
+      "step": 2450
+    },
+    {
+      "epoch": 1.8782870022539444,
+      "grad_norm": 2.8294334411621094,
+      "learning_rate": 1.869521662910093e-05,
+      "loss": 0.4305,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9158527422990232,
+      "grad_norm": 2.2248728275299072,
+      "learning_rate": 1.8069120961682944e-05,
+      "loss": 0.4349,
+      "step": 2550
+    },
+    {
+      "epoch": 1.953418482344102,
+      "grad_norm": 1.7025116682052612,
+      "learning_rate": 1.7443025294264966e-05,
+      "loss": 0.423,
+      "step": 2600
+    },
+    {
+      "epoch": 1.990984222389181,
+      "grad_norm": 3.388554811477661,
+      "learning_rate": 1.6816929626846984e-05,
+      "loss": 0.4265,
+      "step": 2650
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7559084715500635,
+      "eval_f1": 0.764024528730411,
+      "eval_loss": 0.47860267758369446,
+      "eval_runtime": 149.5526,
+      "eval_samples_per_second": 142.311,
+      "eval_steps_per_second": 2.227,
+      "step": 2662
+    },
+    {
+      "epoch": 2.02854996243426,
+      "grad_norm": 6.253864765167236,
+      "learning_rate": 1.6190833959429003e-05,
+      "loss": 0.3602,
+      "step": 2700
+    },
+    {
+      "epoch": 2.0661157024793386,
+      "grad_norm": 2.9103243350982666,
+      "learning_rate": 1.5564738292011018e-05,
+      "loss": 0.3674,
+      "step": 2750
+    },
+    {
+      "epoch": 2.103681442524418,
+      "grad_norm": 2.6558964252471924,
+      "learning_rate": 1.4938642624593038e-05,
+      "loss": 0.3632,
+      "step": 2800
+    },
+    {
+      "epoch": 2.1412471825694968,
+      "grad_norm": 2.243708610534668,
+      "learning_rate": 1.4312546957175057e-05,
+      "loss": 0.3729,
+      "step": 2850
+    },
+    {
+      "epoch": 2.1788129226145756,
+      "grad_norm": 2.718883752822876,
+      "learning_rate": 1.3686451289757077e-05,
+      "loss": 0.3564,
+      "step": 2900
+    },
+    {
+      "epoch": 2.2163786626596544,
+      "grad_norm": 5.29821252822876,
+      "learning_rate": 1.3060355622339094e-05,
+      "loss": 0.3617,
+      "step": 2950
+    },
+    {
+      "epoch": 2.2539444027047333,
+      "grad_norm": 4.189558982849121,
+      "learning_rate": 1.2434259954921113e-05,
+      "loss": 0.3653,
+      "step": 3000
+    },
+    {
+      "epoch": 2.291510142749812,
+      "grad_norm": 1.6549113988876343,
+      "learning_rate": 1.180816428750313e-05,
+      "loss": 0.3727,
+      "step": 3050
+    },
+    {
+      "epoch": 2.329075882794891,
+      "grad_norm": 1.1492334604263306,
+      "learning_rate": 1.118206862008515e-05,
+      "loss": 0.3649,
+      "step": 3100
+    },
+    {
+      "epoch": 2.36664162283997,
+      "grad_norm": 2.9691059589385986,
+      "learning_rate": 1.0555972952667167e-05,
+      "loss": 0.3558,
+      "step": 3150
+    },
+    {
+      "epoch": 2.4042073628850487,
+      "grad_norm": 2.8758184909820557,
+      "learning_rate": 9.929877285249187e-06,
+      "loss": 0.3605,
+      "step": 3200
+    },
+    {
+      "epoch": 2.441773102930128,
+      "grad_norm": 2.866455554962158,
+      "learning_rate": 9.303781617831204e-06,
+      "loss": 0.3459,
+      "step": 3250
+    },
+    {
+      "epoch": 2.479338842975207,
+      "grad_norm": 2.672839879989624,
+      "learning_rate": 8.677685950413224e-06,
+      "loss": 0.3553,
+      "step": 3300
+    },
+    {
+      "epoch": 2.5169045830202856,
+      "grad_norm": 3.4048142433166504,
+      "learning_rate": 8.051590282995241e-06,
+      "loss": 0.3502,
+      "step": 3350
+    },
+    {
+      "epoch": 2.5544703230653645,
+      "grad_norm": 2.534475564956665,
+      "learning_rate": 7.4254946155772605e-06,
+      "loss": 0.3519,
+      "step": 3400
+    },
+    {
+      "epoch": 2.5920360631104433,
+      "grad_norm": 5.125302791595459,
+      "learning_rate": 6.799398948159279e-06,
+      "loss": 0.3561,
+      "step": 3450
+    },
+    {
+      "epoch": 2.629601803155522,
+      "grad_norm": 3.038414478302002,
+      "learning_rate": 6.173303280741298e-06,
+      "loss": 0.3708,
+      "step": 3500
+    },
+    {
+      "epoch": 2.667167543200601,
+      "grad_norm": 3.264307975769043,
+      "learning_rate": 5.5472076133233154e-06,
+      "loss": 0.3688,
+      "step": 3550
+    },
+    {
+      "epoch": 2.70473328324568,
+      "grad_norm": 3.3217625617980957,
+      "learning_rate": 4.921111945905334e-06,
+      "loss": 0.3538,
+      "step": 3600
+    },
+    {
+      "epoch": 2.7422990232907587,
+      "grad_norm": 1.3763796091079712,
+      "learning_rate": 4.295016278487353e-06,
+      "loss": 0.3463,
+      "step": 3650
+    },
+    {
+      "epoch": 2.779864763335838,
+      "grad_norm": 4.890012741088867,
+      "learning_rate": 3.6689206110693716e-06,
+      "loss": 0.3514,
+      "step": 3700
+    },
+    {
+      "epoch": 2.8174305033809164,
+      "grad_norm": 2.0561699867248535,
+      "learning_rate": 3.0428249436513902e-06,
+      "loss": 0.3619,
+      "step": 3750
+    },
+    {
+      "epoch": 2.8549962434259957,
+      "grad_norm": 3.4119489192962646,
+      "learning_rate": 2.4167292762334084e-06,
+      "loss": 0.3557,
+      "step": 3800
+    },
+    {
+      "epoch": 2.8925619834710745,
+      "grad_norm": 4.181868553161621,
+      "learning_rate": 1.7906336088154272e-06,
+      "loss": 0.3526,
+      "step": 3850
+    },
+    {
+      "epoch": 2.9301277235161534,
+      "grad_norm": 2.8571691513061523,
+      "learning_rate": 1.1645379413974456e-06,
+      "loss": 0.37,
+      "step": 3900
+    },
+    {
+      "epoch": 2.967693463561232,
+      "grad_norm": 7.221222877502441,
+      "learning_rate": 5.38442273979464e-07,
+      "loss": 0.3626,
+      "step": 3950
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7501292111074567,
+      "eval_f1": 0.7617169997311587,
+      "eval_loss": 0.5218836665153503,
+      "eval_runtime": 144.5779,
+      "eval_samples_per_second": 147.208,
+      "eval_steps_per_second": 2.303,
+      "step": 3993
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3993,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3829656736167936e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3993/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:497b1fb162099a485fef5d85839946a6214e40e81d40b13c3ef06199d07ece80
+size 5304

checkpoint-3993/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ea9b5e7183bbf5cf8fa18a035400a551437fae62101ab6a9f9b5deb3b2f5b8c
+size 541317368

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff