Upload 13 files

Browse files

Files changed (13) hide show

README.md +61 -0
added_tokens.json +3 -0
all_results.json +15 -0
config.json +43 -0
eval_results.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +62 -0
train_results.json +9 -0
trainer_state.json +636 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: mit
+base_model: agentlans/deberta-v3-xsmall-zyda-2
+tags:
+- generated_from_trainer
+model-index:
+- name: deberta-v3-xsmall-zyda-2-readability
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# deberta-v3-xsmall-zyda-2-readability
+This model is a fine-tuned version of [agentlans/deberta-v3-xsmall-zyda-2](https://huggingface.co/agentlans/deberta-v3-xsmall-zyda-2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7798
+- Mse: 0.7798
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 64
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mse    |
+|:-------------:|:-----:|:-----:|:---------------:|:------:|
+| 0.7074        | 1.0   | 13589 | 1.1765          | 1.1765 |
+| 0.5843        | 2.0   | 27178 | 0.9119          | 0.9119 |
+| 0.519         | 3.0   | 40767 | 0.7798          | 0.7798 |
+### Framework versions
+- Transformers 4.46.3
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.7798499464988708,
+    "eval_mse": 0.7798499701682378,
+    "eval_runtime": 50.5561,
+    "eval_samples": 50000,
+    "eval_samples_per_second": 989.0,
+    "eval_steps_per_second": 123.625,
+    "total_flos": 4.296607448400461e+16,
+    "train_loss": 0.8136542444680382,
+    "train_runtime": 5173.0086,
+    "train_samples": 869663,
+    "train_samples_per_second": 504.347,
+    "train_steps_per_second": 7.881
+}

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "agentlans/deberta-v3-xsmall-zyda-2",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 384,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.7798499464988708,
+    "eval_mse": 0.7798499701682378,
+    "eval_runtime": 50.5561,
+    "eval_samples": 50000,
+    "eval_samples_per_second": 989.0,
+    "eval_steps_per_second": 123.625
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:495e86a2e1dcf8d1d0785394284c87a64aa9bec1b3e12e7dea159fffb0a0b851
+size 283345892

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "max_length": 1024,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 4.296607448400461e+16,
+    "train_loss": 0.8136542444680382,
+    "train_runtime": 5173.0086,
+    "train_samples": 869663,
+    "train_samples_per_second": 504.347,
+    "train_steps_per_second": 7.881
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,636 @@

+{
+  "best_metric": 0.7798499464988708,
+  "best_model_checkpoint": "deberta-v3-xsmall-zyda-2-readability/checkpoint-40767",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 40767,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03679446611229671,
+      "grad_norm": 16.423442840576172,
+      "learning_rate": 4.9386758898128385e-05,
+      "loss": 13.8081,
+      "step": 500
+    },
+    {
+      "epoch": 0.07358893222459342,
+      "grad_norm": 30.925838470458984,
+      "learning_rate": 4.877351779625678e-05,
+      "loss": 1.2516,
+      "step": 1000
+    },
+    {
+      "epoch": 0.11038339833689013,
+      "grad_norm": 7.902581214904785,
+      "learning_rate": 4.8160276694385164e-05,
+      "loss": 1.0974,
+      "step": 1500
+    },
+    {
+      "epoch": 0.14717786444918685,
+      "grad_norm": 23.696027755737305,
+      "learning_rate": 4.754703559251355e-05,
+      "loss": 0.9989,
+      "step": 2000
+    },
+    {
+      "epoch": 0.18397233056148354,
+      "grad_norm": 6.253603935241699,
+      "learning_rate": 4.693379449064194e-05,
+      "loss": 0.9566,
+      "step": 2500
+    },
+    {
+      "epoch": 0.22076679667378027,
+      "grad_norm": 15.503094673156738,
+      "learning_rate": 4.632055338877033e-05,
+      "loss": 0.9294,
+      "step": 3000
+    },
+    {
+      "epoch": 0.257561262786077,
+      "grad_norm": 10.995322227478027,
+      "learning_rate": 4.570731228689872e-05,
+      "loss": 0.9277,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2943557288983737,
+      "grad_norm": 35.4528694152832,
+      "learning_rate": 4.509407118502711e-05,
+      "loss": 0.8674,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3311501950106704,
+      "grad_norm": 28.436100006103516,
+      "learning_rate": 4.448083008315549e-05,
+      "loss": 0.8675,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3679446611229671,
+      "grad_norm": 8.568737983703613,
+      "learning_rate": 4.386758898128389e-05,
+      "loss": 0.8243,
+      "step": 5000
+    },
+    {
+      "epoch": 0.40473912723526384,
+      "grad_norm": 11.543416976928711,
+      "learning_rate": 4.325434787941227e-05,
+      "loss": 0.8138,
+      "step": 5500
+    },
+    {
+      "epoch": 0.44153359334756054,
+      "grad_norm": 8.195497512817383,
+      "learning_rate": 4.264110677754066e-05,
+      "loss": 0.7986,
+      "step": 6000
+    },
+    {
+      "epoch": 0.47832805945985724,
+      "grad_norm": 11.104621887207031,
+      "learning_rate": 4.202786567566905e-05,
+      "loss": 0.7888,
+      "step": 6500
+    },
+    {
+      "epoch": 0.515122525572154,
+      "grad_norm": 18.536165237426758,
+      "learning_rate": 4.141462457379743e-05,
+      "loss": 0.7736,
+      "step": 7000
+    },
+    {
+      "epoch": 0.5519169916844506,
+      "grad_norm": 12.101081848144531,
+      "learning_rate": 4.080138347192582e-05,
+      "loss": 0.7731,
+      "step": 7500
+    },
+    {
+      "epoch": 0.5887114577967474,
+      "grad_norm": 41.568119049072266,
+      "learning_rate": 4.018814237005421e-05,
+      "loss": 0.7695,
+      "step": 8000
+    },
+    {
+      "epoch": 0.625505923909044,
+      "grad_norm": 34.703407287597656,
+      "learning_rate": 3.95749012681826e-05,
+      "loss": 0.7647,
+      "step": 8500
+    },
+    {
+      "epoch": 0.6623003900213408,
+      "grad_norm": 5.127053737640381,
+      "learning_rate": 3.896166016631099e-05,
+      "loss": 0.7568,
+      "step": 9000
+    },
+    {
+      "epoch": 0.6990948561336375,
+      "grad_norm": 23.96383285522461,
+      "learning_rate": 3.834841906443938e-05,
+      "loss": 0.7503,
+      "step": 9500
+    },
+    {
+      "epoch": 0.7358893222459342,
+      "grad_norm": 21.276172637939453,
+      "learning_rate": 3.773517796256776e-05,
+      "loss": 0.7243,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7726837883582309,
+      "grad_norm": 9.888713836669922,
+      "learning_rate": 3.712193686069616e-05,
+      "loss": 0.7263,
+      "step": 10500
+    },
+    {
+      "epoch": 0.8094782544705277,
+      "grad_norm": 10.007771492004395,
+      "learning_rate": 3.650869575882454e-05,
+      "loss": 0.7163,
+      "step": 11000
+    },
+    {
+      "epoch": 0.8462727205828243,
+      "grad_norm": 10.484025955200195,
+      "learning_rate": 3.589545465695293e-05,
+      "loss": 0.7059,
+      "step": 11500
+    },
+    {
+      "epoch": 0.8830671866951211,
+      "grad_norm": 8.901969909667969,
+      "learning_rate": 3.528221355508132e-05,
+      "loss": 0.6982,
+      "step": 12000
+    },
+    {
+      "epoch": 0.9198616528074177,
+      "grad_norm": 24.126110076904297,
+      "learning_rate": 3.466897245320971e-05,
+      "loss": 0.7096,
+      "step": 12500
+    },
+    {
+      "epoch": 0.9566561189197145,
+      "grad_norm": 6.792783260345459,
+      "learning_rate": 3.405573135133809e-05,
+      "loss": 0.7046,
+      "step": 13000
+    },
+    {
+      "epoch": 0.9934505850320112,
+      "grad_norm": 16.441293716430664,
+      "learning_rate": 3.344249024946648e-05,
+      "loss": 0.7074,
+      "step": 13500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.17648184299469,
+      "eval_mse": 1.1764817839641581,
+      "eval_runtime": 51.1635,
+      "eval_samples_per_second": 977.258,
+      "eval_steps_per_second": 122.157,
+      "step": 13589
+    },
+    {
+      "epoch": 1.030245051144308,
+      "grad_norm": 11.408621788024902,
+      "learning_rate": 3.282924914759487e-05,
+      "loss": 0.65,
+      "step": 14000
+    },
+    {
+      "epoch": 1.0670395172566045,
+      "grad_norm": 8.84099006652832,
+      "learning_rate": 3.221600804572326e-05,
+      "loss": 0.6433,
+      "step": 14500
+    },
+    {
+      "epoch": 1.1038339833689013,
+      "grad_norm": 8.65352725982666,
+      "learning_rate": 3.160276694385165e-05,
+      "loss": 0.6161,
+      "step": 15000
+    },
+    {
+      "epoch": 1.140628449481198,
+      "grad_norm": 7.572135925292969,
+      "learning_rate": 3.098952584198003e-05,
+      "loss": 0.6326,
+      "step": 15500
+    },
+    {
+      "epoch": 1.1774229155934948,
+      "grad_norm": 6.609086513519287,
+      "learning_rate": 3.0376284740108423e-05,
+      "loss": 0.6327,
+      "step": 16000
+    },
+    {
+      "epoch": 1.2142173817057915,
+      "grad_norm": 9.266849517822266,
+      "learning_rate": 2.976304363823681e-05,
+      "loss": 0.6375,
+      "step": 16500
+    },
+    {
+      "epoch": 1.2510118478180883,
+      "grad_norm": 13.321990013122559,
+      "learning_rate": 2.91498025363652e-05,
+      "loss": 0.645,
+      "step": 17000
+    },
+    {
+      "epoch": 1.2878063139303848,
+      "grad_norm": 5.256217956542969,
+      "learning_rate": 2.8536561434493587e-05,
+      "loss": 0.623,
+      "step": 17500
+    },
+    {
+      "epoch": 1.3246007800426816,
+      "grad_norm": 12.81368637084961,
+      "learning_rate": 2.7923320332621977e-05,
+      "loss": 0.6314,
+      "step": 18000
+    },
+    {
+      "epoch": 1.3613952461549783,
+      "grad_norm": 11.609545707702637,
+      "learning_rate": 2.7310079230750363e-05,
+      "loss": 0.6308,
+      "step": 18500
+    },
+    {
+      "epoch": 1.398189712267275,
+      "grad_norm": 6.967829704284668,
+      "learning_rate": 2.6696838128878755e-05,
+      "loss": 0.6245,
+      "step": 19000
+    },
+    {
+      "epoch": 1.4349841783795716,
+      "grad_norm": 8.6737642288208,
+      "learning_rate": 2.6083597027007138e-05,
+      "loss": 0.6259,
+      "step": 19500
+    },
+    {
+      "epoch": 1.4717786444918683,
+      "grad_norm": 6.064223766326904,
+      "learning_rate": 2.5470355925135524e-05,
+      "loss": 0.624,
+      "step": 20000
+    },
+    {
+      "epoch": 1.508573110604165,
+      "grad_norm": 8.55582046508789,
+      "learning_rate": 2.4857114823263916e-05,
+      "loss": 0.608,
+      "step": 20500
+    },
+    {
+      "epoch": 1.5453675767164619,
+      "grad_norm": 12.90141487121582,
+      "learning_rate": 2.4243873721392306e-05,
+      "loss": 0.6186,
+      "step": 21000
+    },
+    {
+      "epoch": 1.5821620428287586,
+      "grad_norm": 12.488966941833496,
+      "learning_rate": 2.3630632619520692e-05,
+      "loss": 0.601,
+      "step": 21500
+    },
+    {
+      "epoch": 1.6189565089410554,
+      "grad_norm": 23.348468780517578,
+      "learning_rate": 2.301739151764908e-05,
+      "loss": 0.6045,
+      "step": 22000
+    },
+    {
+      "epoch": 1.6557509750533521,
+      "grad_norm": 5.677742004394531,
+      "learning_rate": 2.2404150415777467e-05,
+      "loss": 0.6029,
+      "step": 22500
+    },
+    {
+      "epoch": 1.6925454411656486,
+      "grad_norm": 8.58395004272461,
+      "learning_rate": 2.1790909313905856e-05,
+      "loss": 0.6035,
+      "step": 23000
+    },
+    {
+      "epoch": 1.7293399072779454,
+      "grad_norm": 10.593660354614258,
+      "learning_rate": 2.1177668212034242e-05,
+      "loss": 0.5971,
+      "step": 23500
+    },
+    {
+      "epoch": 1.7661343733902422,
+      "grad_norm": 16.008560180664062,
+      "learning_rate": 2.056442711016263e-05,
+      "loss": 0.5921,
+      "step": 24000
+    },
+    {
+      "epoch": 1.8029288395025387,
+      "grad_norm": 34.0599365234375,
+      "learning_rate": 1.995118600829102e-05,
+      "loss": 0.586,
+      "step": 24500
+    },
+    {
+      "epoch": 1.8397233056148354,
+      "grad_norm": 20.452659606933594,
+      "learning_rate": 1.933794490641941e-05,
+      "loss": 0.5962,
+      "step": 25000
+    },
+    {
+      "epoch": 1.8765177717271322,
+      "grad_norm": 21.741378784179688,
+      "learning_rate": 1.8724703804547796e-05,
+      "loss": 0.586,
+      "step": 25500
+    },
+    {
+      "epoch": 1.913312237839429,
+      "grad_norm": 9.27108097076416,
+      "learning_rate": 1.8111462702676185e-05,
+      "loss": 0.5811,
+      "step": 26000
+    },
+    {
+      "epoch": 1.9501067039517257,
+      "grad_norm": 25.552701950073242,
+      "learning_rate": 1.7498221600804575e-05,
+      "loss": 0.5897,
+      "step": 26500
+    },
+    {
+      "epoch": 1.9869011700640224,
+      "grad_norm": 7.014336585998535,
+      "learning_rate": 1.688498049893296e-05,
+      "loss": 0.5843,
+      "step": 27000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.9118738770484924,
+      "eval_mse": 0.9118738873106327,
+      "eval_runtime": 50.7686,
+      "eval_samples_per_second": 984.861,
+      "eval_steps_per_second": 123.108,
+      "step": 27178
+    },
+    {
+      "epoch": 2.023695636176319,
+      "grad_norm": 6.413208961486816,
+      "learning_rate": 1.627173939706135e-05,
+      "loss": 0.5492,
+      "step": 27500
+    },
+    {
+      "epoch": 2.060490102288616,
+      "grad_norm": 6.586884498596191,
+      "learning_rate": 1.565849829518974e-05,
+      "loss": 0.5432,
+      "step": 28000
+    },
+    {
+      "epoch": 2.0972845684009127,
+      "grad_norm": 17.055835723876953,
+      "learning_rate": 1.5045257193318127e-05,
+      "loss": 0.5393,
+      "step": 28500
+    },
+    {
+      "epoch": 2.134079034513209,
+      "grad_norm": 13.087154388427734,
+      "learning_rate": 1.4432016091446513e-05,
+      "loss": 0.5419,
+      "step": 29000
+    },
+    {
+      "epoch": 2.1708735006255058,
+      "grad_norm": 4.83110237121582,
+      "learning_rate": 1.38187749895749e-05,
+      "loss": 0.5357,
+      "step": 29500
+    },
+    {
+      "epoch": 2.2076679667378025,
+      "grad_norm": 11.013864517211914,
+      "learning_rate": 1.320553388770329e-05,
+      "loss": 0.5411,
+      "step": 30000
+    },
+    {
+      "epoch": 2.2444624328500993,
+      "grad_norm": 21.888784408569336,
+      "learning_rate": 1.2592292785831677e-05,
+      "loss": 0.5446,
+      "step": 30500
+    },
+    {
+      "epoch": 2.281256898962396,
+      "grad_norm": 4.124610424041748,
+      "learning_rate": 1.1979051683960066e-05,
+      "loss": 0.5364,
+      "step": 31000
+    },
+    {
+      "epoch": 2.318051365074693,
+      "grad_norm": 6.587899208068848,
+      "learning_rate": 1.1365810582088454e-05,
+      "loss": 0.5298,
+      "step": 31500
+    },
+    {
+      "epoch": 2.3548458311869895,
+      "grad_norm": 4.52357816696167,
+      "learning_rate": 1.0752569480216842e-05,
+      "loss": 0.5324,
+      "step": 32000
+    },
+    {
+      "epoch": 2.3916402972992863,
+      "grad_norm": 6.613998889923096,
+      "learning_rate": 1.0139328378345231e-05,
+      "loss": 0.5389,
+      "step": 32500
+    },
+    {
+      "epoch": 2.428434763411583,
+      "grad_norm": 8.802297592163086,
+      "learning_rate": 9.526087276473619e-06,
+      "loss": 0.527,
+      "step": 33000
+    },
+    {
+      "epoch": 2.46522922952388,
+      "grad_norm": 8.77059268951416,
+      "learning_rate": 8.912846174602008e-06,
+      "loss": 0.5203,
+      "step": 33500
+    },
+    {
+      "epoch": 2.5020236956361765,
+      "grad_norm": 6.136614799499512,
+      "learning_rate": 8.299605072730394e-06,
+      "loss": 0.5269,
+      "step": 34000
+    },
+    {
+      "epoch": 2.5388181617484733,
+      "grad_norm": 6.427796363830566,
+      "learning_rate": 7.686363970858783e-06,
+      "loss": 0.5215,
+      "step": 34500
+    },
+    {
+      "epoch": 2.5756126278607696,
+      "grad_norm": 8.561346054077148,
+      "learning_rate": 7.073122868987171e-06,
+      "loss": 0.5373,
+      "step": 35000
+    },
+    {
+      "epoch": 2.6124070939730664,
+      "grad_norm": 4.508603096008301,
+      "learning_rate": 6.459881767115559e-06,
+      "loss": 0.5319,
+      "step": 35500
+    },
+    {
+      "epoch": 2.649201560085363,
+      "grad_norm": 13.598175048828125,
+      "learning_rate": 5.846640665243948e-06,
+      "loss": 0.524,
+      "step": 36000
+    },
+    {
+      "epoch": 2.68599602619766,
+      "grad_norm": 4.264435291290283,
+      "learning_rate": 5.233399563372335e-06,
+      "loss": 0.5221,
+      "step": 36500
+    },
+    {
+      "epoch": 2.7227904923099566,
+      "grad_norm": 7.450808525085449,
+      "learning_rate": 4.620158461500724e-06,
+      "loss": 0.5295,
+      "step": 37000
+    },
+    {
+      "epoch": 2.7595849584222534,
+      "grad_norm": 9.741497039794922,
+      "learning_rate": 4.006917359629112e-06,
+      "loss": 0.5195,
+      "step": 37500
+    },
+    {
+      "epoch": 2.79637942453455,
+      "grad_norm": 14.861910820007324,
+      "learning_rate": 3.3936762577575e-06,
+      "loss": 0.5245,
+      "step": 38000
+    },
+    {
+      "epoch": 2.8331738906468464,
+      "grad_norm": 9.222199440002441,
+      "learning_rate": 2.7804351558858883e-06,
+      "loss": 0.5041,
+      "step": 38500
+    },
+    {
+      "epoch": 2.869968356759143,
+      "grad_norm": 3.4334182739257812,
+      "learning_rate": 2.1671940540142763e-06,
+      "loss": 0.5206,
+      "step": 39000
+    },
+    {
+      "epoch": 2.90676282287144,
+      "grad_norm": 3.955873489379883,
+      "learning_rate": 1.5539529521426646e-06,
+      "loss": 0.5085,
+      "step": 39500
+    },
+    {
+      "epoch": 2.9435572889837367,
+      "grad_norm": 23.795787811279297,
+      "learning_rate": 9.407118502710525e-07,
+      "loss": 0.5159,
+      "step": 40000
+    },
+    {
+      "epoch": 2.9803517550960335,
+      "grad_norm": 5.348132610321045,
+      "learning_rate": 3.2747074839944075e-07,
+      "loss": 0.519,
+      "step": 40500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.7798499464988708,
+      "eval_mse": 0.7798499701682378,
+      "eval_runtime": 50.9671,
+      "eval_samples_per_second": 981.024,
+      "eval_steps_per_second": 122.628,
+      "step": 40767
+    },
+    {
+      "epoch": 3.0,
+      "step": 40767,
+      "total_flos": 4.296607448400461e+16,
+      "train_loss": 0.8136542444680382,
+      "train_runtime": 5173.0086,
+      "train_samples_per_second": 504.347,
+      "train_steps_per_second": 7.881
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 40767,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.296607448400461e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cbf596800b58b777319a4106900f8b91d718d2aae2495835c9470de34720bc4
+size 5368