End of training

Browse files

Files changed (5) hide show

README.md +89 -0
adapter_config.json +32 -0
adapter_model.safetensors +3 -0
trainer_state.json +1814 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,89 @@

+---
+library_name: peft
+license: other
+base_model: deepseek-ai/deepseek-coder-1.3b-base
+tags:
+- generated_from_trainer
+model-index:
+- name: lemexp-processed-task1_min_symbols_lemma_command_small-deepseek-coder-1.3b-base
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# lemexp-processed-task1_min_symbols_lemma_command_small-deepseek-coder-1.3b-base
+This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4329
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 6
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step   | Validation Loss |
+|:-------------:|:------:|:------:|:---------------:|
+| 0.6364        | 0.2000 | 3683   | 0.6357          |
+| 0.5857        | 0.4001 | 7366   | 0.5827          |
+| 0.5682        | 0.6001 | 11049  | 0.5516          |
+| 0.5421        | 0.8001 | 14732  | 0.5293          |
+| 0.5142        | 1.0002 | 18415  | 0.5177          |
+| 0.4674        | 1.2002 | 22098  | 0.5015          |
+| 0.4615        | 1.4002 | 25781  | 0.5000          |
+| 0.453         | 1.6003 | 29464  | 0.4770          |
+| 0.4506        | 1.8003 | 33147  | 0.4701          |
+| 0.4309        | 2.0003 | 36830  | 0.4646          |
+| 0.3829        | 2.2004 | 40513  | 0.4667          |
+| 0.3925        | 2.4004 | 44196  | 0.4595          |
+| 0.3858        | 2.6004 | 47879  | 0.4566          |
+| 0.3879        | 2.8005 | 51562  | 0.4439          |
+| 0.3764        | 3.0005 | 55245  | 0.4379          |
+| 0.3267        | 3.2005 | 58928  | 0.4502          |
+| 0.3346        | 3.4006 | 62611  | 0.4443          |
+| 0.3363        | 3.6006 | 66294  | 0.4339          |
+| 0.3321        | 3.8006 | 69977  | 0.4350          |
+| 0.3423        | 4.0007 | 73660  | 0.4288          |
+| 0.2789        | 4.2007 | 77343  | 0.4458          |
+| 0.2928        | 4.4007 | 81026  | 0.4379          |
+| 0.2963        | 4.6007 | 84709  | 0.4325          |
+| 0.2887        | 4.8008 | 88392  | 0.4275          |
+| 0.2949        | 5.0008 | 92075  | 0.4292          |
+| 0.2437        | 5.2008 | 95758  | 0.4366          |
+| 0.2424        | 5.4009 | 99441  | 0.4358          |
+| 0.2528        | 5.6009 | 103124 | 0.4331          |
+| 0.2477        | 5.8009 | 106807 | 0.4329          |
+### Framework versions
+- PEFT 0.14.0
+- Transformers 4.47.0
+- Pytorch 2.5.1+cu124
+- Datasets 3.2.0
+- Tokenizers 0.21.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "deepseek-ai/deepseek-coder-1.3b-base",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b11dcd5831eabe187fc7cdbc3ca1732249fadda083fa0a80db66db747cc50f5a
+size 531035104

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1814 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 3683,
+  "global_step": 110472,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.027156202476645665,
+      "grad_norm": 1.423619031906128,
+      "learning_rate": 0.00019927699054107928,
+      "loss": 0.804,
+      "step": 500
+    },
+    {
+      "epoch": 0.05431240495329133,
+      "grad_norm": 2.0592901706695557,
+      "learning_rate": 0.00019837096365020115,
+      "loss": 0.7258,
+      "step": 1000
+    },
+    {
+      "epoch": 0.081468607429937,
+      "grad_norm": 1.7999378442764282,
+      "learning_rate": 0.00019746493675932303,
+      "loss": 0.698,
+      "step": 1500
+    },
+    {
+      "epoch": 0.10862480990658266,
+      "grad_norm": 1.6404426097869873,
+      "learning_rate": 0.0001965589098684449,
+      "loss": 0.6863,
+      "step": 2000
+    },
+    {
+      "epoch": 0.13578101238322832,
+      "grad_norm": 2.424567222595215,
+      "learning_rate": 0.00019565469503134855,
+      "loss": 0.6638,
+      "step": 2500
+    },
+    {
+      "epoch": 0.162937214859874,
+      "grad_norm": 2.102727174758911,
+      "learning_rate": 0.00019475048019425216,
+      "loss": 0.6554,
+      "step": 3000
+    },
+    {
+      "epoch": 0.19009341733651966,
+      "grad_norm": 1.732860803604126,
+      "learning_rate": 0.00019384445330337407,
+      "loss": 0.6364,
+      "step": 3500
+    },
+    {
+      "epoch": 0.20003258744297198,
+      "eval_loss": 0.6357121467590332,
+      "eval_runtime": 25.1143,
+      "eval_samples_per_second": 14.693,
+      "eval_steps_per_second": 7.366,
+      "step": 3683
+    },
+    {
+      "epoch": 0.21724961981316532,
+      "grad_norm": 1.5829988718032837,
+      "learning_rate": 0.00019293842641249595,
+      "loss": 0.6576,
+      "step": 4000
+    },
+    {
+      "epoch": 0.244405822289811,
+      "grad_norm": 0.9155117869377136,
+      "learning_rate": 0.0001920323995216178,
+      "loss": 0.6241,
+      "step": 4500
+    },
+    {
+      "epoch": 0.27156202476645663,
+      "grad_norm": 1.6804828643798828,
+      "learning_rate": 0.0001911263726307397,
+      "loss": 0.6369,
+      "step": 5000
+    },
+    {
+      "epoch": 0.2987182272431023,
+      "grad_norm": 1.337156891822815,
+      "learning_rate": 0.00019022034573986155,
+      "loss": 0.6196,
+      "step": 5500
+    },
+    {
+      "epoch": 0.325874429719748,
+      "grad_norm": 1.680059790611267,
+      "learning_rate": 0.00018931431884898345,
+      "loss": 0.6121,
+      "step": 6000
+    },
+    {
+      "epoch": 0.35303063219639363,
+      "grad_norm": 2.251309871673584,
+      "learning_rate": 0.00018840829195810533,
+      "loss": 0.5984,
+      "step": 6500
+    },
+    {
+      "epoch": 0.3801868346730393,
+      "grad_norm": 1.7084137201309204,
+      "learning_rate": 0.0001875022650672272,
+      "loss": 0.5857,
+      "step": 7000
+    },
+    {
+      "epoch": 0.40006517488594395,
+      "eval_loss": 0.5826721787452698,
+      "eval_runtime": 24.2431,
+      "eval_samples_per_second": 15.221,
+      "eval_steps_per_second": 7.631,
+      "step": 7366
+    },
+    {
+      "epoch": 0.407343037149685,
+      "grad_norm": 1.7896497249603271,
+      "learning_rate": 0.00018659623817634909,
+      "loss": 0.5777,
+      "step": 7500
+    },
+    {
+      "epoch": 0.43449923962633064,
+      "grad_norm": 1.6899892091751099,
+      "learning_rate": 0.00018569021128547096,
+      "loss": 0.584,
+      "step": 8000
+    },
+    {
+      "epoch": 0.4616554421029763,
+      "grad_norm": 2.2623794078826904,
+      "learning_rate": 0.00018478418439459284,
+      "loss": 0.5731,
+      "step": 8500
+    },
+    {
+      "epoch": 0.488811644579622,
+      "grad_norm": 2.9157674312591553,
+      "learning_rate": 0.00018387996955749646,
+      "loss": 0.5719,
+      "step": 9000
+    },
+    {
+      "epoch": 0.5159678470562676,
+      "grad_norm": 1.841354489326477,
+      "learning_rate": 0.00018297394266661836,
+      "loss": 0.5765,
+      "step": 9500
+    },
+    {
+      "epoch": 0.5431240495329133,
+      "grad_norm": 2.550917625427246,
+      "learning_rate": 0.00018206791577574024,
+      "loss": 0.552,
+      "step": 10000
+    },
+    {
+      "epoch": 0.570280252009559,
+      "grad_norm": 1.5018529891967773,
+      "learning_rate": 0.00018116188888486211,
+      "loss": 0.5489,
+      "step": 10500
+    },
+    {
+      "epoch": 0.5974364544862046,
+      "grad_norm": 3.648230791091919,
+      "learning_rate": 0.00018025767404776576,
+      "loss": 0.5682,
+      "step": 11000
+    },
+    {
+      "epoch": 0.6000977623289159,
+      "eval_loss": 0.5515537858009338,
+      "eval_runtime": 25.2059,
+      "eval_samples_per_second": 14.639,
+      "eval_steps_per_second": 7.34,
+      "step": 11049
+    },
+    {
+      "epoch": 0.6245926569628503,
+      "grad_norm": 3.894047498703003,
+      "learning_rate": 0.0001793516471568876,
+      "loss": 0.5662,
+      "step": 11500
+    },
+    {
+      "epoch": 0.651748859439496,
+      "grad_norm": 2.1958436965942383,
+      "learning_rate": 0.0001784456202660095,
+      "loss": 0.557,
+      "step": 12000
+    },
+    {
+      "epoch": 0.6789050619161416,
+      "grad_norm": 1.6268092393875122,
+      "learning_rate": 0.00017754140542891312,
+      "loss": 0.5472,
+      "step": 12500
+    },
+    {
+      "epoch": 0.7060612643927873,
+      "grad_norm": 1.6947818994522095,
+      "learning_rate": 0.00017663537853803503,
+      "loss": 0.5487,
+      "step": 13000
+    },
+    {
+      "epoch": 0.733217466869433,
+      "grad_norm": 1.740544080734253,
+      "learning_rate": 0.00017572935164715688,
+      "loss": 0.5473,
+      "step": 13500
+    },
+    {
+      "epoch": 0.7603736693460786,
+      "grad_norm": 2.6229496002197266,
+      "learning_rate": 0.00017482332475627878,
+      "loss": 0.5306,
+      "step": 14000
+    },
+    {
+      "epoch": 0.7875298718227243,
+      "grad_norm": 1.760733723640442,
+      "learning_rate": 0.00017391729786540066,
+      "loss": 0.5421,
+      "step": 14500
+    },
+    {
+      "epoch": 0.8001303497718879,
+      "eval_loss": 0.5292674899101257,
+      "eval_runtime": 23.3828,
+      "eval_samples_per_second": 15.781,
+      "eval_steps_per_second": 7.912,
+      "step": 14732
+    },
+    {
+      "epoch": 0.81468607429937,
+      "grad_norm": 2.7095932960510254,
+      "learning_rate": 0.00017301308302830428,
+      "loss": 0.5225,
+      "step": 15000
+    },
+    {
+      "epoch": 0.8418422767760156,
+      "grad_norm": 3.7730860710144043,
+      "learning_rate": 0.00017210705613742618,
+      "loss": 0.536,
+      "step": 15500
+    },
+    {
+      "epoch": 0.8689984792526613,
+      "grad_norm": 1.8944693803787231,
+      "learning_rate": 0.00017120102924654803,
+      "loss": 0.5123,
+      "step": 16000
+    },
+    {
+      "epoch": 0.896154681729307,
+      "grad_norm": 2.137572765350342,
+      "learning_rate": 0.00017029500235566993,
+      "loss": 0.5411,
+      "step": 16500
+    },
+    {
+      "epoch": 0.9233108842059526,
+      "grad_norm": 4.163636207580566,
+      "learning_rate": 0.0001693889754647918,
+      "loss": 0.5218,
+      "step": 17000
+    },
+    {
+      "epoch": 0.9504670866825983,
+      "grad_norm": 2.492893934249878,
+      "learning_rate": 0.0001684829485739137,
+      "loss": 0.5171,
+      "step": 17500
+    },
+    {
+      "epoch": 0.977623289159244,
+      "grad_norm": 1.2668529748916626,
+      "learning_rate": 0.00016757692168303557,
+      "loss": 0.5142,
+      "step": 18000
+    },
+    {
+      "epoch": 1.00016293721486,
+      "eval_loss": 0.517742395401001,
+      "eval_runtime": 24.0099,
+      "eval_samples_per_second": 15.369,
+      "eval_steps_per_second": 7.705,
+      "step": 18415
+    },
+    {
+      "epoch": 1.0047794916358896,
+      "grad_norm": 4.145332336425781,
+      "learning_rate": 0.00016667089479215742,
+      "loss": 0.5248,
+      "step": 18500
+    },
+    {
+      "epoch": 1.0319356941125353,
+      "grad_norm": 3.0422215461730957,
+      "learning_rate": 0.00016576667995506109,
+      "loss": 0.4571,
+      "step": 19000
+    },
+    {
+      "epoch": 1.059091896589181,
+      "grad_norm": 2.034750461578369,
+      "learning_rate": 0.00016486065306418294,
+      "loss": 0.4635,
+      "step": 19500
+    },
+    {
+      "epoch": 1.0862480990658265,
+      "grad_norm": 2.047473907470703,
+      "learning_rate": 0.0001639564382270866,
+      "loss": 0.47,
+      "step": 20000
+    },
+    {
+      "epoch": 1.1134043015424724,
+      "grad_norm": 2.424201011657715,
+      "learning_rate": 0.00016305041133620845,
+      "loss": 0.4742,
+      "step": 20500
+    },
+    {
+      "epoch": 1.140560504019118,
+      "grad_norm": 2.1113667488098145,
+      "learning_rate": 0.00016214438444533036,
+      "loss": 0.4628,
+      "step": 21000
+    },
+    {
+      "epoch": 1.1677167064957636,
+      "grad_norm": 2.0212793350219727,
+      "learning_rate": 0.00016123835755445224,
+      "loss": 0.4636,
+      "step": 21500
+    },
+    {
+      "epoch": 1.1948729089724093,
+      "grad_norm": 4.672229290008545,
+      "learning_rate": 0.00016033233066357409,
+      "loss": 0.4674,
+      "step": 22000
+    },
+    {
+      "epoch": 1.2001955246578317,
+      "eval_loss": 0.5015310645103455,
+      "eval_runtime": 25.0548,
+      "eval_samples_per_second": 14.728,
+      "eval_steps_per_second": 7.384,
+      "step": 22098
+    },
+    {
+      "epoch": 1.222029111449055,
+      "grad_norm": 2.172687292098999,
+      "learning_rate": 0.000159426303772696,
+      "loss": 0.4583,
+      "step": 22500
+    },
+    {
+      "epoch": 1.2491853139257005,
+      "grad_norm": 2.1510438919067383,
+      "learning_rate": 0.00015852027688181784,
+      "loss": 0.4558,
+      "step": 23000
+    },
+    {
+      "epoch": 1.2763415164023462,
+      "grad_norm": 1.1689780950546265,
+      "learning_rate": 0.00015761424999093975,
+      "loss": 0.4502,
+      "step": 23500
+    },
+    {
+      "epoch": 1.303497718878992,
+      "grad_norm": 2.7791380882263184,
+      "learning_rate": 0.00015670822310006162,
+      "loss": 0.4451,
+      "step": 24000
+    },
+    {
+      "epoch": 1.3306539213556376,
+      "grad_norm": 2.7756049633026123,
+      "learning_rate": 0.0001558021962091835,
+      "loss": 0.4509,
+      "step": 24500
+    },
+    {
+      "epoch": 1.3578101238322833,
+      "grad_norm": 2.263340950012207,
+      "learning_rate": 0.00015489616931830538,
+      "loss": 0.4472,
+      "step": 25000
+    },
+    {
+      "epoch": 1.384966326308929,
+      "grad_norm": 3.0343711376190186,
+      "learning_rate": 0.000153991954481209,
+      "loss": 0.4615,
+      "step": 25500
+    },
+    {
+      "epoch": 1.4002281121008038,
+      "eval_loss": 0.500033438205719,
+      "eval_runtime": 24.7233,
+      "eval_samples_per_second": 14.925,
+      "eval_steps_per_second": 7.483,
+      "step": 25781
+    },
+    {
+      "epoch": 1.4121225287855745,
+      "grad_norm": 3.176940441131592,
+      "learning_rate": 0.0001530859275903309,
+      "loss": 0.4561,
+      "step": 26000
+    },
+    {
+      "epoch": 1.4392787312622204,
+      "grad_norm": 4.111068248748779,
+      "learning_rate": 0.00015217990069945275,
+      "loss": 0.491,
+      "step": 26500
+    },
+    {
+      "epoch": 1.466434933738866,
+      "grad_norm": 5.199289321899414,
+      "learning_rate": 0.00015127387380857465,
+      "loss": 0.4721,
+      "step": 27000
+    },
+    {
+      "epoch": 1.4935911362155116,
+      "grad_norm": 1.901997447013855,
+      "learning_rate": 0.00015036965897147827,
+      "loss": 0.4458,
+      "step": 27500
+    },
+    {
+      "epoch": 1.5207473386921573,
+      "grad_norm": 3.2669544219970703,
+      "learning_rate": 0.00014946363208060017,
+      "loss": 0.4313,
+      "step": 28000
+    },
+    {
+      "epoch": 1.547903541168803,
+      "grad_norm": 1.151863694190979,
+      "learning_rate": 0.00014855760518972205,
+      "loss": 0.4698,
+      "step": 28500
+    },
+    {
+      "epoch": 1.5750597436454488,
+      "grad_norm": 2.112612724304199,
+      "learning_rate": 0.0001476515782988439,
+      "loss": 0.453,
+      "step": 29000
+    },
+    {
+      "epoch": 1.6002606995437758,
+      "eval_loss": 0.47696688771247864,
+      "eval_runtime": 22.9354,
+      "eval_samples_per_second": 16.089,
+      "eval_steps_per_second": 8.066,
+      "step": 29464
+    },
+    {
+      "epoch": 1.6022159461220942,
+      "grad_norm": 2.558180570602417,
+      "learning_rate": 0.0001467455514079658,
+      "loss": 0.4575,
+      "step": 29500
+    },
+    {
+      "epoch": 1.62937214859874,
+      "grad_norm": 2.6507065296173096,
+      "learning_rate": 0.00014583952451708768,
+      "loss": 0.459,
+      "step": 30000
+    },
+    {
+      "epoch": 1.6565283510753857,
+      "grad_norm": 1.5638259649276733,
+      "learning_rate": 0.00014493349762620956,
+      "loss": 0.4288,
+      "step": 30500
+    },
+    {
+      "epoch": 1.6836845535520313,
+      "grad_norm": 3.8055946826934814,
+      "learning_rate": 0.00014402747073533143,
+      "loss": 0.4514,
+      "step": 31000
+    },
+    {
+      "epoch": 1.710840756028677,
+      "grad_norm": 3.0687201023101807,
+      "learning_rate": 0.00014312325589823508,
+      "loss": 0.4471,
+      "step": 31500
+    },
+    {
+      "epoch": 1.7379969585053225,
+      "grad_norm": 2.26448655128479,
+      "learning_rate": 0.0001422190410611387,
+      "loss": 0.4447,
+      "step": 32000
+    },
+    {
+      "epoch": 1.7651531609819684,
+      "grad_norm": 1.4060781002044678,
+      "learning_rate": 0.00014131301417026057,
+      "loss": 0.4361,
+      "step": 32500
+    },
+    {
+      "epoch": 1.7923093634586138,
+      "grad_norm": 2.3706018924713135,
+      "learning_rate": 0.00014040698727938247,
+      "loss": 0.4506,
+      "step": 33000
+    },
+    {
+      "epoch": 1.8002932869867476,
+      "eval_loss": 0.470061331987381,
+      "eval_runtime": 27.1848,
+      "eval_samples_per_second": 13.574,
+      "eval_steps_per_second": 6.805,
+      "step": 33147
+    },
+    {
+      "epoch": 1.8194655659352597,
+      "grad_norm": 2.880718946456909,
+      "learning_rate": 0.00013950096038850432,
+      "loss": 0.4439,
+      "step": 33500
+    },
+    {
+      "epoch": 1.8466217684119053,
+      "grad_norm": 1.4225813150405884,
+      "learning_rate": 0.000138596745551408,
+      "loss": 0.4434,
+      "step": 34000
+    },
+    {
+      "epoch": 1.873777970888551,
+      "grad_norm": 0.7051529884338379,
+      "learning_rate": 0.00013769071866052984,
+      "loss": 0.449,
+      "step": 34500
+    },
+    {
+      "epoch": 1.9009341733651968,
+      "grad_norm": 4.5070648193359375,
+      "learning_rate": 0.00013678469176965174,
+      "loss": 0.4356,
+      "step": 35000
+    },
+    {
+      "epoch": 1.9280903758418422,
+      "grad_norm": 1.354962944984436,
+      "learning_rate": 0.00013587866487877362,
+      "loss": 0.4509,
+      "step": 35500
+    },
+    {
+      "epoch": 1.955246578318488,
+      "grad_norm": 2.919261932373047,
+      "learning_rate": 0.00013497263798789547,
+      "loss": 0.4399,
+      "step": 36000
+    },
+    {
+      "epoch": 1.9824027807951337,
+      "grad_norm": 1.7376036643981934,
+      "learning_rate": 0.00013406661109701738,
+      "loss": 0.4309,
+      "step": 36500
+    },
+    {
+      "epoch": 2.00032587442972,
+      "eval_loss": 0.4645754098892212,
+      "eval_runtime": 26.5674,
+      "eval_samples_per_second": 13.889,
+      "eval_steps_per_second": 6.963,
+      "step": 36830
+    },
+    {
+      "epoch": 2.0095589832717793,
+      "grad_norm": 2.448807954788208,
+      "learning_rate": 0.000133162396259921,
+      "loss": 0.4074,
+      "step": 37000
+    },
+    {
+      "epoch": 2.036715185748425,
+      "grad_norm": 4.4545369148254395,
+      "learning_rate": 0.0001322563693690429,
+      "loss": 0.3784,
+      "step": 37500
+    },
+    {
+      "epoch": 2.0638713882250705,
+      "grad_norm": 1.4585567712783813,
+      "learning_rate": 0.0001313521545319465,
+      "loss": 0.3802,
+      "step": 38000
+    },
+    {
+      "epoch": 2.0910275907017164,
+      "grad_norm": 4.981091499328613,
+      "learning_rate": 0.0001304461276410684,
+      "loss": 0.3887,
+      "step": 38500
+    },
+    {
+      "epoch": 2.118183793178362,
+      "grad_norm": 1.345459222793579,
+      "learning_rate": 0.00012954010075019026,
+      "loss": 0.3791,
+      "step": 39000
+    },
+    {
+      "epoch": 2.1453399956550077,
+      "grad_norm": 2.339366912841797,
+      "learning_rate": 0.00012863407385931214,
+      "loss": 0.3895,
+      "step": 39500
+    },
+    {
+      "epoch": 2.172496198131653,
+      "grad_norm": 2.1575145721435547,
+      "learning_rate": 0.00012772804696843405,
+      "loss": 0.4046,
+      "step": 40000
+    },
+    {
+      "epoch": 2.199652400608299,
+      "grad_norm": 3.028726100921631,
+      "learning_rate": 0.0001268220200775559,
+      "loss": 0.3829,
+      "step": 40500
+    },
+    {
+      "epoch": 2.2003584618726917,
+      "eval_loss": 0.46665239334106445,
+      "eval_runtime": 22.994,
+      "eval_samples_per_second": 16.048,
+      "eval_steps_per_second": 8.046,
+      "step": 40513
+    },
+    {
+      "epoch": 2.2268086030849448,
+      "grad_norm": 2.198944330215454,
+      "learning_rate": 0.0001259159931866778,
+      "loss": 0.404,
+      "step": 41000
+    },
+    {
+      "epoch": 2.25396480556159,
+      "grad_norm": 1.4934983253479004,
+      "learning_rate": 0.00012500996629579965,
+      "loss": 0.3758,
+      "step": 41500
+    },
+    {
+      "epoch": 2.281121008038236,
+      "grad_norm": 3.0350615978240967,
+      "learning_rate": 0.0001241057514587033,
+      "loss": 0.3851,
+      "step": 42000
+    },
+    {
+      "epoch": 2.3082772105148814,
+      "grad_norm": 2.0013248920440674,
+      "learning_rate": 0.00012319972456782517,
+      "loss": 0.3874,
+      "step": 42500
+    },
+    {
+      "epoch": 2.3354334129915273,
+      "grad_norm": 3.0805039405822754,
+      "learning_rate": 0.00012229369767694705,
+      "loss": 0.383,
+      "step": 43000
+    },
+    {
+      "epoch": 2.362589615468173,
+      "grad_norm": 2.340902328491211,
+      "learning_rate": 0.00012138767078606894,
+      "loss": 0.3795,
+      "step": 43500
+    },
+    {
+      "epoch": 2.3897458179448186,
+      "grad_norm": 1.4872759580612183,
+      "learning_rate": 0.00012048164389519082,
+      "loss": 0.3925,
+      "step": 44000
+    },
+    {
+      "epoch": 2.4003910493156635,
+      "eval_loss": 0.45948517322540283,
+      "eval_runtime": 23.0689,
+      "eval_samples_per_second": 15.996,
+      "eval_steps_per_second": 8.019,
+      "step": 44196
+    },
+    {
+      "epoch": 2.4169020204214644,
+      "grad_norm": 2.0199170112609863,
+      "learning_rate": 0.00011957742905809446,
+      "loss": 0.387,
+      "step": 44500
+    },
+    {
+      "epoch": 2.44405822289811,
+      "grad_norm": 2.0993518829345703,
+      "learning_rate": 0.00011867140216721633,
+      "loss": 0.3858,
+      "step": 45000
+    },
+    {
+      "epoch": 2.4712144253747557,
+      "grad_norm": 2.5431594848632812,
+      "learning_rate": 0.0001177653752763382,
+      "loss": 0.3731,
+      "step": 45500
+    },
+    {
+      "epoch": 2.498370627851401,
+      "grad_norm": 2.0377984046936035,
+      "learning_rate": 0.00011685934838546009,
+      "loss": 0.383,
+      "step": 46000
+    },
+    {
+      "epoch": 2.525526830328047,
+      "grad_norm": 2.3051955699920654,
+      "learning_rate": 0.00011595332149458195,
+      "loss": 0.3865,
+      "step": 46500
+    },
+    {
+      "epoch": 2.5526830328046923,
+      "grad_norm": 3.8095552921295166,
+      "learning_rate": 0.00011504729460370384,
+      "loss": 0.3726,
+      "step": 47000
+    },
+    {
+      "epoch": 2.579839235281338,
+      "grad_norm": 2.2560086250305176,
+      "learning_rate": 0.00011414307976660747,
+      "loss": 0.3858,
+      "step": 47500
+    },
+    {
+      "epoch": 2.6004236367586357,
+      "eval_loss": 0.45664411783218384,
+      "eval_runtime": 22.9971,
+      "eval_samples_per_second": 16.045,
+      "eval_steps_per_second": 8.044,
+      "step": 47879
+    },
+    {
+      "epoch": 2.606995437757984,
+      "grad_norm": 2.8991200923919678,
+      "learning_rate": 0.00011323705287572936,
+      "loss": 0.383,
+      "step": 48000
+    },
+    {
+      "epoch": 2.6341516402346294,
+      "grad_norm": 4.307155132293701,
+      "learning_rate": 0.00011233102598485124,
+      "loss": 0.3941,
+      "step": 48500
+    },
+    {
+      "epoch": 2.6613078427112753,
+      "grad_norm": 3.7580649852752686,
+      "learning_rate": 0.0001114249990939731,
+      "loss": 0.385,
+      "step": 49000
+    },
+    {
+      "epoch": 2.6884640451879207,
+      "grad_norm": 2.604210615158081,
+      "learning_rate": 0.000110518972203095,
+      "loss": 0.3847,
+      "step": 49500
+    },
+    {
+      "epoch": 2.7156202476645666,
+      "grad_norm": 1.8067151308059692,
+      "learning_rate": 0.00010961475736599862,
+      "loss": 0.3775,
+      "step": 50000
+    },
+    {
+      "epoch": 2.7427764501412124,
+      "grad_norm": 2.4924516677856445,
+      "learning_rate": 0.00010870873047512051,
+      "loss": 0.392,
+      "step": 50500
+    },
+    {
+      "epoch": 2.769932652617858,
+      "grad_norm": 2.7145466804504395,
+      "learning_rate": 0.00010780270358424238,
+      "loss": 0.3817,
+      "step": 51000
+    },
+    {
+      "epoch": 2.7970888550945037,
+      "grad_norm": 3.6621336936950684,
+      "learning_rate": 0.00010689667669336427,
+      "loss": 0.3879,
+      "step": 51500
+    },
+    {
+      "epoch": 2.8004562242016076,
+      "eval_loss": 0.4439272880554199,
+      "eval_runtime": 22.9231,
+      "eval_samples_per_second": 16.097,
+      "eval_steps_per_second": 8.07,
+      "step": 51562
+    },
+    {
+      "epoch": 2.824245057571149,
+      "grad_norm": 3.2784557342529297,
+      "learning_rate": 0.00010599064980248614,
+      "loss": 0.3775,
+      "step": 52000
+    },
+    {
+      "epoch": 2.851401260047795,
+      "grad_norm": 2.4789769649505615,
+      "learning_rate": 0.00010508643496538977,
+      "loss": 0.3828,
+      "step": 52500
+    },
+    {
+      "epoch": 2.878557462524441,
+      "grad_norm": 4.17576789855957,
+      "learning_rate": 0.00010418040807451166,
+      "loss": 0.3922,
+      "step": 53000
+    },
+    {
+      "epoch": 2.905713665001086,
+      "grad_norm": 2.2692151069641113,
+      "learning_rate": 0.00010327438118363353,
+      "loss": 0.3684,
+      "step": 53500
+    },
+    {
+      "epoch": 2.932869867477732,
+      "grad_norm": 3.434340238571167,
+      "learning_rate": 0.00010236835429275542,
+      "loss": 0.3703,
+      "step": 54000
+    },
+    {
+      "epoch": 2.9600260699543774,
+      "grad_norm": 2.867629289627075,
+      "learning_rate": 0.00010146232740187728,
+      "loss": 0.3769,
+      "step": 54500
+    },
+    {
+      "epoch": 2.9871822724310233,
+      "grad_norm": 2.588996171951294,
+      "learning_rate": 0.00010055630051099917,
+      "loss": 0.3764,
+      "step": 55000
+    },
+    {
+      "epoch": 3.00048881164458,
+      "eval_loss": 0.43786150217056274,
+      "eval_runtime": 23.1256,
+      "eval_samples_per_second": 15.956,
+      "eval_steps_per_second": 8.0,
+      "step": 55245
+    },
+    {
+      "epoch": 3.0143384749076687,
+      "grad_norm": 2.558405876159668,
+      "learning_rate": 9.96520856739028e-05,
+      "loss": 0.3535,
+      "step": 55500
+    },
+    {
+      "epoch": 3.0414946773843146,
+      "grad_norm": 2.3702216148376465,
+      "learning_rate": 9.874605878302469e-05,
+      "loss": 0.3299,
+      "step": 56000
+    },
+    {
+      "epoch": 3.0686508798609604,
+      "grad_norm": 2.283313274383545,
+      "learning_rate": 9.784003189214657e-05,
+      "loss": 0.3366,
+      "step": 56500
+    },
+    {
+      "epoch": 3.095807082337606,
+      "grad_norm": 2.421048641204834,
+      "learning_rate": 9.693400500126845e-05,
+      "loss": 0.3261,
+      "step": 57000
+    },
+    {
+      "epoch": 3.1229632848142517,
+      "grad_norm": 2.0642685890197754,
+      "learning_rate": 9.602979016417207e-05,
+      "loss": 0.3335,
+      "step": 57500
+    },
+    {
+      "epoch": 3.150119487290897,
+      "grad_norm": 3.4360289573669434,
+      "learning_rate": 9.512376327329395e-05,
+      "loss": 0.3287,
+      "step": 58000
+    },
+    {
+      "epoch": 3.177275689767543,
+      "grad_norm": 3.9619264602661133,
+      "learning_rate": 9.421773638241583e-05,
+      "loss": 0.3267,
+      "step": 58500
+    },
+    {
+      "epoch": 3.2005213990875516,
+      "eval_loss": 0.4501725733280182,
+      "eval_runtime": 23.0376,
+      "eval_samples_per_second": 16.017,
+      "eval_steps_per_second": 8.03,
+      "step": 58928
+    },
+    {
+      "epoch": 3.2044318922441883,
+      "grad_norm": 2.5098698139190674,
+      "learning_rate": 9.331170949153772e-05,
+      "loss": 0.3365,
+      "step": 59000
+    },
+    {
+      "epoch": 3.231588094720834,
+      "grad_norm": 2.2651731967926025,
+      "learning_rate": 9.24056826006596e-05,
+      "loss": 0.3285,
+      "step": 59500
+    },
+    {
+      "epoch": 3.25874429719748,
+      "grad_norm": 2.573915958404541,
+      "learning_rate": 9.150146776356322e-05,
+      "loss": 0.3421,
+      "step": 60000
+    },
+    {
+      "epoch": 3.2859004996741255,
+      "grad_norm": 3.5748302936553955,
+      "learning_rate": 9.059544087268512e-05,
+      "loss": 0.3267,
+      "step": 60500
+    },
+    {
+      "epoch": 3.3130567021507713,
+      "grad_norm": 2.8185431957244873,
+      "learning_rate": 8.968941398180698e-05,
+      "loss": 0.3225,
+      "step": 61000
+    },
+    {
+      "epoch": 3.3402129046274167,
+      "grad_norm": 6.555810451507568,
+      "learning_rate": 8.878338709092886e-05,
+      "loss": 0.3174,
+      "step": 61500
+    },
+    {
+      "epoch": 3.3673691071040626,
+      "grad_norm": 3.8243870735168457,
+      "learning_rate": 8.787736020005073e-05,
+      "loss": 0.3249,
+      "step": 62000
+    },
+    {
+      "epoch": 3.3945253095807084,
+      "grad_norm": 1.514364242553711,
+      "learning_rate": 8.697314536295438e-05,
+      "loss": 0.3346,
+      "step": 62500
+    },
+    {
+      "epoch": 3.4005539865305234,
+      "eval_loss": 0.4442519247531891,
+      "eval_runtime": 22.857,
+      "eval_samples_per_second": 16.144,
+      "eval_steps_per_second": 8.094,
+      "step": 62611
+    },
+    {
+      "epoch": 3.421681512057354,
+      "grad_norm": 2.1374149322509766,
+      "learning_rate": 8.606711847207625e-05,
+      "loss": 0.3231,
+      "step": 63000
+    },
+    {
+      "epoch": 3.4488377145339997,
+      "grad_norm": 2.8971145153045654,
+      "learning_rate": 8.516109158119814e-05,
+      "loss": 0.3376,
+      "step": 63500
+    },
+    {
+      "epoch": 3.475993917010645,
+      "grad_norm": 2.860117197036743,
+      "learning_rate": 8.425506469032002e-05,
+      "loss": 0.3295,
+      "step": 64000
+    },
+    {
+      "epoch": 3.503150119487291,
+      "grad_norm": 1.976477026939392,
+      "learning_rate": 8.335084985322365e-05,
+      "loss": 0.3236,
+      "step": 64500
+    },
+    {
+      "epoch": 3.530306321963937,
+      "grad_norm": 2.6291637420654297,
+      "learning_rate": 8.244482296234553e-05,
+      "loss": 0.3201,
+      "step": 65000
+    },
+    {
+      "epoch": 3.557462524440582,
+      "grad_norm": 2.5785484313964844,
+      "learning_rate": 8.15387960714674e-05,
+      "loss": 0.3354,
+      "step": 65500
+    },
+    {
+      "epoch": 3.584618726917228,
+      "grad_norm": 2.3802502155303955,
+      "learning_rate": 8.063276918058928e-05,
+      "loss": 0.3363,
+      "step": 66000
+    },
+    {
+      "epoch": 3.6005865739734957,
+      "eval_loss": 0.43394023180007935,
+      "eval_runtime": 23.107,
+      "eval_samples_per_second": 15.969,
+      "eval_steps_per_second": 8.006,
+      "step": 66294
+    },
+    {
+      "epoch": 3.6117749293938735,
+      "grad_norm": 3.012232542037964,
+      "learning_rate": 7.972674228971116e-05,
+      "loss": 0.323,
+      "step": 66500
+    },
+    {
+      "epoch": 3.6389311318705193,
+      "grad_norm": 2.5260913372039795,
+      "learning_rate": 7.88225274526148e-05,
+      "loss": 0.3316,
+      "step": 67000
+    },
+    {
+      "epoch": 3.666087334347165,
+      "grad_norm": 3.0673775672912598,
+      "learning_rate": 7.791650056173668e-05,
+      "loss": 0.3194,
+      "step": 67500
+    },
+    {
+      "epoch": 3.6932435368238106,
+      "grad_norm": 1.782955527305603,
+      "learning_rate": 7.701047367085855e-05,
+      "loss": 0.3268,
+      "step": 68000
+    },
+    {
+      "epoch": 3.720399739300456,
+      "grad_norm": 3.0327773094177246,
+      "learning_rate": 7.610444677998043e-05,
+      "loss": 0.327,
+      "step": 68500
+    },
+    {
+      "epoch": 3.747555941777102,
+      "grad_norm": 4.625910758972168,
+      "learning_rate": 7.520023194288407e-05,
+      "loss": 0.3231,
+      "step": 69000
+    },
+    {
+      "epoch": 3.7747121442537477,
+      "grad_norm": 2.987931966781616,
+      "learning_rate": 7.429420505200595e-05,
+      "loss": 0.3321,
+      "step": 69500
+    },
+    {
+      "epoch": 3.8006191614164675,
+      "eval_loss": 0.43500107526779175,
+      "eval_runtime": 22.946,
+      "eval_samples_per_second": 16.081,
+      "eval_steps_per_second": 8.062,
+      "step": 69977
+    },
+    {
+      "epoch": 3.801868346730393,
+      "grad_norm": 3.8928215503692627,
+      "learning_rate": 7.338817816112783e-05,
+      "loss": 0.3387,
+      "step": 70000
+    },
+    {
+      "epoch": 3.829024549207039,
+      "grad_norm": 2.32753586769104,
+      "learning_rate": 7.24821512702497e-05,
+      "loss": 0.3327,
+      "step": 70500
+    },
+    {
+      "epoch": 3.8561807516836843,
+      "grad_norm": 2.5396571159362793,
+      "learning_rate": 7.157793643315333e-05,
+      "loss": 0.3251,
+      "step": 71000
+    },
+    {
+      "epoch": 3.88333695416033,
+      "grad_norm": 2.509148597717285,
+      "learning_rate": 7.067190954227521e-05,
+      "loss": 0.3225,
+      "step": 71500
+    },
+    {
+      "epoch": 3.910493156636976,
+      "grad_norm": 1.7930841445922852,
+      "learning_rate": 6.97658826513971e-05,
+      "loss": 0.3392,
+      "step": 72000
+    },
+    {
+      "epoch": 3.9376493591136215,
+      "grad_norm": 2.579759120941162,
+      "learning_rate": 6.885985576051898e-05,
+      "loss": 0.3415,
+      "step": 72500
+    },
+    {
+      "epoch": 3.9648055615902673,
+      "grad_norm": 4.053764820098877,
+      "learning_rate": 6.795564092342262e-05,
+      "loss": 0.3373,
+      "step": 73000
+    },
+    {
+      "epoch": 3.9919617640669127,
+      "grad_norm": 2.3885462284088135,
+      "learning_rate": 6.70496140325445e-05,
+      "loss": 0.3423,
+      "step": 73500
+    },
+    {
+      "epoch": 4.00065174885944,
+      "eval_loss": 0.42881426215171814,
+      "eval_runtime": 23.0588,
+      "eval_samples_per_second": 16.003,
+      "eval_steps_per_second": 8.023,
+      "step": 73660
+    },
+    {
+      "epoch": 4.019117966543559,
+      "grad_norm": 1.8718838691711426,
+      "learning_rate": 6.614358714166636e-05,
+      "loss": 0.2902,
+      "step": 74000
+    },
+    {
+      "epoch": 4.046274169020204,
+      "grad_norm": 3.1479783058166504,
+      "learning_rate": 6.523756025078824e-05,
+      "loss": 0.2817,
+      "step": 74500
+    },
+    {
+      "epoch": 4.07343037149685,
+      "grad_norm": 2.8043808937072754,
+      "learning_rate": 6.433153335991013e-05,
+      "loss": 0.28,
+      "step": 75000
+    },
+    {
+      "epoch": 4.100586573973495,
+      "grad_norm": 0.6163878440856934,
+      "learning_rate": 6.342550646903201e-05,
+      "loss": 0.283,
+      "step": 75500
+    },
+    {
+      "epoch": 4.127742776450141,
+      "grad_norm": 1.6441878080368042,
+      "learning_rate": 6.252129163193563e-05,
+      "loss": 0.2731,
+      "step": 76000
+    },
+    {
+      "epoch": 4.154898978926787,
+      "grad_norm": 3.012065887451172,
+      "learning_rate": 6.161526474105753e-05,
+      "loss": 0.2757,
+      "step": 76500
+    },
+    {
+      "epoch": 4.182055181403433,
+      "grad_norm": 2.1326332092285156,
+      "learning_rate": 6.07092378501794e-05,
+      "loss": 0.2789,
+      "step": 77000
+    },
+    {
+      "epoch": 4.200684336302412,
+      "eval_loss": 0.44576430320739746,
+      "eval_runtime": 23.0355,
+      "eval_samples_per_second": 16.019,
+      "eval_steps_per_second": 8.031,
+      "step": 77343
+    },
+    {
+      "epoch": 4.209211383880078,
+      "grad_norm": 3.3734445571899414,
+      "learning_rate": 5.9803210959301273e-05,
+      "loss": 0.2729,
+      "step": 77500
+    },
+    {
+      "epoch": 4.236367586356724,
+      "grad_norm": 2.7482869625091553,
+      "learning_rate": 5.889718406842315e-05,
+      "loss": 0.2924,
+      "step": 78000
+    },
+    {
+      "epoch": 4.2635237888333695,
+      "grad_norm": 2.5796825885772705,
+      "learning_rate": 5.799115717754503e-05,
+      "loss": 0.2843,
+      "step": 78500
+    },
+    {
+      "epoch": 4.290679991310015,
+      "grad_norm": 3.74029541015625,
+      "learning_rate": 5.708513028666691e-05,
+      "loss": 0.2889,
+      "step": 79000
+    },
+    {
+      "epoch": 4.317836193786661,
+      "grad_norm": 3.763978958129883,
+      "learning_rate": 5.617910339578879e-05,
+      "loss": 0.2812,
+      "step": 79500
+    },
+    {
+      "epoch": 4.344992396263306,
+      "grad_norm": 2.851184844970703,
+      "learning_rate": 5.527488855869243e-05,
+      "loss": 0.283,
+      "step": 80000
+    },
+    {
+      "epoch": 4.372148598739952,
+      "grad_norm": 3.071202278137207,
+      "learning_rate": 5.436886166781431e-05,
+      "loss": 0.2911,
+      "step": 80500
+    },
+    {
+      "epoch": 4.399304801216598,
+      "grad_norm": 3.962803602218628,
+      "learning_rate": 5.3464646830717936e-05,
+      "loss": 0.2928,
+      "step": 81000
+    },
+    {
+      "epoch": 4.400716923745383,
+      "eval_loss": 0.4378789961338043,
+      "eval_runtime": 22.9566,
+      "eval_samples_per_second": 16.074,
+      "eval_steps_per_second": 8.059,
+      "step": 81026
+    },
+    {
+      "epoch": 4.426461003693244,
+      "grad_norm": 2.5465190410614014,
+      "learning_rate": 5.2558619939839814e-05,
+      "loss": 0.269,
+      "step": 81500
+    },
+    {
+      "epoch": 4.4536172061698895,
+      "grad_norm": 3.322237491607666,
+      "learning_rate": 5.16525930489617e-05,
+      "loss": 0.2883,
+      "step": 82000
+    },
+    {
+      "epoch": 4.4807734086465345,
+      "grad_norm": 1.5292987823486328,
+      "learning_rate": 5.0746566158083575e-05,
+      "loss": 0.2796,
+      "step": 82500
+    },
+    {
+      "epoch": 4.50792961112318,
+      "grad_norm": 2.0258724689483643,
+      "learning_rate": 4.984053926720545e-05,
+      "loss": 0.2766,
+      "step": 83000
+    },
+    {
+      "epoch": 4.535085813599826,
+      "grad_norm": 2.583266019821167,
+      "learning_rate": 4.893451237632733e-05,
+      "loss": 0.2975,
+      "step": 83500
+    },
+    {
+      "epoch": 4.562242016076472,
+      "grad_norm": 2.7614002227783203,
+      "learning_rate": 4.802848548544921e-05,
+      "loss": 0.2846,
+      "step": 84000
+    },
+    {
+      "epoch": 4.589398218553118,
+      "grad_norm": 4.259634971618652,
+      "learning_rate": 4.712245859457109e-05,
+      "loss": 0.2963,
+      "step": 84500
+    },
+    {
+      "epoch": 4.600749511188355,
+      "eval_loss": 0.43254056572914124,
+      "eval_runtime": 22.8989,
+      "eval_samples_per_second": 16.114,
+      "eval_steps_per_second": 8.079,
+      "step": 84709
+    },
+    {
+      "epoch": 4.616554421029763,
+      "grad_norm": 1.8035340309143066,
+      "learning_rate": 4.621643170369297e-05,
+      "loss": 0.2854,
+      "step": 85000
+    },
+    {
+      "epoch": 4.643710623506409,
+      "grad_norm": 3.2322275638580322,
+      "learning_rate": 4.53122168665966e-05,
+      "loss": 0.287,
+      "step": 85500
+    },
+    {
+      "epoch": 4.670866825983055,
+      "grad_norm": 7.430004119873047,
+      "learning_rate": 4.440618997571848e-05,
+      "loss": 0.2805,
+      "step": 86000
+    },
+    {
+      "epoch": 4.6980230284597,
+      "grad_norm": 2.2691986560821533,
+      "learning_rate": 4.3500163084840364e-05,
+      "loss": 0.2874,
+      "step": 86500
+    },
+    {
+      "epoch": 4.725179230936346,
+      "grad_norm": 2.7627906799316406,
+      "learning_rate": 4.2594136193962235e-05,
+      "loss": 0.2818,
+      "step": 87000
+    },
+    {
+      "epoch": 4.752335433412991,
+      "grad_norm": 3.7362864017486572,
+      "learning_rate": 4.1689921356865876e-05,
+      "loss": 0.2827,
+      "step": 87500
+    },
+    {
+      "epoch": 4.779491635889637,
+      "grad_norm": 4.409236907958984,
+      "learning_rate": 4.0783894465987754e-05,
+      "loss": 0.2887,
+      "step": 88000
+    },
+    {
+      "epoch": 4.800782098631327,
+      "eval_loss": 0.42746320366859436,
+      "eval_runtime": 23.0563,
+      "eval_samples_per_second": 16.004,
+      "eval_steps_per_second": 8.024,
+      "step": 88392
+    },
+    {
+      "epoch": 4.806647838366283,
+      "grad_norm": 4.065585136413574,
+      "learning_rate": 3.987786757510963e-05,
+      "loss": 0.2905,
+      "step": 88500
+    },
+    {
+      "epoch": 4.833804040842929,
+      "grad_norm": 3.655996799468994,
+      "learning_rate": 3.897184068423151e-05,
+      "loss": 0.2716,
+      "step": 89000
+    },
+    {
+      "epoch": 4.860960243319575,
+      "grad_norm": 4.297955513000488,
+      "learning_rate": 3.806762584713515e-05,
+      "loss": 0.29,
+      "step": 89500
+    },
+    {
+      "epoch": 4.88811644579622,
+      "grad_norm": 3.1703717708587646,
+      "learning_rate": 3.716159895625702e-05,
+      "loss": 0.2754,
+      "step": 90000
+    },
+    {
+      "epoch": 4.9152726482728655,
+      "grad_norm": 3.771336078643799,
+      "learning_rate": 3.62555720653789e-05,
+      "loss": 0.2839,
+      "step": 90500
+    },
+    {
+      "epoch": 4.942428850749511,
+      "grad_norm": 3.908500909805298,
+      "learning_rate": 3.534954517450078e-05,
+      "loss": 0.2744,
+      "step": 91000
+    },
+    {
+      "epoch": 4.969585053226157,
+      "grad_norm": 3.199415445327759,
+      "learning_rate": 3.444351828362266e-05,
+      "loss": 0.2834,
+      "step": 91500
+    },
+    {
+      "epoch": 4.996741255702802,
+      "grad_norm": 3.1083319187164307,
+      "learning_rate": 3.3539303446526294e-05,
+      "loss": 0.2949,
+      "step": 92000
+    },
+    {
+      "epoch": 5.0008146860743,
+      "eval_loss": 0.4291832447052002,
+      "eval_runtime": 23.525,
+      "eval_samples_per_second": 15.685,
+      "eval_steps_per_second": 7.864,
+      "step": 92075
+    },
+    {
+      "epoch": 5.023897458179448,
+      "grad_norm": 6.121253490447998,
+      "learning_rate": 3.263327655564817e-05,
+      "loss": 0.2289,
+      "step": 92500
+    },
+    {
+      "epoch": 5.051053660656094,
+      "grad_norm": 2.5016486644744873,
+      "learning_rate": 3.1727249664770055e-05,
+      "loss": 0.248,
+      "step": 93000
+    },
+    {
+      "epoch": 5.07820986313274,
+      "grad_norm": 2.344914197921753,
+      "learning_rate": 3.0821222773891926e-05,
+      "loss": 0.2315,
+      "step": 93500
+    },
+    {
+      "epoch": 5.1053660656093856,
+      "grad_norm": 3.519299268722534,
+      "learning_rate": 2.9917007936795567e-05,
+      "loss": 0.2516,
+      "step": 94000
+    },
+    {
+      "epoch": 5.1325222680860305,
+      "grad_norm": 3.192281484603882,
+      "learning_rate": 2.9010981045917445e-05,
+      "loss": 0.2368,
+      "step": 94500
+    },
+    {
+      "epoch": 5.159678470562676,
+      "grad_norm": 3.7645487785339355,
+      "learning_rate": 2.8104954155039322e-05,
+      "loss": 0.2573,
+      "step": 95000
+    },
+    {
+      "epoch": 5.186834673039322,
+      "grad_norm": 4.5175275802612305,
+      "learning_rate": 2.71989272641612e-05,
+      "loss": 0.2437,
+      "step": 95500
+    },
+    {
+      "epoch": 5.2008472735172715,
+      "eval_loss": 0.4366357922554016,
+      "eval_runtime": 23.1107,
+      "eval_samples_per_second": 15.967,
+      "eval_steps_per_second": 8.005,
+      "step": 95758
+    },
+    {
+      "epoch": 5.213990875515968,
+      "grad_norm": 4.234988212585449,
+      "learning_rate": 2.629290037328308e-05,
+      "loss": 0.2439,
+      "step": 96000
+    },
+    {
+      "epoch": 5.241147077992614,
+      "grad_norm": 3.174309492111206,
+      "learning_rate": 2.538687348240496e-05,
+      "loss": 0.2523,
+      "step": 96500
+    },
+    {
+      "epoch": 5.268303280469259,
+      "grad_norm": 3.7519733905792236,
+      "learning_rate": 2.4480846591526838e-05,
+      "loss": 0.2463,
+      "step": 97000
+    },
+    {
+      "epoch": 5.295459482945905,
+      "grad_norm": 2.9701130390167236,
+      "learning_rate": 2.357481970064872e-05,
+      "loss": 0.2519,
+      "step": 97500
+    },
+    {
+      "epoch": 5.322615685422551,
+      "grad_norm": 5.130082130432129,
+      "learning_rate": 2.2672416917334107e-05,
+      "loss": 0.2486,
+      "step": 98000
+    },
+    {
+      "epoch": 5.349771887899196,
+      "grad_norm": 3.390826463699341,
+      "learning_rate": 2.1766390026455985e-05,
+      "loss": 0.2478,
+      "step": 98500
+    },
+    {
+      "epoch": 5.376928090375841,
+      "grad_norm": 2.6151483058929443,
+      "learning_rate": 2.0860363135577865e-05,
+      "loss": 0.2424,
+      "step": 99000
+    },
+    {
+      "epoch": 5.400879860960243,
+      "eval_loss": 0.43580135703086853,
+      "eval_runtime": 23.7346,
+      "eval_samples_per_second": 15.547,
+      "eval_steps_per_second": 7.795,
+      "step": 99441
+    },
+    {
+      "epoch": 5.404084292852487,
+      "grad_norm": 3.701735496520996,
+      "learning_rate": 1.9954336244699743e-05,
+      "loss": 0.2443,
+      "step": 99500
+    },
+    {
+      "epoch": 5.431240495329133,
+      "grad_norm": 3.8400754928588867,
+      "learning_rate": 1.9048309353821623e-05,
+      "loss": 0.2276,
+      "step": 100000
+    },
+    {
+      "epoch": 5.458396697805779,
+      "grad_norm": 2.5460264682769775,
+      "learning_rate": 1.81422824629435e-05,
+      "loss": 0.2313,
+      "step": 100500
+    },
+    {
+      "epoch": 5.485552900282425,
+      "grad_norm": 5.040457725524902,
+      "learning_rate": 1.7236255572065378e-05,
+      "loss": 0.238,
+      "step": 101000
+    },
+    {
+      "epoch": 5.51270910275907,
+      "grad_norm": 4.061932563781738,
+      "learning_rate": 1.633022868118726e-05,
+      "loss": 0.2558,
+      "step": 101500
+    },
+    {
+      "epoch": 5.539865305235716,
+      "grad_norm": 4.28571081161499,
+      "learning_rate": 1.5424201790309136e-05,
+      "loss": 0.2531,
+      "step": 102000
+    },
+    {
+      "epoch": 5.5670215077123615,
+      "grad_norm": 4.26746129989624,
+      "learning_rate": 1.4519986953212772e-05,
+      "loss": 0.2487,
+      "step": 102500
+    },
+    {
+      "epoch": 5.594177710189007,
+      "grad_norm": 1.4005869626998901,
+      "learning_rate": 1.3613960062334651e-05,
+      "loss": 0.2528,
+      "step": 103000
+    },
+    {
+      "epoch": 5.600912448403215,
+      "eval_loss": 0.4331228733062744,
+      "eval_runtime": 25.1727,
+      "eval_samples_per_second": 14.659,
+      "eval_steps_per_second": 7.349,
+      "step": 103124
+    },
+    {
+      "epoch": 5.621333912665653,
+      "grad_norm": 3.8620026111602783,
+      "learning_rate": 1.2707933171456529e-05,
+      "loss": 0.248,
+      "step": 103500
+    },
+    {
+      "epoch": 5.648490115142298,
+      "grad_norm": 4.398037433624268,
+      "learning_rate": 1.1803718334360163e-05,
+      "loss": 0.2394,
+      "step": 104000
+    },
+    {
+      "epoch": 5.675646317618944,
+      "grad_norm": 2.4203145503997803,
+      "learning_rate": 1.0897691443482042e-05,
+      "loss": 0.2344,
+      "step": 104500
+    },
+    {
+      "epoch": 5.70280252009559,
+      "grad_norm": 3.2735469341278076,
+      "learning_rate": 9.991664552603922e-06,
+      "loss": 0.2391,
+      "step": 105000
+    },
+    {
+      "epoch": 5.729958722572236,
+      "grad_norm": 3.202352523803711,
+      "learning_rate": 9.0856376617258e-06,
+      "loss": 0.2503,
+      "step": 105500
+    },
+    {
+      "epoch": 5.757114925048882,
+      "grad_norm": 2.457843065261841,
+      "learning_rate": 8.17961077084768e-06,
+      "loss": 0.233,
+      "step": 106000
+    },
+    {
+      "epoch": 5.7842711275255265,
+      "grad_norm": 2.1440610885620117,
+      "learning_rate": 7.273583879969558e-06,
+      "loss": 0.2477,
+      "step": 106500
+    },
+    {
+      "epoch": 5.800945035846187,
+      "eval_loss": 0.43289270997047424,
+      "eval_runtime": 25.7135,
+      "eval_samples_per_second": 14.35,
+      "eval_steps_per_second": 7.195,
+      "step": 106807
+    },
+    {
+      "epoch": 5.811427330002172,
+      "grad_norm": 2.6855876445770264,
+      "learning_rate": 6.367556989091436e-06,
+      "loss": 0.231,
+      "step": 107000
+    },
+    {
+      "epoch": 5.838583532478818,
+      "grad_norm": 5.511388778686523,
+      "learning_rate": 5.461530098213316e-06,
+      "loss": 0.2399,
+      "step": 107500
+    },
+    {
+      "epoch": 5.865739734955464,
+      "grad_norm": 2.992866277694702,
+      "learning_rate": 4.555503207335194e-06,
+      "loss": 0.2367,
+      "step": 108000
+    },
+    {
+      "epoch": 5.89289593743211,
+      "grad_norm": 2.2536861896514893,
+      "learning_rate": 3.651288370238829e-06,
+      "loss": 0.2545,
+      "step": 108500
+    },
+    {
+      "epoch": 5.920052139908755,
+      "grad_norm": 3.6174511909484863,
+      "learning_rate": 2.745261479360707e-06,
+      "loss": 0.2576,
+      "step": 109000
+    },
+    {
+      "epoch": 5.947208342385401,
+      "grad_norm": 2.4859135150909424,
+      "learning_rate": 1.8392345884825864e-06,
+      "loss": 0.2448,
+      "step": 109500
+    },
+    {
+      "epoch": 5.974364544862047,
+      "grad_norm": 1.783007025718689,
+      "learning_rate": 9.350197513862211e-07,
+      "loss": 0.2347,
+      "step": 110000
+    },
+    {
+      "epoch": 6.0,
+      "step": 110472,
+      "total_flos": 7.299634402197504e+17,
+      "train_loss": 0.3804842073002838,
+      "train_runtime": 59722.3514,
+      "train_samples_per_second": 3.699,
+      "train_steps_per_second": 1.85
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 110472,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.299634402197504e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec7d042b93d73031dccc443da2cb5446fc90da6638fc7798f7d6525c7d5af74e
+size 5496