rAzOr1
/

my_alpaca

Model card Files Files and versions Community

rAzOr1 commited on Mar 30, 2023

Commit

027a432

1 Parent(s): 47b38a9

Upload 23 files

Browse files

Files changed (23) hide show

lora-alpaca/adapter_config.json +18 -0
lora-alpaca/adapter_model.bin +3 -0
lora-alpaca/checkpoint-1000/optimizer.pt +3 -0
lora-alpaca/checkpoint-1000/pytorch_model.bin +3 -0
lora-alpaca/checkpoint-1000/rng_state.pth +3 -0
lora-alpaca/checkpoint-1000/scaler.pt +3 -0
lora-alpaca/checkpoint-1000/scheduler.pt +3 -0
lora-alpaca/checkpoint-1000/trainer_state.json +656 -0
lora-alpaca/checkpoint-1000/training_args.bin +3 -0
lora-alpaca/checkpoint-1200/optimizer.pt +3 -0
lora-alpaca/checkpoint-1200/pytorch_model.bin +3 -0
lora-alpaca/checkpoint-1200/rng_state.pth +3 -0
lora-alpaca/checkpoint-1200/scaler.pt +3 -0
lora-alpaca/checkpoint-1200/scheduler.pt +3 -0
lora-alpaca/checkpoint-1200/trainer_state.json +784 -0
lora-alpaca/checkpoint-1200/training_args.bin +3 -0
lora-alpaca/checkpoint-1400/optimizer.pt +3 -0
lora-alpaca/checkpoint-1400/pytorch_model.bin +3 -0
lora-alpaca/checkpoint-1400/rng_state.pth +3 -0
lora-alpaca/checkpoint-1400/scaler.pt +3 -0
lora-alpaca/checkpoint-1400/scheduler.pt +3 -0
lora-alpaca/checkpoint-1400/trainer_state.json +912 -0
lora-alpaca/checkpoint-1400/training_args.bin +3 -0

lora-alpaca/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

lora-alpaca/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:069b50d834100806cf46bddd3ced0573fc39bf958dd699ef0544fd8562d10e5c
+size 16822989

lora-alpaca/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84de79920309c19125174dfd6f66d92cff868fd3aabe7e3c90b606a9d250f57b
+size 33629893

lora-alpaca/checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:337df0b61026374e5092237fc8cfc397ed81af4f617325aa27b0a9aecff64415
+size 16822989

lora-alpaca/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32d66b7b6fc312e3cb6d1e612a05ff8630875d5559c78e8d151c1aa97988ad44
+size 14575

lora-alpaca/checkpoint-1000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68cff80b680ddf6e7abbef98b5f336b97f9b5963e2209307f639383870e8cc71
+size 557

lora-alpaca/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dee6f5ebda8cadcb8b98dd5fe5df932a2cf249706a60d0cef298c621c5255bf
+size 627

lora-alpaca/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,656 @@

+{
+  "best_metric": 0.883411169052124,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1000",
+  "epoch": 2.002002002002002,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 1.8749,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2e-05,
+      "loss": 2.119,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 2.3009,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4e-05,
+      "loss": 2.3636,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 5e-05,
+      "loss": 2.1696,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6e-05,
+      "loss": 1.4449,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7e-05,
+      "loss": 1.3746,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 8e-05,
+      "loss": 1.0467,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9e-05,
+      "loss": 0.7711,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 0.6918,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.92841803865426e-05,
+      "loss": 1.0876,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.856836077308519e-05,
+      "loss": 0.9898,
+      "step": 120
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.785254115962778e-05,
+      "loss": 0.8701,
+      "step": 130
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.713672154617037e-05,
+      "loss": 0.7106,
+      "step": 140
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.642090193271297e-05,
+      "loss": 0.6589,
+      "step": 150
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.570508231925556e-05,
+      "loss": 1.0803,
+      "step": 160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.498926270579815e-05,
+      "loss": 0.9667,
+      "step": 170
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.427344309234073e-05,
+      "loss": 0.8258,
+      "step": 180
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.355762347888332e-05,
+      "loss": 0.6852,
+      "step": 190
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.284180386542591e-05,
+      "loss": 0.6465,
+      "step": 200
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9591875076293945,
+      "eval_runtime": 134.9228,
+      "eval_samples_per_second": 14.823,
+      "eval_steps_per_second": 1.853,
+      "step": 200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.21259842519685e-05,
+      "loss": 1.0695,
+      "step": 210
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.14101646385111e-05,
+      "loss": 0.9637,
+      "step": 220
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.069434502505369e-05,
+      "loss": 0.8331,
+      "step": 230
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.997852541159628e-05,
+      "loss": 0.6924,
+      "step": 240
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.926270579813887e-05,
+      "loss": 0.6501,
+      "step": 250
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.854688618468147e-05,
+      "loss": 1.0621,
+      "step": 260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.783106657122406e-05,
+      "loss": 0.9574,
+      "step": 270
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.711524695776665e-05,
+      "loss": 0.8269,
+      "step": 280
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.639942734430924e-05,
+      "loss": 0.6733,
+      "step": 290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.568360773085183e-05,
+      "loss": 0.6303,
+      "step": 300
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.496778811739443e-05,
+      "loss": 1.0696,
+      "step": 310
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.4251968503937e-05,
+      "loss": 0.9427,
+      "step": 320
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.35361488904796e-05,
+      "loss": 0.8269,
+      "step": 330
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.282032927702219e-05,
+      "loss": 0.6791,
+      "step": 340
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.210450966356478e-05,
+      "loss": 0.6343,
+      "step": 350
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.138869005010737e-05,
+      "loss": 1.0558,
+      "step": 360
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.067287043664997e-05,
+      "loss": 0.9428,
+      "step": 370
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.995705082319256e-05,
+      "loss": 0.8074,
+      "step": 380
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.924123120973515e-05,
+      "loss": 0.6895,
+      "step": 390
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.852541159627774e-05,
+      "loss": 0.632,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.920779287815094,
+      "eval_runtime": 134.2323,
+      "eval_samples_per_second": 14.9,
+      "eval_steps_per_second": 1.862,
+      "step": 400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 7.780959198282033e-05,
+      "loss": 1.0575,
+      "step": 410
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.709377236936293e-05,
+      "loss": 0.9369,
+      "step": 420
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.637795275590552e-05,
+      "loss": 0.8319,
+      "step": 430
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.566213314244811e-05,
+      "loss": 0.6667,
+      "step": 440
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.49463135289907e-05,
+      "loss": 0.6284,
+      "step": 450
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.42304939155333e-05,
+      "loss": 1.0348,
+      "step": 460
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 7.351467430207589e-05,
+      "loss": 0.9361,
+      "step": 470
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.279885468861847e-05,
+      "loss": 0.8108,
+      "step": 480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.208303507516106e-05,
+      "loss": 0.677,
+      "step": 490
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.136721546170365e-05,
+      "loss": 0.6402,
+      "step": 500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 7.065139584824624e-05,
+      "loss": 1.0431,
+      "step": 510
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.993557623478884e-05,
+      "loss": 0.9406,
+      "step": 520
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 6.921975662133143e-05,
+      "loss": 0.7971,
+      "step": 530
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 6.850393700787402e-05,
+      "loss": 0.6652,
+      "step": 540
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 6.778811739441661e-05,
+      "loss": 0.651,
+      "step": 550
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 6.70722977809592e-05,
+      "loss": 1.0322,
+      "step": 560
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.63564781675018e-05,
+      "loss": 0.9425,
+      "step": 570
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 6.564065855404439e-05,
+      "loss": 0.8085,
+      "step": 580
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 6.492483894058698e-05,
+      "loss": 0.6654,
+      "step": 590
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 6.420901932712957e-05,
+      "loss": 0.6493,
+      "step": 600
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.9059903025627136,
+      "eval_runtime": 133.8487,
+      "eval_samples_per_second": 14.942,
+      "eval_steps_per_second": 1.868,
+      "step": 600
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.349319971367216e-05,
+      "loss": 1.0063,
+      "step": 610
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.277738010021474e-05,
+      "loss": 0.9179,
+      "step": 620
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.206156048675734e-05,
+      "loss": 0.797,
+      "step": 630
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.134574087329993e-05,
+      "loss": 0.6743,
+      "step": 640
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 6.0629921259842526e-05,
+      "loss": 0.6468,
+      "step": 650
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.991410164638511e-05,
+      "loss": 1.0237,
+      "step": 660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.919828203292771e-05,
+      "loss": 0.9141,
+      "step": 670
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 5.8482462419470296e-05,
+      "loss": 0.7917,
+      "step": 680
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 5.776664280601288e-05,
+      "loss": 0.6499,
+      "step": 690
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 5.705082319255548e-05,
+      "loss": 0.6481,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.6335003579098066e-05,
+      "loss": 1.0164,
+      "step": 710
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.5619183965640665e-05,
+      "loss": 0.9252,
+      "step": 720
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.490336435218325e-05,
+      "loss": 0.7942,
+      "step": 730
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 5.418754473872585e-05,
+      "loss": 0.6517,
+      "step": 740
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 5.3471725125268434e-05,
+      "loss": 0.642,
+      "step": 750
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 5.275590551181102e-05,
+      "loss": 1.0249,
+      "step": 760
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 5.204008589835362e-05,
+      "loss": 0.9345,
+      "step": 770
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.1324266284896204e-05,
+      "loss": 0.7841,
+      "step": 780
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.06084466714388e-05,
+      "loss": 0.6512,
+      "step": 790
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.989262705798139e-05,
+      "loss": 0.6472,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.8923133611679077,
+      "eval_runtime": 133.1272,
+      "eval_samples_per_second": 15.023,
+      "eval_steps_per_second": 1.878,
+      "step": 800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.917680744452398e-05,
+      "loss": 1.0134,
+      "step": 810
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.846098783106657e-05,
+      "loss": 0.9177,
+      "step": 820
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.7745168217609165e-05,
+      "loss": 0.786,
+      "step": 830
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 4.702934860415176e-05,
+      "loss": 0.6569,
+      "step": 840
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 4.631352899069435e-05,
+      "loss": 0.6258,
+      "step": 850
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.559770937723694e-05,
+      "loss": 1.0336,
+      "step": 860
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.488188976377953e-05,
+      "loss": 0.9346,
+      "step": 870
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 4.416607015032212e-05,
+      "loss": 0.7893,
+      "step": 880
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.345025053686471e-05,
+      "loss": 0.6585,
+      "step": 890
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.27344309234073e-05,
+      "loss": 0.6222,
+      "step": 900
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.2018611309949896e-05,
+      "loss": 1.0196,
+      "step": 910
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 4.130279169649249e-05,
+      "loss": 0.9398,
+      "step": 920
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 4.058697208303508e-05,
+      "loss": 0.8012,
+      "step": 930
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.9871152469577665e-05,
+      "loss": 0.6599,
+      "step": 940
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.915533285612026e-05,
+      "loss": 0.6337,
+      "step": 950
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3.843951324266285e-05,
+      "loss": 1.0181,
+      "step": 960
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3.772369362920544e-05,
+      "loss": 0.9119,
+      "step": 970
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3.7007874015748034e-05,
+      "loss": 0.7974,
+      "step": 980
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3.6292054402290626e-05,
+      "loss": 0.6506,
+      "step": 990
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.557623478883322e-05,
+      "loss": 0.6552,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.883411169052124,
+      "eval_runtime": 133.1959,
+      "eval_samples_per_second": 15.015,
+      "eval_steps_per_second": 1.877,
+      "step": 1000
+    }
+  ],
+  "max_steps": 1497,
+  "num_train_epochs": 3,
+  "total_flos": 5.306117790616781e+17,
+  "trial_name": null,
+  "trial_params": null
+}

lora-alpaca/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3365a9fddc28ac19526733cfa419ff1af8b6a9569c78e529ea4a0e67de3e3a30
+size 3515

lora-alpaca/checkpoint-1200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f92e82496257c26bb561412b18a0481f420f58654d2438a634e3ab28bda33b6c
+size 33629893

lora-alpaca/checkpoint-1200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e10e5f41ed20a15af2ca9b09b05e39da32caf6a28becdbd6ed3b074d8c74f3a
+size 16822989

lora-alpaca/checkpoint-1200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e06bc74c1412f57258e7ccbb8ab09fb4f704e1f8c4acb61fd0a6e6c7c19ff2e
+size 14575

lora-alpaca/checkpoint-1200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:741cefeca9ef427f92406d2d10b81996655e2a9d50eb7aaa9614e6fdd1c9f529
+size 557

lora-alpaca/checkpoint-1200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ada432692da53a0d5a6295ff4ad7a465bf6376ad1f953e6a8aa133fb848aad44
+size 627

lora-alpaca/checkpoint-1200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,784 @@

+{
+  "best_metric": 0.8776447176933289,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1200",
+  "epoch": 2.4024024024024024,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 1.8749,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2e-05,
+      "loss": 2.119,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 2.3009,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4e-05,
+      "loss": 2.3636,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 5e-05,
+      "loss": 2.1696,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6e-05,
+      "loss": 1.4449,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7e-05,
+      "loss": 1.3746,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 8e-05,
+      "loss": 1.0467,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9e-05,
+      "loss": 0.7711,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 0.6918,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.92841803865426e-05,
+      "loss": 1.0876,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.856836077308519e-05,
+      "loss": 0.9898,
+      "step": 120
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.785254115962778e-05,
+      "loss": 0.8701,
+      "step": 130
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.713672154617037e-05,
+      "loss": 0.7106,
+      "step": 140
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.642090193271297e-05,
+      "loss": 0.6589,
+      "step": 150
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.570508231925556e-05,
+      "loss": 1.0803,
+      "step": 160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.498926270579815e-05,
+      "loss": 0.9667,
+      "step": 170
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.427344309234073e-05,
+      "loss": 0.8258,
+      "step": 180
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.355762347888332e-05,
+      "loss": 0.6852,
+      "step": 190
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.284180386542591e-05,
+      "loss": 0.6465,
+      "step": 200
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9591875076293945,
+      "eval_runtime": 134.9228,
+      "eval_samples_per_second": 14.823,
+      "eval_steps_per_second": 1.853,
+      "step": 200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.21259842519685e-05,
+      "loss": 1.0695,
+      "step": 210
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.14101646385111e-05,
+      "loss": 0.9637,
+      "step": 220
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.069434502505369e-05,
+      "loss": 0.8331,
+      "step": 230
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.997852541159628e-05,
+      "loss": 0.6924,
+      "step": 240
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.926270579813887e-05,
+      "loss": 0.6501,
+      "step": 250
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.854688618468147e-05,
+      "loss": 1.0621,
+      "step": 260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.783106657122406e-05,
+      "loss": 0.9574,
+      "step": 270
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.711524695776665e-05,
+      "loss": 0.8269,
+      "step": 280
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.639942734430924e-05,
+      "loss": 0.6733,
+      "step": 290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.568360773085183e-05,
+      "loss": 0.6303,
+      "step": 300
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.496778811739443e-05,
+      "loss": 1.0696,
+      "step": 310
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.4251968503937e-05,
+      "loss": 0.9427,
+      "step": 320
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.35361488904796e-05,
+      "loss": 0.8269,
+      "step": 330
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.282032927702219e-05,
+      "loss": 0.6791,
+      "step": 340
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.210450966356478e-05,
+      "loss": 0.6343,
+      "step": 350
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.138869005010737e-05,
+      "loss": 1.0558,
+      "step": 360
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.067287043664997e-05,
+      "loss": 0.9428,
+      "step": 370
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.995705082319256e-05,
+      "loss": 0.8074,
+      "step": 380
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.924123120973515e-05,
+      "loss": 0.6895,
+      "step": 390
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.852541159627774e-05,
+      "loss": 0.632,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.920779287815094,
+      "eval_runtime": 134.2323,
+      "eval_samples_per_second": 14.9,
+      "eval_steps_per_second": 1.862,
+      "step": 400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 7.780959198282033e-05,
+      "loss": 1.0575,
+      "step": 410
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.709377236936293e-05,
+      "loss": 0.9369,
+      "step": 420
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.637795275590552e-05,
+      "loss": 0.8319,
+      "step": 430
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.566213314244811e-05,
+      "loss": 0.6667,
+      "step": 440
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.49463135289907e-05,
+      "loss": 0.6284,
+      "step": 450
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.42304939155333e-05,
+      "loss": 1.0348,
+      "step": 460
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 7.351467430207589e-05,
+      "loss": 0.9361,
+      "step": 470
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.279885468861847e-05,
+      "loss": 0.8108,
+      "step": 480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.208303507516106e-05,
+      "loss": 0.677,
+      "step": 490
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.136721546170365e-05,
+      "loss": 0.6402,
+      "step": 500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 7.065139584824624e-05,
+      "loss": 1.0431,
+      "step": 510
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.993557623478884e-05,
+      "loss": 0.9406,
+      "step": 520
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 6.921975662133143e-05,
+      "loss": 0.7971,
+      "step": 530
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 6.850393700787402e-05,
+      "loss": 0.6652,
+      "step": 540
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 6.778811739441661e-05,
+      "loss": 0.651,
+      "step": 550
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 6.70722977809592e-05,
+      "loss": 1.0322,
+      "step": 560
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.63564781675018e-05,
+      "loss": 0.9425,
+      "step": 570
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 6.564065855404439e-05,
+      "loss": 0.8085,
+      "step": 580
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 6.492483894058698e-05,
+      "loss": 0.6654,
+      "step": 590
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 6.420901932712957e-05,
+      "loss": 0.6493,
+      "step": 600
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.9059903025627136,
+      "eval_runtime": 133.8487,
+      "eval_samples_per_second": 14.942,
+      "eval_steps_per_second": 1.868,
+      "step": 600
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.349319971367216e-05,
+      "loss": 1.0063,
+      "step": 610
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.277738010021474e-05,
+      "loss": 0.9179,
+      "step": 620
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.206156048675734e-05,
+      "loss": 0.797,
+      "step": 630
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.134574087329993e-05,
+      "loss": 0.6743,
+      "step": 640
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 6.0629921259842526e-05,
+      "loss": 0.6468,
+      "step": 650
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.991410164638511e-05,
+      "loss": 1.0237,
+      "step": 660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.919828203292771e-05,
+      "loss": 0.9141,
+      "step": 670
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 5.8482462419470296e-05,
+      "loss": 0.7917,
+      "step": 680
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 5.776664280601288e-05,
+      "loss": 0.6499,
+      "step": 690
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 5.705082319255548e-05,
+      "loss": 0.6481,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.6335003579098066e-05,
+      "loss": 1.0164,
+      "step": 710
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.5619183965640665e-05,
+      "loss": 0.9252,
+      "step": 720
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.490336435218325e-05,
+      "loss": 0.7942,
+      "step": 730
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 5.418754473872585e-05,
+      "loss": 0.6517,
+      "step": 740
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 5.3471725125268434e-05,
+      "loss": 0.642,
+      "step": 750
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 5.275590551181102e-05,
+      "loss": 1.0249,
+      "step": 760
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 5.204008589835362e-05,
+      "loss": 0.9345,
+      "step": 770
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.1324266284896204e-05,
+      "loss": 0.7841,
+      "step": 780
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.06084466714388e-05,
+      "loss": 0.6512,
+      "step": 790
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.989262705798139e-05,
+      "loss": 0.6472,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.8923133611679077,
+      "eval_runtime": 133.1272,
+      "eval_samples_per_second": 15.023,
+      "eval_steps_per_second": 1.878,
+      "step": 800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.917680744452398e-05,
+      "loss": 1.0134,
+      "step": 810
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.846098783106657e-05,
+      "loss": 0.9177,
+      "step": 820
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.7745168217609165e-05,
+      "loss": 0.786,
+      "step": 830
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 4.702934860415176e-05,
+      "loss": 0.6569,
+      "step": 840
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 4.631352899069435e-05,
+      "loss": 0.6258,
+      "step": 850
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.559770937723694e-05,
+      "loss": 1.0336,
+      "step": 860
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.488188976377953e-05,
+      "loss": 0.9346,
+      "step": 870
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 4.416607015032212e-05,
+      "loss": 0.7893,
+      "step": 880
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.345025053686471e-05,
+      "loss": 0.6585,
+      "step": 890
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.27344309234073e-05,
+      "loss": 0.6222,
+      "step": 900
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.2018611309949896e-05,
+      "loss": 1.0196,
+      "step": 910
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 4.130279169649249e-05,
+      "loss": 0.9398,
+      "step": 920
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 4.058697208303508e-05,
+      "loss": 0.8012,
+      "step": 930
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.9871152469577665e-05,
+      "loss": 0.6599,
+      "step": 940
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.915533285612026e-05,
+      "loss": 0.6337,
+      "step": 950
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3.843951324266285e-05,
+      "loss": 1.0181,
+      "step": 960
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3.772369362920544e-05,
+      "loss": 0.9119,
+      "step": 970
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3.7007874015748034e-05,
+      "loss": 0.7974,
+      "step": 980
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3.6292054402290626e-05,
+      "loss": 0.6506,
+      "step": 990
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.557623478883322e-05,
+      "loss": 0.6552,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.883411169052124,
+      "eval_runtime": 133.1959,
+      "eval_samples_per_second": 15.015,
+      "eval_steps_per_second": 1.877,
+      "step": 1000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.4860415175375804e-05,
+      "loss": 1.0039,
+      "step": 1010
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.4144595561918396e-05,
+      "loss": 0.9259,
+      "step": 1020
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 3.342877594846099e-05,
+      "loss": 0.7858,
+      "step": 1030
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 3.271295633500358e-05,
+      "loss": 0.649,
+      "step": 1040
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 3.199713672154617e-05,
+      "loss": 0.6557,
+      "step": 1050
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 3.1281317108088764e-05,
+      "loss": 1.0129,
+      "step": 1060
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.0565497494631357e-05,
+      "loss": 0.901,
+      "step": 1070
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.9849677881173942e-05,
+      "loss": 0.7697,
+      "step": 1080
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.9133858267716534e-05,
+      "loss": 0.6419,
+      "step": 1090
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 2.8418038654259126e-05,
+      "loss": 0.6546,
+      "step": 1100
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 2.770221904080172e-05,
+      "loss": 1.009,
+      "step": 1110
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 2.698639942734431e-05,
+      "loss": 0.9193,
+      "step": 1120
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 2.6270579813886903e-05,
+      "loss": 0.7808,
+      "step": 1130
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.5554760200429495e-05,
+      "loss": 0.6449,
+      "step": 1140
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.4838940586972084e-05,
+      "loss": 0.6551,
+      "step": 1150
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.4123120973514676e-05,
+      "loss": 1.0013,
+      "step": 1160
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.3407301360057265e-05,
+      "loss": 0.9067,
+      "step": 1170
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.2691481746599857e-05,
+      "loss": 0.7739,
+      "step": 1180
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.197566213314245e-05,
+      "loss": 0.6502,
+      "step": 1190
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.125984251968504e-05,
+      "loss": 0.6557,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 0.8776447176933289,
+      "eval_runtime": 133.098,
+      "eval_samples_per_second": 15.027,
+      "eval_steps_per_second": 1.878,
+      "step": 1200
+    }
+  ],
+  "max_steps": 1497,
+  "num_train_epochs": 3,
+  "total_flos": 6.359415119727821e+17,
+  "trial_name": null,
+  "trial_params": null
+}

lora-alpaca/checkpoint-1200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3365a9fddc28ac19526733cfa419ff1af8b6a9569c78e529ea4a0e67de3e3a30
+size 3515

lora-alpaca/checkpoint-1400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95cc267ba8f77bca3b47bc121609daf2d5c257137410bee9a4d2ca3f18fa9f66
+size 33629893

lora-alpaca/checkpoint-1400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98987187f0889b1d424836d31b54105325ebb265401b6f7443327554073c3a50
+size 16822989

lora-alpaca/checkpoint-1400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc5aefd83e95cf8bfeb2c064cb56777a4c09f097aab7178b02787e4e99eb4260
+size 14575

lora-alpaca/checkpoint-1400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16fdfc03b58220402968eacaac23fb5471cdb9061302380bd3c8d4d326c02ade
+size 557

lora-alpaca/checkpoint-1400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a674214d8e2d9ae93e71741636ee2e62f5b2df49177833ea6b06850296b0a93
+size 627

lora-alpaca/checkpoint-1400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,912 @@

+{
+  "best_metric": 0.8746508359909058,
+  "best_model_checkpoint": "./lora-alpaca/checkpoint-1400",
+  "epoch": 2.8028028028028027,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1e-05,
+      "loss": 1.8749,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2e-05,
+      "loss": 2.119,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 2.3009,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4e-05,
+      "loss": 2.3636,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 5e-05,
+      "loss": 2.1696,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6e-05,
+      "loss": 1.4449,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 7e-05,
+      "loss": 1.3746,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 8e-05,
+      "loss": 1.0467,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9e-05,
+      "loss": 0.7711,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 0.6918,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.92841803865426e-05,
+      "loss": 1.0876,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.856836077308519e-05,
+      "loss": 0.9898,
+      "step": 120
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.785254115962778e-05,
+      "loss": 0.8701,
+      "step": 130
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.713672154617037e-05,
+      "loss": 0.7106,
+      "step": 140
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.642090193271297e-05,
+      "loss": 0.6589,
+      "step": 150
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.570508231925556e-05,
+      "loss": 1.0803,
+      "step": 160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.498926270579815e-05,
+      "loss": 0.9667,
+      "step": 170
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.427344309234073e-05,
+      "loss": 0.8258,
+      "step": 180
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.355762347888332e-05,
+      "loss": 0.6852,
+      "step": 190
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 9.284180386542591e-05,
+      "loss": 0.6465,
+      "step": 200
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9591875076293945,
+      "eval_runtime": 134.9228,
+      "eval_samples_per_second": 14.823,
+      "eval_steps_per_second": 1.853,
+      "step": 200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.21259842519685e-05,
+      "loss": 1.0695,
+      "step": 210
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.14101646385111e-05,
+      "loss": 0.9637,
+      "step": 220
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.069434502505369e-05,
+      "loss": 0.8331,
+      "step": 230
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.997852541159628e-05,
+      "loss": 0.6924,
+      "step": 240
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.926270579813887e-05,
+      "loss": 0.6501,
+      "step": 250
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.854688618468147e-05,
+      "loss": 1.0621,
+      "step": 260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.783106657122406e-05,
+      "loss": 0.9574,
+      "step": 270
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 8.711524695776665e-05,
+      "loss": 0.8269,
+      "step": 280
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.639942734430924e-05,
+      "loss": 0.6733,
+      "step": 290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.568360773085183e-05,
+      "loss": 0.6303,
+      "step": 300
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.496778811739443e-05,
+      "loss": 1.0696,
+      "step": 310
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 8.4251968503937e-05,
+      "loss": 0.9427,
+      "step": 320
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.35361488904796e-05,
+      "loss": 0.8269,
+      "step": 330
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.282032927702219e-05,
+      "loss": 0.6791,
+      "step": 340
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.210450966356478e-05,
+      "loss": 0.6343,
+      "step": 350
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 8.138869005010737e-05,
+      "loss": 1.0558,
+      "step": 360
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.067287043664997e-05,
+      "loss": 0.9428,
+      "step": 370
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.995705082319256e-05,
+      "loss": 0.8074,
+      "step": 380
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.924123120973515e-05,
+      "loss": 0.6895,
+      "step": 390
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 7.852541159627774e-05,
+      "loss": 0.632,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.920779287815094,
+      "eval_runtime": 134.2323,
+      "eval_samples_per_second": 14.9,
+      "eval_steps_per_second": 1.862,
+      "step": 400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 7.780959198282033e-05,
+      "loss": 1.0575,
+      "step": 410
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.709377236936293e-05,
+      "loss": 0.9369,
+      "step": 420
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.637795275590552e-05,
+      "loss": 0.8319,
+      "step": 430
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.566213314244811e-05,
+      "loss": 0.6667,
+      "step": 440
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 7.49463135289907e-05,
+      "loss": 0.6284,
+      "step": 450
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 7.42304939155333e-05,
+      "loss": 1.0348,
+      "step": 460
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 7.351467430207589e-05,
+      "loss": 0.9361,
+      "step": 470
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.279885468861847e-05,
+      "loss": 0.8108,
+      "step": 480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.208303507516106e-05,
+      "loss": 0.677,
+      "step": 490
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.136721546170365e-05,
+      "loss": 0.6402,
+      "step": 500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 7.065139584824624e-05,
+      "loss": 1.0431,
+      "step": 510
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 6.993557623478884e-05,
+      "loss": 0.9406,
+      "step": 520
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 6.921975662133143e-05,
+      "loss": 0.7971,
+      "step": 530
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 6.850393700787402e-05,
+      "loss": 0.6652,
+      "step": 540
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 6.778811739441661e-05,
+      "loss": 0.651,
+      "step": 550
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 6.70722977809592e-05,
+      "loss": 1.0322,
+      "step": 560
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.63564781675018e-05,
+      "loss": 0.9425,
+      "step": 570
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 6.564065855404439e-05,
+      "loss": 0.8085,
+      "step": 580
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 6.492483894058698e-05,
+      "loss": 0.6654,
+      "step": 590
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 6.420901932712957e-05,
+      "loss": 0.6493,
+      "step": 600
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.9059903025627136,
+      "eval_runtime": 133.8487,
+      "eval_samples_per_second": 14.942,
+      "eval_steps_per_second": 1.868,
+      "step": 600
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 6.349319971367216e-05,
+      "loss": 1.0063,
+      "step": 610
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 6.277738010021474e-05,
+      "loss": 0.9179,
+      "step": 620
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 6.206156048675734e-05,
+      "loss": 0.797,
+      "step": 630
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 6.134574087329993e-05,
+      "loss": 0.6743,
+      "step": 640
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 6.0629921259842526e-05,
+      "loss": 0.6468,
+      "step": 650
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 5.991410164638511e-05,
+      "loss": 1.0237,
+      "step": 660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.919828203292771e-05,
+      "loss": 0.9141,
+      "step": 670
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 5.8482462419470296e-05,
+      "loss": 0.7917,
+      "step": 680
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 5.776664280601288e-05,
+      "loss": 0.6499,
+      "step": 690
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 5.705082319255548e-05,
+      "loss": 0.6481,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 5.6335003579098066e-05,
+      "loss": 1.0164,
+      "step": 710
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 5.5619183965640665e-05,
+      "loss": 0.9252,
+      "step": 720
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.490336435218325e-05,
+      "loss": 0.7942,
+      "step": 730
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 5.418754473872585e-05,
+      "loss": 0.6517,
+      "step": 740
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 5.3471725125268434e-05,
+      "loss": 0.642,
+      "step": 750
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 5.275590551181102e-05,
+      "loss": 1.0249,
+      "step": 760
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 5.204008589835362e-05,
+      "loss": 0.9345,
+      "step": 770
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 5.1324266284896204e-05,
+      "loss": 0.7841,
+      "step": 780
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.06084466714388e-05,
+      "loss": 0.6512,
+      "step": 790
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 4.989262705798139e-05,
+      "loss": 0.6472,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.8923133611679077,
+      "eval_runtime": 133.1272,
+      "eval_samples_per_second": 15.023,
+      "eval_steps_per_second": 1.878,
+      "step": 800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.917680744452398e-05,
+      "loss": 1.0134,
+      "step": 810
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.846098783106657e-05,
+      "loss": 0.9177,
+      "step": 820
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.7745168217609165e-05,
+      "loss": 0.786,
+      "step": 830
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 4.702934860415176e-05,
+      "loss": 0.6569,
+      "step": 840
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 4.631352899069435e-05,
+      "loss": 0.6258,
+      "step": 850
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.559770937723694e-05,
+      "loss": 1.0336,
+      "step": 860
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.488188976377953e-05,
+      "loss": 0.9346,
+      "step": 870
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 4.416607015032212e-05,
+      "loss": 0.7893,
+      "step": 880
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.345025053686471e-05,
+      "loss": 0.6585,
+      "step": 890
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 4.27344309234073e-05,
+      "loss": 0.6222,
+      "step": 900
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.2018611309949896e-05,
+      "loss": 1.0196,
+      "step": 910
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 4.130279169649249e-05,
+      "loss": 0.9398,
+      "step": 920
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 4.058697208303508e-05,
+      "loss": 0.8012,
+      "step": 930
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3.9871152469577665e-05,
+      "loss": 0.6599,
+      "step": 940
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.915533285612026e-05,
+      "loss": 0.6337,
+      "step": 950
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3.843951324266285e-05,
+      "loss": 1.0181,
+      "step": 960
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3.772369362920544e-05,
+      "loss": 0.9119,
+      "step": 970
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3.7007874015748034e-05,
+      "loss": 0.7974,
+      "step": 980
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3.6292054402290626e-05,
+      "loss": 0.6506,
+      "step": 990
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3.557623478883322e-05,
+      "loss": 0.6552,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.883411169052124,
+      "eval_runtime": 133.1959,
+      "eval_samples_per_second": 15.015,
+      "eval_steps_per_second": 1.877,
+      "step": 1000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 3.4860415175375804e-05,
+      "loss": 1.0039,
+      "step": 1010
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.4144595561918396e-05,
+      "loss": 0.9259,
+      "step": 1020
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 3.342877594846099e-05,
+      "loss": 0.7858,
+      "step": 1030
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 3.271295633500358e-05,
+      "loss": 0.649,
+      "step": 1040
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 3.199713672154617e-05,
+      "loss": 0.6557,
+      "step": 1050
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 3.1281317108088764e-05,
+      "loss": 1.0129,
+      "step": 1060
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.0565497494631357e-05,
+      "loss": 0.901,
+      "step": 1070
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.9849677881173942e-05,
+      "loss": 0.7697,
+      "step": 1080
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.9133858267716534e-05,
+      "loss": 0.6419,
+      "step": 1090
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 2.8418038654259126e-05,
+      "loss": 0.6546,
+      "step": 1100
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 2.770221904080172e-05,
+      "loss": 1.009,
+      "step": 1110
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 2.698639942734431e-05,
+      "loss": 0.9193,
+      "step": 1120
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 2.6270579813886903e-05,
+      "loss": 0.7808,
+      "step": 1130
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.5554760200429495e-05,
+      "loss": 0.6449,
+      "step": 1140
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.4838940586972084e-05,
+      "loss": 0.6551,
+      "step": 1150
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.4123120973514676e-05,
+      "loss": 1.0013,
+      "step": 1160
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.3407301360057265e-05,
+      "loss": 0.9067,
+      "step": 1170
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.2691481746599857e-05,
+      "loss": 0.7739,
+      "step": 1180
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.197566213314245e-05,
+      "loss": 0.6502,
+      "step": 1190
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.125984251968504e-05,
+      "loss": 0.6557,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 0.8776447176933289,
+      "eval_runtime": 133.098,
+      "eval_samples_per_second": 15.027,
+      "eval_steps_per_second": 1.878,
+      "step": 1200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 2.054402290622763e-05,
+      "loss": 0.9857,
+      "step": 1210
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.9828203292770222e-05,
+      "loss": 0.8983,
+      "step": 1220
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.9112383679312814e-05,
+      "loss": 0.7759,
+      "step": 1230
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.8396564065855406e-05,
+      "loss": 0.65,
+      "step": 1240
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.7680744452397995e-05,
+      "loss": 0.6538,
+      "step": 1250
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.6964924838940587e-05,
+      "loss": 0.991,
+      "step": 1260
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.624910522548318e-05,
+      "loss": 0.9044,
+      "step": 1270
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.553328561202577e-05,
+      "loss": 0.7839,
+      "step": 1280
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 1.481746599856836e-05,
+      "loss": 0.6432,
+      "step": 1290
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 1.4101646385110953e-05,
+      "loss": 0.656,
+      "step": 1300
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 1.3385826771653545e-05,
+      "loss": 0.9855,
+      "step": 1310
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 1.2670007158196134e-05,
+      "loss": 0.9121,
+      "step": 1320
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 1.1954187544738726e-05,
+      "loss": 0.7801,
+      "step": 1330
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 1.1238367931281316e-05,
+      "loss": 0.6426,
+      "step": 1340
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 1.0522548317823908e-05,
+      "loss": 0.6474,
+      "step": 1350
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 9.806728704366499e-06,
+      "loss": 1.009,
+      "step": 1360
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.9203,
+      "step": 1370
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 8.375089477451682e-06,
+      "loss": 0.7858,
+      "step": 1380
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 7.659269863994274e-06,
+      "loss": 0.644,
+      "step": 1390
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 6.943450250536865e-06,
+      "loss": 0.6542,
+      "step": 1400
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.8746508359909058,
+      "eval_runtime": 133.0912,
+      "eval_samples_per_second": 15.027,
+      "eval_steps_per_second": 1.878,
+      "step": 1400
+    }
+  ],
+  "max_steps": 1497,
+  "num_train_epochs": 3,
+  "total_flos": 7.421122325073101e+17,
+  "trial_name": null,
+  "trial_params": null
+}

lora-alpaca/checkpoint-1400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3365a9fddc28ac19526733cfa419ff1af8b6a9569c78e529ea4a0e67de3e3a30
+size 3515