Training in progress, step 1000

Browse files

Files changed (9) hide show

checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/pytorch_model.bin +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scaler.pt +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/trainer_state.json +1256 -0
checkpoint-1000/training_args.bin +3 -0
pytorch_model.bin +1 -1
runs/Jun08_19-57-59_5b791b640f29/events.out.tfevents.1686254295.5b791b640f29.4078.0 +2 -2

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fc2a4c8504bd065e1df8963a89d51649d1cad8b76269d5222a4d74424f2165e
+size 25279045

checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:672598af1b72173890cdafd8863ab058c97e45486abf856bf24c4b137bbdc560
+size 12653389

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18edba00d46603288665782d5e7fe9893d0cd2a468f01d4844ad96009249c507
+size 14511

checkpoint-1000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68cff80b680ddf6e7abbef98b5f336b97f9b5963e2209307f639383870e8cc71
+size 557

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fb5073fabf37a7e919aac33cb5e70c5c54faac0a66a5180da0d639ef94207d1
+size 627

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1256 @@

+{
+  "best_metric": 1.3234615325927734,
+  "best_model_checkpoint": "outputs/checkpoint-1000",
+  "epoch": 0.34223134839151265,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1e-05,
+      "loss": 1.8606,
+      "step": 5
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.8806,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 3e-05,
+      "loss": 1.8434,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.7431,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5e-05,
+      "loss": 1.7721,
+      "step": 25
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.6826,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 7e-05,
+      "loss": 1.5892,
+      "step": 35
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.6333,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9e-05,
+      "loss": 1.5955,
+      "step": 45
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.5504,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00011000000000000002,
+      "loss": 1.5621,
+      "step": 55
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.5142,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 1.4386,
+      "step": 65
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.5017,
+      "step": 70
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.4666,
+      "step": 75
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00016,
+      "loss": 1.4295,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00017,
+      "loss": 1.4402,
+      "step": 85
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.4795,
+      "step": 90
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019,
+      "loss": 1.4138,
+      "step": 95
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.4493,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001998259052924791,
+      "loss": 1.4918,
+      "step": 105
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019965181058495822,
+      "loss": 1.4659,
+      "step": 110
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019947771587743734,
+      "loss": 1.4573,
+      "step": 115
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019930362116991646,
+      "loss": 1.4274,
+      "step": 120
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019912952646239555,
+      "loss": 1.4064,
+      "step": 125
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019895543175487465,
+      "loss": 1.4048,
+      "step": 130
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019878133704735376,
+      "loss": 1.4493,
+      "step": 135
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019860724233983288,
+      "loss": 1.3317,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019843314763231198,
+      "loss": 1.4041,
+      "step": 145
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001982590529247911,
+      "loss": 1.4311,
+      "step": 150
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001980849582172702,
+      "loss": 1.3626,
+      "step": 155
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019791086350974934,
+      "loss": 1.4296,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019773676880222843,
+      "loss": 1.3888,
+      "step": 165
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019756267409470752,
+      "loss": 1.3389,
+      "step": 170
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019738857938718664,
+      "loss": 1.4544,
+      "step": 175
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019721448467966573,
+      "loss": 1.4382,
+      "step": 180
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019704038997214485,
+      "loss": 1.4953,
+      "step": 185
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019686629526462397,
+      "loss": 1.4026,
+      "step": 190
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019669220055710306,
+      "loss": 1.3757,
+      "step": 195
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019651810584958218,
+      "loss": 1.3247,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.3710952997207642,
+      "eval_runtime": 738.1164,
+      "eval_samples_per_second": 7.038,
+      "eval_steps_per_second": 0.881,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001963440111420613,
+      "loss": 1.4409,
+      "step": 205
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001961699164345404,
+      "loss": 1.4023,
+      "step": 210
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019599582172701951,
+      "loss": 1.3736,
+      "step": 215
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001958217270194986,
+      "loss": 1.4321,
+      "step": 220
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019564763231197773,
+      "loss": 1.4344,
+      "step": 225
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019547353760445685,
+      "loss": 1.3539,
+      "step": 230
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019529944289693594,
+      "loss": 1.438,
+      "step": 235
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019512534818941506,
+      "loss": 1.457,
+      "step": 240
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019495125348189415,
+      "loss": 1.429,
+      "step": 245
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019477715877437327,
+      "loss": 1.4465,
+      "step": 250
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001946030640668524,
+      "loss": 1.4202,
+      "step": 255
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019442896935933148,
+      "loss": 1.343,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001942548746518106,
+      "loss": 1.4127,
+      "step": 265
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001940807799442897,
+      "loss": 1.3171,
+      "step": 270
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001939066852367688,
+      "loss": 1.4012,
+      "step": 275
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019373259052924793,
+      "loss": 1.2933,
+      "step": 280
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019355849582172702,
+      "loss": 1.326,
+      "step": 285
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019338440111420614,
+      "loss": 1.3951,
+      "step": 290
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019321030640668524,
+      "loss": 1.3149,
+      "step": 295
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019303621169916436,
+      "loss": 1.4046,
+      "step": 300
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019286211699164348,
+      "loss": 1.343,
+      "step": 305
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019268802228412257,
+      "loss": 1.3676,
+      "step": 310
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019251392757660166,
+      "loss": 1.3593,
+      "step": 315
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001923398328690808,
+      "loss": 1.3869,
+      "step": 320
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001921657381615599,
+      "loss": 1.3841,
+      "step": 325
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019199164345403902,
+      "loss": 1.3806,
+      "step": 330
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001918175487465181,
+      "loss": 1.4527,
+      "step": 335
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001916434540389972,
+      "loss": 1.4161,
+      "step": 340
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019146935933147635,
+      "loss": 1.3019,
+      "step": 345
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019129526462395544,
+      "loss": 1.4082,
+      "step": 350
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019112116991643454,
+      "loss": 1.4261,
+      "step": 355
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019094707520891365,
+      "loss": 1.4152,
+      "step": 360
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019077298050139277,
+      "loss": 1.4289,
+      "step": 365
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001905988857938719,
+      "loss": 1.3951,
+      "step": 370
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019042479108635099,
+      "loss": 1.3578,
+      "step": 375
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019025069637883008,
+      "loss": 1.3342,
+      "step": 380
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001900766016713092,
+      "loss": 1.3959,
+      "step": 385
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00018990250696378832,
+      "loss": 1.4336,
+      "step": 390
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018972841225626744,
+      "loss": 1.464,
+      "step": 395
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018955431754874653,
+      "loss": 1.4053,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 1.3470327854156494,
+      "eval_runtime": 738.9389,
+      "eval_samples_per_second": 7.03,
+      "eval_steps_per_second": 0.88,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018938022284122562,
+      "loss": 1.3582,
+      "step": 405
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018920612813370474,
+      "loss": 1.375,
+      "step": 410
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018903203342618386,
+      "loss": 1.4229,
+      "step": 415
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018885793871866295,
+      "loss": 1.3843,
+      "step": 420
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018868384401114207,
+      "loss": 1.39,
+      "step": 425
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018850974930362116,
+      "loss": 1.3863,
+      "step": 430
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018833565459610028,
+      "loss": 1.3597,
+      "step": 435
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001881615598885794,
+      "loss": 1.4114,
+      "step": 440
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001879874651810585,
+      "loss": 1.2929,
+      "step": 445
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018781337047353762,
+      "loss": 1.3087,
+      "step": 450
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001876392757660167,
+      "loss": 1.3748,
+      "step": 455
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018746518105849583,
+      "loss": 1.3716,
+      "step": 460
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018729108635097495,
+      "loss": 1.404,
+      "step": 465
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018711699164345404,
+      "loss": 1.2931,
+      "step": 470
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018694289693593316,
+      "loss": 1.3345,
+      "step": 475
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018676880222841225,
+      "loss": 1.3836,
+      "step": 480
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018659470752089137,
+      "loss": 1.3923,
+      "step": 485
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001864206128133705,
+      "loss": 1.3166,
+      "step": 490
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018624651810584958,
+      "loss": 1.3697,
+      "step": 495
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001860724233983287,
+      "loss": 1.437,
+      "step": 500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018589832869080782,
+      "loss": 1.3579,
+      "step": 505
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018572423398328691,
+      "loss": 1.3769,
+      "step": 510
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018555013927576603,
+      "loss": 1.3989,
+      "step": 515
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018537604456824513,
+      "loss": 1.331,
+      "step": 520
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018520194986072425,
+      "loss": 1.3678,
+      "step": 525
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018502785515320337,
+      "loss": 1.3475,
+      "step": 530
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018485376044568246,
+      "loss": 1.4465,
+      "step": 535
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018467966573816158,
+      "loss": 1.3304,
+      "step": 540
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00018450557103064067,
+      "loss": 1.4006,
+      "step": 545
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001843314763231198,
+      "loss": 1.3645,
+      "step": 550
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001841573816155989,
+      "loss": 1.3217,
+      "step": 555
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000183983286908078,
+      "loss": 1.3421,
+      "step": 560
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001838091922005571,
+      "loss": 1.3283,
+      "step": 565
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001836350974930362,
+      "loss": 1.4101,
+      "step": 570
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018346100278551533,
+      "loss": 1.3333,
+      "step": 575
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018328690807799445,
+      "loss": 1.4574,
+      "step": 580
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018311281337047354,
+      "loss": 1.3755,
+      "step": 585
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018293871866295264,
+      "loss": 1.3537,
+      "step": 590
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00018276462395543176,
+      "loss": 1.3734,
+      "step": 595
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018259052924791088,
+      "loss": 1.3431,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.3354507684707642,
+      "eval_runtime": 738.7441,
+      "eval_samples_per_second": 7.032,
+      "eval_steps_per_second": 0.88,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018241643454039,
+      "loss": 1.3685,
+      "step": 605
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001822423398328691,
+      "loss": 1.377,
+      "step": 610
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018206824512534818,
+      "loss": 1.4289,
+      "step": 615
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018189415041782733,
+      "loss": 1.398,
+      "step": 620
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018172005571030642,
+      "loss": 1.3915,
+      "step": 625
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001815459610027855,
+      "loss": 1.4608,
+      "step": 630
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018137186629526463,
+      "loss": 1.4408,
+      "step": 635
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018119777158774372,
+      "loss": 1.3443,
+      "step": 640
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018102367688022287,
+      "loss": 1.4033,
+      "step": 645
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018084958217270196,
+      "loss": 1.3086,
+      "step": 650
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018067548746518105,
+      "loss": 1.3581,
+      "step": 655
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00018050139275766017,
+      "loss": 1.3457,
+      "step": 660
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001803272980501393,
+      "loss": 1.4488,
+      "step": 665
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001801532033426184,
+      "loss": 1.3765,
+      "step": 670
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001799791086350975,
+      "loss": 1.4061,
+      "step": 675
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001798050139275766,
+      "loss": 1.3556,
+      "step": 680
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00017963091922005572,
+      "loss": 1.3359,
+      "step": 685
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017945682451253484,
+      "loss": 1.2965,
+      "step": 690
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017928272980501393,
+      "loss": 1.3211,
+      "step": 695
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017910863509749305,
+      "loss": 1.4063,
+      "step": 700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017893454038997214,
+      "loss": 1.3837,
+      "step": 705
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017876044568245126,
+      "loss": 1.397,
+      "step": 710
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017858635097493038,
+      "loss": 1.3671,
+      "step": 715
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017841225626740947,
+      "loss": 1.3666,
+      "step": 720
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001782381615598886,
+      "loss": 1.3875,
+      "step": 725
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017806406685236768,
+      "loss": 1.3613,
+      "step": 730
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001778899721448468,
+      "loss": 1.3611,
+      "step": 735
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017771587743732592,
+      "loss": 1.357,
+      "step": 740
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017754178272980502,
+      "loss": 1.3561,
+      "step": 745
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017736768802228414,
+      "loss": 1.4103,
+      "step": 750
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017719359331476323,
+      "loss": 1.4355,
+      "step": 755
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017701949860724235,
+      "loss": 1.3901,
+      "step": 760
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017684540389972147,
+      "loss": 1.4161,
+      "step": 765
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00017667130919220056,
+      "loss": 1.4353,
+      "step": 770
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00017649721448467968,
+      "loss": 1.3647,
+      "step": 775
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001763231197771588,
+      "loss": 1.3503,
+      "step": 780
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001761490250696379,
+      "loss": 1.3034,
+      "step": 785
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.000175974930362117,
+      "loss": 1.3908,
+      "step": 790
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001758008356545961,
+      "loss": 1.3361,
+      "step": 795
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001756267409470752,
+      "loss": 1.4012,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.3277837038040161,
+      "eval_runtime": 737.1439,
+      "eval_samples_per_second": 7.047,
+      "eval_steps_per_second": 0.882,
+      "step": 800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017545264623955434,
+      "loss": 1.3631,
+      "step": 805
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017527855153203343,
+      "loss": 1.3789,
+      "step": 810
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017510445682451255,
+      "loss": 1.3418,
+      "step": 815
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017493036211699165,
+      "loss": 1.3556,
+      "step": 820
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017475626740947077,
+      "loss": 1.339,
+      "step": 825
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00017458217270194989,
+      "loss": 1.3419,
+      "step": 830
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00017440807799442898,
+      "loss": 1.2919,
+      "step": 835
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00017423398328690807,
+      "loss": 1.3757,
+      "step": 840
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001740598885793872,
+      "loss": 1.3165,
+      "step": 845
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001738857938718663,
+      "loss": 1.325,
+      "step": 850
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00017371169916434543,
+      "loss": 1.3846,
+      "step": 855
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00017353760445682452,
+      "loss": 1.393,
+      "step": 860
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001733635097493036,
+      "loss": 1.3176,
+      "step": 865
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00017318941504178273,
+      "loss": 1.3603,
+      "step": 870
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00017301532033426185,
+      "loss": 1.3858,
+      "step": 875
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00017284122562674097,
+      "loss": 1.3801,
+      "step": 880
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00017266713091922006,
+      "loss": 1.3258,
+      "step": 885
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00017249303621169916,
+      "loss": 1.3958,
+      "step": 890
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00017231894150417828,
+      "loss": 1.3352,
+      "step": 895
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001721448467966574,
+      "loss": 1.3546,
+      "step": 900
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001719707520891365,
+      "loss": 1.3576,
+      "step": 905
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001717966573816156,
+      "loss": 1.5061,
+      "step": 910
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001716225626740947,
+      "loss": 1.3496,
+      "step": 915
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00017144846796657385,
+      "loss": 1.4537,
+      "step": 920
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00017127437325905294,
+      "loss": 1.4241,
+      "step": 925
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00017110027855153203,
+      "loss": 1.4109,
+      "step": 930
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00017092618384401115,
+      "loss": 1.4104,
+      "step": 935
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00017075208913649024,
+      "loss": 1.4555,
+      "step": 940
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00017057799442896936,
+      "loss": 1.2743,
+      "step": 945
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00017040389972144848,
+      "loss": 1.3573,
+      "step": 950
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00017022980501392757,
+      "loss": 1.3463,
+      "step": 955
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001700557103064067,
+      "loss": 1.3817,
+      "step": 960
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001698816155988858,
+      "loss": 1.4315,
+      "step": 965
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001697075208913649,
+      "loss": 1.3112,
+      "step": 970
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00016953342618384403,
+      "loss": 1.3998,
+      "step": 975
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016935933147632312,
+      "loss": 1.3697,
+      "step": 980
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016918523676880224,
+      "loss": 1.3726,
+      "step": 985
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016901114206128136,
+      "loss": 1.4137,
+      "step": 990
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016883704735376045,
+      "loss": 1.3371,
+      "step": 995
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00016866295264623957,
+      "loss": 1.3189,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.3234615325927734,
+      "eval_runtime": 736.9447,
+      "eval_samples_per_second": 7.049,
+      "eval_steps_per_second": 0.882,
+      "step": 1000
+    }
+  ],
+  "max_steps": 5844,
+  "num_train_epochs": 2,
+  "total_flos": 5.9559854997504e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1519d033b5a5a628e3283f98e5ba6662a6b6f8c76dfadfd8264558baafe9285
+size 3963

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f841160f2b1491c6c76dbb85197d2a6a849ff05e9ce5dfcc439c4c087bf5ddde
 size 12653389

 version https://git-lfs.github.com/spec/v1
+oid sha256:672598af1b72173890cdafd8863ab058c97e45486abf856bf24c4b137bbdc560
 size 12653389

runs/Jun08_19-57-59_5b791b640f29/events.out.tfevents.1686254295.5b791b640f29.4078.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22f58bc3c0ee0b75eab57b72db73b251af0aee7f863930a614655ede9f9e1fd8
-size 30436

 version https://git-lfs.github.com/spec/v1
+oid sha256:fee5152d36116d9a01e7f0fb068a0334e957942e406f2bbc436dc11c67ff35c6
+size 36987