lemon-mint commited on
Commit
79f4ae5
·
verified ·
1 Parent(s): 967e10e

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e85e58bc1901b67983680d5c907a59690c7c44a834b1937a113ef5cc6e9c84f5
3
  size 4903351912
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:92dccb83c8c0a6f6345b737ce1db36c36d4d7992ca73e80b721d5b7f47b6b21f
3
  size 4903351912
last-checkpoint/model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18dad62acb28c9409c385475e14fb97b2e965b89d2740309cdd8b239ffce736e
3
  size 4947570872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a2b24a229bd97979ae3a693e35a5956dc189e037a5b710e3036e7c6e73da46b
3
  size 4947570872
last-checkpoint/model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c01e7eea5e67cdafb941a316ee73c61cceb48f747240eddf93ca9d87e3dea8ab
3
  size 4962221464
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:392a4f12ee63cb0bc19fbef78019f437dd5c5304c182b08c02183eb4d2583232
3
  size 4962221464
last-checkpoint/model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2bcfd527ad54231f79e9174dc8ce4051e380edd374ab383ced3fdd944ce7bd14
3
  size 3670322200
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0fdc80a8b0724b4471aa4d47e7c62e9887fbc389532013fa3f9588fb8779b16d
3
  size 3670322200
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:828d24671fd6c12c3d0f384278452224d750658b6fede014e03e12109c3194c8
3
  size 2216
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3452834f82acfa4bd3619f349e0974484197e8f142671485b30b15e286bebb6e
3
  size 2216
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2b66e3cc7c452b707ddac5caf0aa17618afb9bc1a0333600a22c4afb353f3165
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b08d040515b74f4292d5ae1aec62cdd2e9cfdb1c0375a73cdc92c0ac2f2fecdf
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aeed2188106e1a1def583b8f2acfd47fefac1069d1052695eda50a98d43b58c5
3
  size 1000
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.8426966292134831,
5
  "eval_steps": 500,
6
- "global_step": 900,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6307,6 +6307,2106 @@
6307
  "learning_rate": 2.6725495145537665e-05,
6308
  "loss": 1.1544,
6309
  "step": 900
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6310
  }
6311
  ],
6312
  "logging_steps": 1,
@@ -6326,7 +8426,7 @@
6326
  "attributes": {}
6327
  }
6328
  },
6329
- "total_flos": 2.9458884666064896e+18,
6330
  "train_batch_size": 8,
6331
  "trial_name": null,
6332
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.1235955056179776,
5
  "eval_steps": 500,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6307
  "learning_rate": 2.6725495145537665e-05,
6308
  "loss": 1.1544,
6309
  "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.8436329588014981,
6313
+ "grad_norm": 0.0,
6314
+ "learning_rate": 2.669632358016719e-05,
6315
+ "loss": 1.18,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.8445692883895131,
6320
+ "grad_norm": 0.0,
6321
+ "learning_rate": 2.6667135961213043e-05,
6322
+ "loss": 1.1473,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.8455056179775281,
6327
+ "grad_norm": 0.0,
6328
+ "learning_rate": 2.6637932358648812e-05,
6329
+ "loss": 1.1294,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.846441947565543,
6334
+ "grad_norm": 0.0,
6335
+ "learning_rate": 2.6608712842486438e-05,
6336
+ "loss": 1.1652,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.8473782771535581,
6341
+ "grad_norm": 0.0,
6342
+ "learning_rate": 2.6579477482775985e-05,
6343
+ "loss": 1.1908,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.848314606741573,
6348
+ "grad_norm": 0.0,
6349
+ "learning_rate": 2.65502263496055e-05,
6350
+ "loss": 1.1349,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.849250936329588,
6355
+ "grad_norm": 0.0,
6356
+ "learning_rate": 2.6520959513100857e-05,
6357
+ "loss": 1.1694,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.850187265917603,
6362
+ "grad_norm": 0.0,
6363
+ "learning_rate": 2.6491677043425573e-05,
6364
+ "loss": 1.1598,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.851123595505618,
6369
+ "grad_norm": 0.0,
6370
+ "learning_rate": 2.646237901078065e-05,
6371
+ "loss": 1.1238,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.8520599250936329,
6376
+ "grad_norm": 0.0,
6377
+ "learning_rate": 2.643306548540438e-05,
6378
+ "loss": 1.1607,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.852996254681648,
6383
+ "grad_norm": 0.0,
6384
+ "learning_rate": 2.6403736537572222e-05,
6385
+ "loss": 1.1524,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.8539325842696629,
6390
+ "grad_norm": 0.0,
6391
+ "learning_rate": 2.637439223759659e-05,
6392
+ "loss": 1.1592,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.8548689138576779,
6397
+ "grad_norm": 0.0,
6398
+ "learning_rate": 2.6345032655826708e-05,
6399
+ "loss": 1.1102,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.8558052434456929,
6404
+ "grad_norm": 0.0,
6405
+ "learning_rate": 2.631565786264844e-05,
6406
+ "loss": 1.1421,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.8567415730337079,
6411
+ "grad_norm": 0.0,
6412
+ "learning_rate": 2.6286267928484112e-05,
6413
+ "loss": 1.1219,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.8576779026217228,
6418
+ "grad_norm": 0.0,
6419
+ "learning_rate": 2.6256862923792356e-05,
6420
+ "loss": 1.165,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.8586142322097379,
6425
+ "grad_norm": 0.0,
6426
+ "learning_rate": 2.6227442919067923e-05,
6427
+ "loss": 1.1583,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.8595505617977528,
6432
+ "grad_norm": 0.0,
6433
+ "learning_rate": 2.6198007984841543e-05,
6434
+ "loss": 1.1407,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.8604868913857678,
6439
+ "grad_norm": 0.0,
6440
+ "learning_rate": 2.6168558191679708e-05,
6441
+ "loss": 1.1676,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.8614232209737828,
6446
+ "grad_norm": 0.0,
6447
+ "learning_rate": 2.6139093610184554e-05,
6448
+ "loss": 1.1316,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.8623595505617978,
6453
+ "grad_norm": 0.0,
6454
+ "learning_rate": 2.6109614310993676e-05,
6455
+ "loss": 1.1515,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.8632958801498127,
6460
+ "grad_norm": 0.0,
6461
+ "learning_rate": 2.608012036477994e-05,
6462
+ "loss": 1.0938,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.8642322097378277,
6467
+ "grad_norm": 0.0,
6468
+ "learning_rate": 2.6050611842251315e-05,
6469
+ "loss": 1.0931,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.8651685393258427,
6474
+ "grad_norm": 0.0,
6475
+ "learning_rate": 2.6021088814150747e-05,
6476
+ "loss": 1.1491,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.8661048689138576,
6481
+ "grad_norm": 0.0,
6482
+ "learning_rate": 2.5991551351255923e-05,
6483
+ "loss": 1.1658,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.8670411985018727,
6488
+ "grad_norm": 0.0,
6489
+ "learning_rate": 2.5961999524379162e-05,
6490
+ "loss": 1.1628,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.8679775280898876,
6495
+ "grad_norm": 0.0,
6496
+ "learning_rate": 2.593243340436721e-05,
6497
+ "loss": 1.1777,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.8689138576779026,
6502
+ "grad_norm": 0.0,
6503
+ "learning_rate": 2.590285306210107e-05,
6504
+ "loss": 1.1687,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.8698501872659176,
6509
+ "grad_norm": 0.0,
6510
+ "learning_rate": 2.5873258568495853e-05,
6511
+ "loss": 1.2063,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.8707865168539326,
6516
+ "grad_norm": 0.0,
6517
+ "learning_rate": 2.584364999450059e-05,
6518
+ "loss": 1.159,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.8717228464419475,
6523
+ "grad_norm": 0.0,
6524
+ "learning_rate": 2.5814027411098074e-05,
6525
+ "loss": 1.1388,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.8726591760299626,
6530
+ "grad_norm": 0.0,
6531
+ "learning_rate": 2.5784390889304668e-05,
6532
+ "loss": 1.1621,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.8735955056179775,
6537
+ "grad_norm": 0.0,
6538
+ "learning_rate": 2.5754740500170172e-05,
6539
+ "loss": 1.177,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.8745318352059925,
6544
+ "grad_norm": 0.0,
6545
+ "learning_rate": 2.5725076314777623e-05,
6546
+ "loss": 1.1238,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.8754681647940075,
6551
+ "grad_norm": 0.0,
6552
+ "learning_rate": 2.5695398404243116e-05,
6553
+ "loss": 1.1821,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.8764044943820225,
6558
+ "grad_norm": 0.0,
6559
+ "learning_rate": 2.566570683971568e-05,
6560
+ "loss": 1.1406,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.8773408239700374,
6565
+ "grad_norm": 0.0,
6566
+ "learning_rate": 2.5636001692377056e-05,
6567
+ "loss": 1.1174,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.8782771535580525,
6572
+ "grad_norm": 0.0,
6573
+ "learning_rate": 2.5606283033441558e-05,
6574
+ "loss": 1.1988,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.8792134831460674,
6579
+ "grad_norm": 0.0,
6580
+ "learning_rate": 2.5576550934155888e-05,
6581
+ "loss": 1.1353,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.8801498127340824,
6586
+ "grad_norm": 0.0,
6587
+ "learning_rate": 2.5546805465798964e-05,
6588
+ "loss": 1.1899,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.8810861423220974,
6593
+ "grad_norm": 0.0,
6594
+ "learning_rate": 2.551704669968177e-05,
6595
+ "loss": 1.1453,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.8820224719101124,
6600
+ "grad_norm": 0.0,
6601
+ "learning_rate": 2.5487274707147158e-05,
6602
+ "loss": 1.1262,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.8829588014981273,
6607
+ "grad_norm": 0.0,
6608
+ "learning_rate": 2.545748955956969e-05,
6609
+ "loss": 1.1586,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.8838951310861424,
6614
+ "grad_norm": 0.0,
6615
+ "learning_rate": 2.5427691328355472e-05,
6616
+ "loss": 1.1651,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.8848314606741573,
6621
+ "grad_norm": 0.0,
6622
+ "learning_rate": 2.5397880084941963e-05,
6623
+ "loss": 1.1174,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.8857677902621723,
6628
+ "grad_norm": 0.0,
6629
+ "learning_rate": 2.5368055900797837e-05,
6630
+ "loss": 1.1689,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.8867041198501873,
6635
+ "grad_norm": 0.0,
6636
+ "learning_rate": 2.5338218847422772e-05,
6637
+ "loss": 1.1399,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.8876404494382022,
6642
+ "grad_norm": 0.0,
6643
+ "learning_rate": 2.5308368996347297e-05,
6644
+ "loss": 1.124,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.8885767790262172,
6649
+ "grad_norm": 0.0,
6650
+ "learning_rate": 2.5278506419132663e-05,
6651
+ "loss": 1.1064,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.8895131086142322,
6656
+ "grad_norm": 0.0,
6657
+ "learning_rate": 2.5248631187370568e-05,
6658
+ "loss": 1.1786,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.8904494382022472,
6663
+ "grad_norm": 0.0,
6664
+ "learning_rate": 2.521874337268309e-05,
6665
+ "loss": 1.1104,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.8913857677902621,
6670
+ "grad_norm": 0.0,
6671
+ "learning_rate": 2.5188843046722472e-05,
6672
+ "loss": 1.1299,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.8923220973782772,
6677
+ "grad_norm": 0.0,
6678
+ "learning_rate": 2.5158930281170912e-05,
6679
+ "loss": 1.1297,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.8932584269662921,
6684
+ "grad_norm": 0.0,
6685
+ "learning_rate": 2.5129005147740486e-05,
6686
+ "loss": 1.1213,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.8941947565543071,
6691
+ "grad_norm": 0.0,
6692
+ "learning_rate": 2.5099067718172888e-05,
6693
+ "loss": 1.1517,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.8951310861423221,
6698
+ "grad_norm": 0.0,
6699
+ "learning_rate": 2.5069118064239293e-05,
6700
+ "loss": 1.204,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.8960674157303371,
6705
+ "grad_norm": 0.0,
6706
+ "learning_rate": 2.5039156257740178e-05,
6707
+ "loss": 1.1408,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.897003745318352,
6712
+ "grad_norm": 0.0,
6713
+ "learning_rate": 2.5009182370505173e-05,
6714
+ "loss": 1.1192,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.8979400749063671,
6719
+ "grad_norm": 0.0,
6720
+ "learning_rate": 2.4979196474392846e-05,
6721
+ "loss": 1.1376,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.898876404494382,
6726
+ "grad_norm": 0.0,
6727
+ "learning_rate": 2.4949198641290582e-05,
6728
+ "loss": 1.1704,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.899812734082397,
6733
+ "grad_norm": 0.0,
6734
+ "learning_rate": 2.491918894311436e-05,
6735
+ "loss": 1.1669,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.900749063670412,
6740
+ "grad_norm": 0.0,
6741
+ "learning_rate": 2.4889167451808613e-05,
6742
+ "loss": 1.134,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.901685393258427,
6747
+ "grad_norm": 0.0,
6748
+ "learning_rate": 2.4859134239346046e-05,
6749
+ "loss": 1.125,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.9026217228464419,
6754
+ "grad_norm": 0.0,
6755
+ "learning_rate": 2.4829089377727464e-05,
6756
+ "loss": 1.116,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.903558052434457,
6761
+ "grad_norm": 0.0,
6762
+ "learning_rate": 2.4799032938981604e-05,
6763
+ "loss": 1.1616,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.9044943820224719,
6768
+ "grad_norm": 0.0,
6769
+ "learning_rate": 2.4768964995164947e-05,
6770
+ "loss": 1.1526,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.9054307116104869,
6775
+ "grad_norm": 0.0,
6776
+ "learning_rate": 2.473888561836157e-05,
6777
+ "loss": 1.1605,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.9063670411985019,
6782
+ "grad_norm": 0.0,
6783
+ "learning_rate": 2.470879488068294e-05,
6784
+ "loss": 1.1418,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.9073033707865169,
6789
+ "grad_norm": 0.0,
6790
+ "learning_rate": 2.4678692854267784e-05,
6791
+ "loss": 1.1297,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.9082397003745318,
6796
+ "grad_norm": 0.0,
6797
+ "learning_rate": 2.4648579611281868e-05,
6798
+ "loss": 1.1487,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.9091760299625468,
6803
+ "grad_norm": 0.0,
6804
+ "learning_rate": 2.4618455223917868e-05,
6805
+ "loss": 1.1858,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.9101123595505618,
6810
+ "grad_norm": 0.0,
6811
+ "learning_rate": 2.4588319764395164e-05,
6812
+ "loss": 1.151,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.9110486891385767,
6817
+ "grad_norm": 0.0,
6818
+ "learning_rate": 2.45581733049597e-05,
6819
+ "loss": 1.1049,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.9119850187265918,
6824
+ "grad_norm": 0.0,
6825
+ "learning_rate": 2.4528015917883754e-05,
6826
+ "loss": 1.1616,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.9129213483146067,
6831
+ "grad_norm": 0.0,
6832
+ "learning_rate": 2.4497847675465834e-05,
6833
+ "loss": 1.1636,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.9138576779026217,
6838
+ "grad_norm": 0.0,
6839
+ "learning_rate": 2.4467668650030474e-05,
6840
+ "loss": 1.1109,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.9147940074906367,
6845
+ "grad_norm": 0.0,
6846
+ "learning_rate": 2.4437478913928026e-05,
6847
+ "loss": 1.1602,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.9157303370786517,
6852
+ "grad_norm": 0.0,
6853
+ "learning_rate": 2.4407278539534555e-05,
6854
+ "loss": 1.1346,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.9166666666666666,
6859
+ "grad_norm": 0.0,
6860
+ "learning_rate": 2.4377067599251616e-05,
6861
+ "loss": 1.1642,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.9176029962546817,
6866
+ "grad_norm": 0.0,
6867
+ "learning_rate": 2.4346846165506085e-05,
6868
+ "loss": 1.1231,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.9185393258426966,
6873
+ "grad_norm": 0.0,
6874
+ "learning_rate": 2.4316614310750007e-05,
6875
+ "loss": 1.1812,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.9194756554307116,
6880
+ "grad_norm": 0.0,
6881
+ "learning_rate": 2.428637210746041e-05,
6882
+ "loss": 1.1728,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.9204119850187266,
6887
+ "grad_norm": 0.0,
6888
+ "learning_rate": 2.425611962813913e-05,
6889
+ "loss": 1.1271,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.9213483146067416,
6894
+ "grad_norm": 0.0,
6895
+ "learning_rate": 2.4225856945312633e-05,
6896
+ "loss": 1.107,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.9222846441947565,
6901
+ "grad_norm": 0.0,
6902
+ "learning_rate": 2.4195584131531845e-05,
6903
+ "loss": 1.1474,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.9232209737827716,
6908
+ "grad_norm": 0.0,
6909
+ "learning_rate": 2.4165301259371995e-05,
6910
+ "loss": 1.154,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.9241573033707865,
6915
+ "grad_norm": 0.0,
6916
+ "learning_rate": 2.4135008401432404e-05,
6917
+ "loss": 1.1346,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.9250936329588015,
6922
+ "grad_norm": 0.0,
6923
+ "learning_rate": 2.4104705630336353e-05,
6924
+ "loss": 1.1752,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.9260299625468165,
6929
+ "grad_norm": 0.0,
6930
+ "learning_rate": 2.4074393018730882e-05,
6931
+ "loss": 1.1118,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.9269662921348315,
6936
+ "grad_norm": 0.0,
6937
+ "learning_rate": 2.404407063928661e-05,
6938
+ "loss": 1.1517,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.9279026217228464,
6943
+ "grad_norm": 0.0,
6944
+ "learning_rate": 2.401373856469759e-05,
6945
+ "loss": 1.1422,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.9288389513108615,
6950
+ "grad_norm": 0.0,
6951
+ "learning_rate": 2.398339686768111e-05,
6952
+ "loss": 1.1641,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.9297752808988764,
6957
+ "grad_norm": 0.0,
6958
+ "learning_rate": 2.395304562097753e-05,
6959
+ "loss": 1.1659,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.9307116104868914,
6964
+ "grad_norm": 0.0,
6965
+ "learning_rate": 2.3922684897350093e-05,
6966
+ "loss": 1.1311,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.9316479400749064,
6971
+ "grad_norm": 0.0,
6972
+ "learning_rate": 2.3892314769584778e-05,
6973
+ "loss": 1.1237,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.9325842696629213,
6978
+ "grad_norm": 0.0,
6979
+ "learning_rate": 2.3861935310490103e-05,
6980
+ "loss": 1.1237,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.9335205992509363,
6985
+ "grad_norm": 0.0,
6986
+ "learning_rate": 2.3831546592896954e-05,
6987
+ "loss": 1.156,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.9344569288389513,
6992
+ "grad_norm": 0.0,
6993
+ "learning_rate": 2.3801148689658406e-05,
6994
+ "loss": 1.1329,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.9353932584269663,
6999
+ "grad_norm": 0.0,
7000
+ "learning_rate": 2.3770741673649577e-05,
7001
+ "loss": 1.1102,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.9363295880149812,
7006
+ "grad_norm": 0.0,
7007
+ "learning_rate": 2.3740325617767406e-05,
7008
+ "loss": 1.1609,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.9372659176029963,
7013
+ "grad_norm": 0.0,
7014
+ "learning_rate": 2.3709900594930533e-05,
7015
+ "loss": 1.1311,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.9382022471910112,
7020
+ "grad_norm": 0.0,
7021
+ "learning_rate": 2.367946667807906e-05,
7022
+ "loss": 1.1693,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.9391385767790262,
7027
+ "grad_norm": 0.0,
7028
+ "learning_rate": 2.3649023940174435e-05,
7029
+ "loss": 1.1453,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.9400749063670412,
7034
+ "grad_norm": 0.0,
7035
+ "learning_rate": 2.3618572454199264e-05,
7036
+ "loss": 1.128,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.9410112359550562,
7041
+ "grad_norm": 0.0,
7042
+ "learning_rate": 2.358811229315709e-05,
7043
+ "loss": 1.1582,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.9419475655430711,
7048
+ "grad_norm": 0.0,
7049
+ "learning_rate": 2.3557643530072284e-05,
7050
+ "loss": 1.1259,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.9428838951310862,
7055
+ "grad_norm": 0.0,
7056
+ "learning_rate": 2.3527166237989825e-05,
7057
+ "loss": 1.1497,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.9438202247191011,
7062
+ "grad_norm": 0.0,
7063
+ "learning_rate": 2.3496680489975136e-05,
7064
+ "loss": 1.1312,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.9447565543071161,
7069
+ "grad_norm": 0.0,
7070
+ "learning_rate": 2.346618635911393e-05,
7071
+ "loss": 1.0997,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.9456928838951311,
7076
+ "grad_norm": 0.0,
7077
+ "learning_rate": 2.3435683918512e-05,
7078
+ "loss": 1.1551,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.9466292134831461,
7083
+ "grad_norm": 0.0,
7084
+ "learning_rate": 2.340517324129507e-05,
7085
+ "loss": 1.063,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.947565543071161,
7090
+ "grad_norm": 0.0,
7091
+ "learning_rate": 2.3374654400608595e-05,
7092
+ "loss": 1.1224,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.9485018726591761,
7097
+ "grad_norm": 0.0,
7098
+ "learning_rate": 2.3344127469617624e-05,
7099
+ "loss": 1.1681,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.949438202247191,
7104
+ "grad_norm": 0.0,
7105
+ "learning_rate": 2.3313592521506583e-05,
7106
+ "loss": 1.1698,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.950374531835206,
7111
+ "grad_norm": 0.0,
7112
+ "learning_rate": 2.328304962947913e-05,
7113
+ "loss": 1.1309,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.951310861423221,
7118
+ "grad_norm": 0.0,
7119
+ "learning_rate": 2.3252498866757952e-05,
7120
+ "loss": 1.1284,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.952247191011236,
7125
+ "grad_norm": 0.0,
7126
+ "learning_rate": 2.3221940306584627e-05,
7127
+ "loss": 1.1681,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.9531835205992509,
7132
+ "grad_norm": 0.0,
7133
+ "learning_rate": 2.3191374022219407e-05,
7134
+ "loss": 1.1858,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.954119850187266,
7139
+ "grad_norm": 0.0,
7140
+ "learning_rate": 2.3160800086941075e-05,
7141
+ "loss": 1.1038,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.9550561797752809,
7146
+ "grad_norm": 0.0,
7147
+ "learning_rate": 2.313021857404674e-05,
7148
+ "loss": 1.1651,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.9559925093632958,
7153
+ "grad_norm": 0.0,
7154
+ "learning_rate": 2.30996295568517e-05,
7155
+ "loss": 1.1355,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.9569288389513109,
7160
+ "grad_norm": 0.0,
7161
+ "learning_rate": 2.306903310868922e-05,
7162
+ "loss": 1.1433,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.9578651685393258,
7167
+ "grad_norm": 0.0,
7168
+ "learning_rate": 2.3038429302910402e-05,
7169
+ "loss": 1.1333,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.9588014981273408,
7174
+ "grad_norm": 0.0,
7175
+ "learning_rate": 2.3007818212883967e-05,
7176
+ "loss": 1.1077,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.9597378277153558,
7181
+ "grad_norm": 0.0,
7182
+ "learning_rate": 2.297719991199611e-05,
7183
+ "loss": 1.0909,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.9606741573033708,
7188
+ "grad_norm": 0.0,
7189
+ "learning_rate": 2.2946574473650318e-05,
7190
+ "loss": 1.1333,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.9616104868913857,
7195
+ "grad_norm": 0.0,
7196
+ "learning_rate": 2.2915941971267172e-05,
7197
+ "loss": 1.1264,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.9625468164794008,
7202
+ "grad_norm": 0.0,
7203
+ "learning_rate": 2.288530247828421e-05,
7204
+ "loss": 1.1528,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.9634831460674157,
7209
+ "grad_norm": 0.0,
7210
+ "learning_rate": 2.2854656068155706e-05,
7211
+ "loss": 1.1345,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.9644194756554307,
7216
+ "grad_norm": 0.0,
7217
+ "learning_rate": 2.282400281435253e-05,
7218
+ "loss": 1.1975,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.9653558052434457,
7223
+ "grad_norm": 0.0,
7224
+ "learning_rate": 2.2793342790361966e-05,
7225
+ "loss": 1.1709,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.9662921348314607,
7230
+ "grad_norm": 0.0,
7231
+ "learning_rate": 2.2762676069687517e-05,
7232
+ "loss": 1.1301,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.9672284644194756,
7237
+ "grad_norm": 0.0,
7238
+ "learning_rate": 2.273200272584874e-05,
7239
+ "loss": 1.1683,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.9681647940074907,
7244
+ "grad_norm": 0.0,
7245
+ "learning_rate": 2.2701322832381072e-05,
7246
+ "loss": 1.0972,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.9691011235955056,
7251
+ "grad_norm": 0.0,
7252
+ "learning_rate": 2.2670636462835666e-05,
7253
+ "loss": 1.1972,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.9700374531835206,
7258
+ "grad_norm": 0.0,
7259
+ "learning_rate": 2.2639943690779168e-05,
7260
+ "loss": 1.1733,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.9709737827715356,
7265
+ "grad_norm": 0.0,
7266
+ "learning_rate": 2.2609244589793606e-05,
7267
+ "loss": 1.1569,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.9719101123595506,
7272
+ "grad_norm": 0.0,
7273
+ "learning_rate": 2.2578539233476176e-05,
7274
+ "loss": 1.1468,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.9728464419475655,
7279
+ "grad_norm": 0.0,
7280
+ "learning_rate": 2.2547827695439046e-05,
7281
+ "loss": 1.1192,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.9737827715355806,
7286
+ "grad_norm": 0.0,
7287
+ "learning_rate": 2.2517110049309222e-05,
7288
+ "loss": 1.2081,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.9747191011235955,
7293
+ "grad_norm": 0.0,
7294
+ "learning_rate": 2.2486386368728367e-05,
7295
+ "loss": 1.1871,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.9756554307116105,
7300
+ "grad_norm": 0.0,
7301
+ "learning_rate": 2.2455656727352578e-05,
7302
+ "loss": 1.1106,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.9765917602996255,
7307
+ "grad_norm": 0.0,
7308
+ "learning_rate": 2.242492119885227e-05,
7309
+ "loss": 1.1256,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.9775280898876404,
7314
+ "grad_norm": 0.0,
7315
+ "learning_rate": 2.239417985691196e-05,
7316
+ "loss": 1.1416,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.9784644194756554,
7321
+ "grad_norm": 0.0,
7322
+ "learning_rate": 2.2363432775230108e-05,
7323
+ "loss": 1.1216,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.9794007490636704,
7328
+ "grad_norm": 0.0,
7329
+ "learning_rate": 2.2332680027518917e-05,
7330
+ "loss": 1.1514,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.9803370786516854,
7335
+ "grad_norm": 0.0,
7336
+ "learning_rate": 2.2301921687504193e-05,
7337
+ "loss": 1.1427,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.9812734082397003,
7342
+ "grad_norm": 0.0,
7343
+ "learning_rate": 2.2271157828925145e-05,
7344
+ "loss": 1.1516,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.9822097378277154,
7349
+ "grad_norm": 0.0,
7350
+ "learning_rate": 2.2240388525534208e-05,
7351
+ "loss": 1.1911,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.9831460674157303,
7356
+ "grad_norm": 0.0,
7357
+ "learning_rate": 2.220961385109687e-05,
7358
+ "loss": 1.1308,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.9840823970037453,
7363
+ "grad_norm": 0.0,
7364
+ "learning_rate": 2.21788338793915e-05,
7365
+ "loss": 1.1448,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.9850187265917603,
7370
+ "grad_norm": 0.0,
7371
+ "learning_rate": 2.214804868420916e-05,
7372
+ "loss": 1.1489,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.9859550561797753,
7377
+ "grad_norm": 0.0,
7378
+ "learning_rate": 2.211725833935343e-05,
7379
+ "loss": 1.1567,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.9868913857677902,
7384
+ "grad_norm": 0.0,
7385
+ "learning_rate": 2.2086462918640264e-05,
7386
+ "loss": 1.1834,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.9878277153558053,
7391
+ "grad_norm": 0.0,
7392
+ "learning_rate": 2.2055662495897745e-05,
7393
+ "loss": 1.1503,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.9887640449438202,
7398
+ "grad_norm": 0.0,
7399
+ "learning_rate": 2.2024857144965978e-05,
7400
+ "loss": 1.1624,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.9897003745318352,
7405
+ "grad_norm": 0.0,
7406
+ "learning_rate": 2.1994046939696877e-05,
7407
+ "loss": 1.1295,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.9906367041198502,
7412
+ "grad_norm": 0.0,
7413
+ "learning_rate": 2.196323195395397e-05,
7414
+ "loss": 1.1411,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.9915730337078652,
7419
+ "grad_norm": 0.0,
7420
+ "learning_rate": 2.193241226161228e-05,
7421
+ "loss": 1.1263,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.9925093632958801,
7426
+ "grad_norm": 0.0,
7427
+ "learning_rate": 2.190158793655809e-05,
7428
+ "loss": 1.1258,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.9934456928838952,
7433
+ "grad_norm": 0.0,
7434
+ "learning_rate": 2.1870759052688795e-05,
7435
+ "loss": 1.1264,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.9943820224719101,
7440
+ "grad_norm": 0.0,
7441
+ "learning_rate": 2.1839925683912734e-05,
7442
+ "loss": 1.1199,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.9953183520599251,
7447
+ "grad_norm": 0.0,
7448
+ "learning_rate": 2.1809087904148974e-05,
7449
+ "loss": 1.1546,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.9962546816479401,
7454
+ "grad_norm": 0.0,
7455
+ "learning_rate": 2.1778245787327168e-05,
7456
+ "loss": 1.1243,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.9971910112359551,
7461
+ "grad_norm": 0.0,
7462
+ "learning_rate": 2.1747399407387366e-05,
7463
+ "loss": 1.1177,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.99812734082397,
7468
+ "grad_norm": 0.0,
7469
+ "learning_rate": 2.171654883827985e-05,
7470
+ "loss": 1.1337,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.9990636704119851,
7475
+ "grad_norm": 0.0,
7476
+ "learning_rate": 2.1685694153964923e-05,
7477
+ "loss": 1.0604,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 1.0,
7482
+ "grad_norm": 0.0,
7483
+ "learning_rate": 2.165483542841276e-05,
7484
+ "loss": 1.1105,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 1.000936329588015,
7489
+ "grad_norm": 0.0,
7490
+ "learning_rate": 2.1623972735603237e-05,
7491
+ "loss": 1.1807,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 1.0018726591760299,
7496
+ "grad_norm": 0.0,
7497
+ "learning_rate": 2.1593106149525735e-05,
7498
+ "loss": 1.1901,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 1.002808988764045,
7503
+ "grad_norm": 0.0,
7504
+ "learning_rate": 2.156223574417896e-05,
7505
+ "loss": 1.1817,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 1.00374531835206,
7510
+ "grad_norm": 0.0,
7511
+ "learning_rate": 2.1531361593570788e-05,
7512
+ "loss": 1.1032,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 1.0046816479400749,
7517
+ "grad_norm": 0.0,
7518
+ "learning_rate": 2.1500483771718056e-05,
7519
+ "loss": 1.1515,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 1.0056179775280898,
7524
+ "grad_norm": 0.0,
7525
+ "learning_rate": 2.1469602352646417e-05,
7526
+ "loss": 1.1682,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 1.006554307116105,
7531
+ "grad_norm": 0.0,
7532
+ "learning_rate": 2.1438717410390138e-05,
7533
+ "loss": 1.1747,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 1.0074906367041199,
7538
+ "grad_norm": 0.0,
7539
+ "learning_rate": 2.1407829018991957e-05,
7540
+ "loss": 1.1021,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 1.0084269662921348,
7545
+ "grad_norm": 0.0,
7546
+ "learning_rate": 2.1376937252502846e-05,
7547
+ "loss": 1.1787,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 1.0093632958801497,
7552
+ "grad_norm": 0.0,
7553
+ "learning_rate": 2.1346042184981886e-05,
7554
+ "loss": 1.0454,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 1.0102996254681649,
7559
+ "grad_norm": 0.0,
7560
+ "learning_rate": 2.1315143890496074e-05,
7561
+ "loss": 1.1214,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 1.0112359550561798,
7566
+ "grad_norm": 0.0,
7567
+ "learning_rate": 2.1284242443120133e-05,
7568
+ "loss": 1.1246,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 1.0121722846441947,
7573
+ "grad_norm": 0.0,
7574
+ "learning_rate": 2.125333791693635e-05,
7575
+ "loss": 1.1144,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 1.0131086142322097,
7580
+ "grad_norm": 0.0,
7581
+ "learning_rate": 2.1222430386034406e-05,
7582
+ "loss": 1.1229,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 1.0140449438202248,
7587
+ "grad_norm": 0.0,
7588
+ "learning_rate": 2.1191519924511167e-05,
7589
+ "loss": 1.1704,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 1.0149812734082397,
7594
+ "grad_norm": 0.0,
7595
+ "learning_rate": 2.1160606606470523e-05,
7596
+ "loss": 1.1265,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 1.0159176029962547,
7601
+ "grad_norm": 0.0,
7602
+ "learning_rate": 2.1129690506023234e-05,
7603
+ "loss": 1.1264,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 1.0168539325842696,
7608
+ "grad_norm": 0.0,
7609
+ "learning_rate": 2.1098771697286703e-05,
7610
+ "loss": 1.1549,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 1.0177902621722847,
7615
+ "grad_norm": 0.0,
7616
+ "learning_rate": 2.1067850254384853e-05,
7617
+ "loss": 1.1881,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 1.0187265917602997,
7622
+ "grad_norm": 0.0,
7623
+ "learning_rate": 2.10369262514479e-05,
7624
+ "loss": 1.1419,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 1.0196629213483146,
7629
+ "grad_norm": 0.0,
7630
+ "learning_rate": 2.1005999762612208e-05,
7631
+ "loss": 1.156,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 1.0205992509363295,
7636
+ "grad_norm": 0.0,
7637
+ "learning_rate": 2.09750708620201e-05,
7638
+ "loss": 1.1403,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 1.0215355805243447,
7643
+ "grad_norm": 0.0,
7644
+ "learning_rate": 2.0944139623819676e-05,
7645
+ "loss": 1.1485,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 1.0224719101123596,
7650
+ "grad_norm": 0.0,
7651
+ "learning_rate": 2.0913206122164643e-05,
7652
+ "loss": 1.1764,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 1.0234082397003745,
7657
+ "grad_norm": 0.0,
7658
+ "learning_rate": 2.088227043121414e-05,
7659
+ "loss": 1.1304,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 1.0243445692883895,
7664
+ "grad_norm": 0.0,
7665
+ "learning_rate": 2.0851332625132554e-05,
7666
+ "loss": 1.1896,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 1.0252808988764044,
7671
+ "grad_norm": 0.0,
7672
+ "learning_rate": 2.0820392778089323e-05,
7673
+ "loss": 1.1414,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 1.0262172284644195,
7678
+ "grad_norm": 0.0,
7679
+ "learning_rate": 2.0789450964258805e-05,
7680
+ "loss": 1.1761,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 1.0271535580524345,
7685
+ "grad_norm": 0.0,
7686
+ "learning_rate": 2.075850725782005e-05,
7687
+ "loss": 1.1246,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 1.0280898876404494,
7692
+ "grad_norm": 0.0,
7693
+ "learning_rate": 2.0727561732956672e-05,
7694
+ "loss": 1.0788,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 1.0290262172284643,
7699
+ "grad_norm": 0.0,
7700
+ "learning_rate": 2.0696614463856624e-05,
7701
+ "loss": 1.1586,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 1.0299625468164795,
7706
+ "grad_norm": 0.0,
7707
+ "learning_rate": 2.066566552471204e-05,
7708
+ "loss": 1.1517,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 1.0308988764044944,
7713
+ "grad_norm": 0.0,
7714
+ "learning_rate": 2.0634714989719065e-05,
7715
+ "loss": 1.1935,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 1.0318352059925093,
7720
+ "grad_norm": 0.0,
7721
+ "learning_rate": 2.0603762933077675e-05,
7722
+ "loss": 1.1288,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 1.0327715355805243,
7727
+ "grad_norm": 0.0,
7728
+ "learning_rate": 2.0572809428991473e-05,
7729
+ "loss": 1.1996,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 1.0337078651685394,
7734
+ "grad_norm": 0.0,
7735
+ "learning_rate": 2.054185455166756e-05,
7736
+ "loss": 1.1287,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 1.0346441947565543,
7741
+ "grad_norm": 0.0,
7742
+ "learning_rate": 2.051089837531631e-05,
7743
+ "loss": 1.1478,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 1.0355805243445693,
7748
+ "grad_norm": 0.0,
7749
+ "learning_rate": 2.0479940974151217e-05,
7750
+ "loss": 1.1181,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 1.0365168539325842,
7755
+ "grad_norm": 0.0,
7756
+ "learning_rate": 2.044898242238871e-05,
7757
+ "loss": 1.1039,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 1.0374531835205993,
7762
+ "grad_norm": 0.0,
7763
+ "learning_rate": 2.041802279424798e-05,
7764
+ "loss": 1.1194,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 1.0383895131086143,
7769
+ "grad_norm": 0.0,
7770
+ "learning_rate": 2.0387062163950792e-05,
7771
+ "loss": 1.1967,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 1.0393258426966292,
7776
+ "grad_norm": 0.0,
7777
+ "learning_rate": 2.0356100605721324e-05,
7778
+ "loss": 1.1687,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 1.0402621722846441,
7783
+ "grad_norm": 0.0,
7784
+ "learning_rate": 2.0325138193785966e-05,
7785
+ "loss": 1.1686,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 1.0411985018726593,
7790
+ "grad_norm": 0.0,
7791
+ "learning_rate": 2.0294175002373157e-05,
7792
+ "loss": 1.1532,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 1.0421348314606742,
7797
+ "grad_norm": 0.0,
7798
+ "learning_rate": 2.0263211105713218e-05,
7799
+ "loss": 1.1625,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 1.0430711610486891,
7804
+ "grad_norm": 0.0,
7805
+ "learning_rate": 2.0232246578038145e-05,
7806
+ "loss": 1.1232,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 1.044007490636704,
7811
+ "grad_norm": 0.0,
7812
+ "learning_rate": 2.0201281493581457e-05,
7813
+ "loss": 1.1184,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 1.0449438202247192,
7818
+ "grad_norm": 0.0,
7819
+ "learning_rate": 2.0170315926578e-05,
7820
+ "loss": 1.1284,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 1.0458801498127341,
7825
+ "grad_norm": 0.0,
7826
+ "learning_rate": 2.0139349951263783e-05,
7827
+ "loss": 1.1369,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 1.046816479400749,
7832
+ "grad_norm": 0.0,
7833
+ "learning_rate": 2.010838364187579e-05,
7834
+ "loss": 1.1234,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 1.047752808988764,
7839
+ "grad_norm": 0.0,
7840
+ "learning_rate": 2.0077417072651807e-05,
7841
+ "loss": 1.1382,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 1.048689138576779,
7846
+ "grad_norm": 0.0,
7847
+ "learning_rate": 2.004645031783024e-05,
7848
+ "loss": 1.1416,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 1.049625468164794,
7853
+ "grad_norm": 0.0,
7854
+ "learning_rate": 2.001548345164995e-05,
7855
+ "loss": 1.1364,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 1.050561797752809,
7860
+ "grad_norm": 0.0,
7861
+ "learning_rate": 1.9984516548350053e-05,
7862
+ "loss": 1.1506,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 1.051498127340824,
7867
+ "grad_norm": 0.0,
7868
+ "learning_rate": 1.9953549682169767e-05,
7869
+ "loss": 1.1834,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 1.0524344569288389,
7874
+ "grad_norm": 0.0,
7875
+ "learning_rate": 1.9922582927348203e-05,
7876
+ "loss": 1.1532,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 1.053370786516854,
7881
+ "grad_norm": 0.0,
7882
+ "learning_rate": 1.9891616358124217e-05,
7883
+ "loss": 1.1567,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 1.054307116104869,
7888
+ "grad_norm": 0.0,
7889
+ "learning_rate": 1.9860650048736224e-05,
7890
+ "loss": 1.1665,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 1.0552434456928839,
7895
+ "grad_norm": 0.0,
7896
+ "learning_rate": 1.982968407342201e-05,
7897
+ "loss": 1.1224,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 1.0561797752808988,
7902
+ "grad_norm": 0.0,
7903
+ "learning_rate": 1.9798718506418546e-05,
7904
+ "loss": 1.1162,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 1.057116104868914,
7909
+ "grad_norm": 0.0,
7910
+ "learning_rate": 1.976775342196186e-05,
7911
+ "loss": 1.1807,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 1.0580524344569289,
7916
+ "grad_norm": 0.0,
7917
+ "learning_rate": 1.973678889428679e-05,
7918
+ "loss": 1.126,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 1.0589887640449438,
7923
+ "grad_norm": 0.0,
7924
+ "learning_rate": 1.9705824997626843e-05,
7925
+ "loss": 1.1369,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 1.0599250936329587,
7930
+ "grad_norm": 0.0,
7931
+ "learning_rate": 1.9674861806214044e-05,
7932
+ "loss": 1.2066,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 1.0608614232209739,
7937
+ "grad_norm": 0.0,
7938
+ "learning_rate": 1.9643899394278686e-05,
7939
+ "loss": 1.1466,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 1.0617977528089888,
7944
+ "grad_norm": 0.0,
7945
+ "learning_rate": 1.961293783604921e-05,
7946
+ "loss": 1.1395,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 1.0627340823970037,
7951
+ "grad_norm": 0.0,
7952
+ "learning_rate": 1.9581977205752028e-05,
7953
+ "loss": 1.1214,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 1.0636704119850187,
7958
+ "grad_norm": 0.0,
7959
+ "learning_rate": 1.95510175776113e-05,
7960
+ "loss": 1.1134,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 1.0646067415730338,
7965
+ "grad_norm": 0.0,
7966
+ "learning_rate": 1.9520059025848787e-05,
7967
+ "loss": 1.1354,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 1.0655430711610487,
7972
+ "grad_norm": 0.0,
7973
+ "learning_rate": 1.9489101624683697e-05,
7974
+ "loss": 1.1322,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 1.0664794007490637,
7979
+ "grad_norm": 0.0,
7980
+ "learning_rate": 1.945814544833245e-05,
7981
+ "loss": 1.1701,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 1.0674157303370786,
7986
+ "grad_norm": 0.0,
7987
+ "learning_rate": 1.942719057100853e-05,
7988
+ "loss": 1.1884,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 1.0683520599250937,
7993
+ "grad_norm": 0.0,
7994
+ "learning_rate": 1.9396237066922335e-05,
7995
+ "loss": 1.1579,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 1.0692883895131087,
8000
+ "grad_norm": 0.0,
8001
+ "learning_rate": 1.9365285010280942e-05,
8002
+ "loss": 1.1618,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 1.0702247191011236,
8007
+ "grad_norm": 0.0,
8008
+ "learning_rate": 1.9334334475287963e-05,
8009
+ "loss": 1.0985,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 1.0711610486891385,
8014
+ "grad_norm": 0.0,
8015
+ "learning_rate": 1.9303385536143383e-05,
8016
+ "loss": 1.084,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 1.0720973782771535,
8021
+ "grad_norm": 0.0,
8022
+ "learning_rate": 1.9272438267043338e-05,
8023
+ "loss": 1.152,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 1.0730337078651686,
8028
+ "grad_norm": 0.0,
8029
+ "learning_rate": 1.9241492742179952e-05,
8030
+ "loss": 1.1679,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 1.0739700374531835,
8035
+ "grad_norm": 0.0,
8036
+ "learning_rate": 1.9210549035741205e-05,
8037
+ "loss": 1.149,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 1.0749063670411985,
8042
+ "grad_norm": 0.0,
8043
+ "learning_rate": 1.9179607221910687e-05,
8044
+ "loss": 1.1561,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 1.0758426966292134,
8049
+ "grad_norm": 0.0,
8050
+ "learning_rate": 1.9148667374867453e-05,
8051
+ "loss": 1.1496,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 1.0767790262172285,
8056
+ "grad_norm": 0.0,
8057
+ "learning_rate": 1.9117729568785864e-05,
8058
+ "loss": 1.1308,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 1.0777153558052435,
8063
+ "grad_norm": 0.0,
8064
+ "learning_rate": 1.9086793877835364e-05,
8065
+ "loss": 1.1308,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 1.0786516853932584,
8070
+ "grad_norm": 0.0,
8071
+ "learning_rate": 1.9055860376180334e-05,
8072
+ "loss": 1.1575,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 1.0795880149812733,
8077
+ "grad_norm": 0.0,
8078
+ "learning_rate": 1.902492913797991e-05,
8079
+ "loss": 1.0963,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 1.0805243445692885,
8084
+ "grad_norm": 0.0,
8085
+ "learning_rate": 1.899400023738779e-05,
8086
+ "loss": 1.1545,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 1.0814606741573034,
8091
+ "grad_norm": 0.0,
8092
+ "learning_rate": 1.8963073748552104e-05,
8093
+ "loss": 1.1085,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 1.0823970037453183,
8098
+ "grad_norm": 0.0,
8099
+ "learning_rate": 1.8932149745615153e-05,
8100
+ "loss": 1.1315,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 1.0833333333333333,
8105
+ "grad_norm": 0.0,
8106
+ "learning_rate": 1.8901228302713297e-05,
8107
+ "loss": 1.157,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 1.0842696629213484,
8112
+ "grad_norm": 0.0,
8113
+ "learning_rate": 1.887030949397677e-05,
8114
+ "loss": 1.1458,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 1.0852059925093633,
8119
+ "grad_norm": 0.0,
8120
+ "learning_rate": 1.883939339352948e-05,
8121
+ "loss": 1.1097,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 1.0861423220973783,
8126
+ "grad_norm": 0.0,
8127
+ "learning_rate": 1.8808480075488837e-05,
8128
+ "loss": 1.1668,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 1.0870786516853932,
8133
+ "grad_norm": 0.0,
8134
+ "learning_rate": 1.8777569613965597e-05,
8135
+ "loss": 1.1657,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 1.0880149812734083,
8140
+ "grad_norm": 0.0,
8141
+ "learning_rate": 1.8746662083063656e-05,
8142
+ "loss": 1.1379,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 1.0889513108614233,
8147
+ "grad_norm": 0.0,
8148
+ "learning_rate": 1.8715757556879873e-05,
8149
+ "loss": 1.1593,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 1.0898876404494382,
8154
+ "grad_norm": 0.0,
8155
+ "learning_rate": 1.8684856109503932e-05,
8156
+ "loss": 1.1339,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 1.0908239700374531,
8161
+ "grad_norm": 0.0,
8162
+ "learning_rate": 1.865395781501812e-05,
8163
+ "loss": 1.0974,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 1.0917602996254683,
8168
+ "grad_norm": 0.0,
8169
+ "learning_rate": 1.8623062747497154e-05,
8170
+ "loss": 1.1288,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 1.0926966292134832,
8175
+ "grad_norm": 0.0,
8176
+ "learning_rate": 1.859217098100805e-05,
8177
+ "loss": 1.1327,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 1.0936329588014981,
8182
+ "grad_norm": 0.0,
8183
+ "learning_rate": 1.8561282589609865e-05,
8184
+ "loss": 1.1578,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 1.094569288389513,
8189
+ "grad_norm": 0.0,
8190
+ "learning_rate": 1.853039764735359e-05,
8191
+ "loss": 1.1472,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 1.095505617977528,
8196
+ "grad_norm": 0.0,
8197
+ "learning_rate": 1.8499516228281954e-05,
8198
+ "loss": 1.1581,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 1.0964419475655431,
8203
+ "grad_norm": 0.0,
8204
+ "learning_rate": 1.8468638406429226e-05,
8205
+ "loss": 1.1156,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 1.097378277153558,
8210
+ "grad_norm": 0.0,
8211
+ "learning_rate": 1.8437764255821043e-05,
8212
+ "loss": 1.1533,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 1.098314606741573,
8217
+ "grad_norm": 0.0,
8218
+ "learning_rate": 1.8406893850474272e-05,
8219
+ "loss": 1.2105,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 1.099250936329588,
8224
+ "grad_norm": 0.0,
8225
+ "learning_rate": 1.8376027264396766e-05,
8226
+ "loss": 1.1536,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 1.100187265917603,
8231
+ "grad_norm": 0.0,
8232
+ "learning_rate": 1.8345164571587245e-05,
8233
+ "loss": 1.102,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 1.101123595505618,
8238
+ "grad_norm": 0.0,
8239
+ "learning_rate": 1.8314305846035084e-05,
8240
+ "loss": 1.1133,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 1.102059925093633,
8245
+ "grad_norm": 0.0,
8246
+ "learning_rate": 1.828345116172016e-05,
8247
+ "loss": 1.1443,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 1.1029962546816479,
8252
+ "grad_norm": 0.0,
8253
+ "learning_rate": 1.8252600592612634e-05,
8254
+ "loss": 1.1128,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 1.103932584269663,
8259
+ "grad_norm": 0.0,
8260
+ "learning_rate": 1.822175421267284e-05,
8261
+ "loss": 1.1466,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 1.104868913857678,
8266
+ "grad_norm": 0.0,
8267
+ "learning_rate": 1.8190912095851033e-05,
8268
+ "loss": 1.1,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 1.1058052434456929,
8273
+ "grad_norm": 0.0,
8274
+ "learning_rate": 1.816007431608727e-05,
8275
+ "loss": 1.1727,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 1.1067415730337078,
8280
+ "grad_norm": 0.0,
8281
+ "learning_rate": 1.8129240947311208e-05,
8282
+ "loss": 1.1262,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 1.107677902621723,
8287
+ "grad_norm": 0.0,
8288
+ "learning_rate": 1.8098412063441923e-05,
8289
+ "loss": 1.14,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 1.1086142322097379,
8294
+ "grad_norm": 0.0,
8295
+ "learning_rate": 1.8067587738387725e-05,
8296
+ "loss": 1.1644,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 1.1095505617977528,
8301
+ "grad_norm": 0.0,
8302
+ "learning_rate": 1.8036768046046038e-05,
8303
+ "loss": 1.1326,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 1.1104868913857677,
8308
+ "grad_norm": 0.0,
8309
+ "learning_rate": 1.8005953060303133e-05,
8310
+ "loss": 1.1411,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 1.1114232209737827,
8315
+ "grad_norm": 0.0,
8316
+ "learning_rate": 1.797514285503402e-05,
8317
+ "loss": 1.1796,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 1.1123595505617978,
8322
+ "grad_norm": 0.0,
8323
+ "learning_rate": 1.7944337504102258e-05,
8324
+ "loss": 1.1085,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 1.1132958801498127,
8329
+ "grad_norm": 0.0,
8330
+ "learning_rate": 1.7913537081359746e-05,
8331
+ "loss": 1.1831,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 1.1142322097378277,
8336
+ "grad_norm": 0.0,
8337
+ "learning_rate": 1.7882741660646572e-05,
8338
+ "loss": 1.1521,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 1.1151685393258428,
8343
+ "grad_norm": 0.0,
8344
+ "learning_rate": 1.7851951315790848e-05,
8345
+ "loss": 1.1385,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 1.1161048689138577,
8350
+ "grad_norm": 0.0,
8351
+ "learning_rate": 1.782116612060851e-05,
8352
+ "loss": 1.1865,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 1.1170411985018727,
8357
+ "grad_norm": 0.0,
8358
+ "learning_rate": 1.7790386148903134e-05,
8359
+ "loss": 1.0923,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 1.1179775280898876,
8364
+ "grad_norm": 0.0,
8365
+ "learning_rate": 1.77596114744658e-05,
8366
+ "loss": 1.1301,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 1.1189138576779025,
8371
+ "grad_norm": 0.0,
8372
+ "learning_rate": 1.7728842171074865e-05,
8373
+ "loss": 1.117,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 1.1198501872659177,
8378
+ "grad_norm": 0.0,
8379
+ "learning_rate": 1.7698078312495813e-05,
8380
+ "loss": 1.1607,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 1.1207865168539326,
8385
+ "grad_norm": 0.0,
8386
+ "learning_rate": 1.766731997248109e-05,
8387
+ "loss": 1.1629,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 1.1217228464419475,
8392
+ "grad_norm": 0.0,
8393
+ "learning_rate": 1.7636567224769906e-05,
8394
+ "loss": 1.0561,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 1.1226591760299625,
8399
+ "grad_norm": 0.0,
8400
+ "learning_rate": 1.760582014308804e-05,
8401
+ "loss": 1.1449,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 1.1235955056179776,
8406
+ "grad_norm": 0.0,
8407
+ "learning_rate": 1.7575078801147736e-05,
8408
+ "loss": 1.1362,
8409
+ "step": 1200
8410
  }
8411
  ],
8412
  "logging_steps": 1,
 
8426
  "attributes": {}
8427
  }
8428
  },
8429
+ "total_flos": 3.925805532929065e+18,
8430
  "train_batch_size": 8,
8431
  "trial_name": null,
8432
  "trial_params": null