diaenra commited on
Commit
e517673
·
verified ·
1 Parent(s): ffb0e6c

Training in progress, step 1434, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5e045bb674d58cfe7928a81a8ad208ae0fb62c1609600a5bed46a26c1577e923
3
  size 3664864144
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:309b5b8c9ac4b830a70f6fab0898dedbcf22d89e2c8dd2e39b1078a8bfd07917
3
  size 3664864144
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9fb138ad9d8bf73327d62f448bb1975617912be6f2bee695950c231dcb1b2ba
3
  size 7330126728
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0419df361bfd3bf52439d41108b5b608f9c17add6c391f3cd21793e59a0a7bf7
3
  size 7330126728
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a0fb35064dc510fd6e2c582620e1a16b7105931accee1fe7deeb76d77ff69f51
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:821bb6d17fcad1256b8d0e158f027f5e92af17c9455cff930641be7720551348
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8ae2b28c475cc7471216768d33b716220b3af68708d3bf54e85bcb8e182af7c0
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3234d47291be091ba5e96799eacd38272127c97f6037585624843f0ee85c4d82
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7734627831715211,
5
  "eval_steps": 500,
6
- "global_step": 1195,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8372,6 +8372,1679 @@
8372
  "learning_rate": 1.3790573988406074e-05,
8373
  "loss": 0.0,
8374
  "step": 1195
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8375
  }
8376
  ],
8377
  "logging_steps": 1,
@@ -8391,7 +10064,7 @@
8391
  "attributes": {}
8392
  }
8393
  },
8394
- "total_flos": 3.502503261728932e+18,
8395
  "train_batch_size": 4,
8396
  "trial_name": null,
8397
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9281553398058252,
5
  "eval_steps": 500,
6
+ "global_step": 1434,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8372
  "learning_rate": 1.3790573988406074e-05,
8373
  "loss": 0.0,
8374
  "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.7741100323624596,
8378
+ "grad_norm": 2.7803118427982554e-05,
8379
+ "learning_rate": 1.3715696000155614e-05,
8380
+ "loss": 0.0,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.7747572815533981,
8385
+ "grad_norm": 2.7793254048447125e-05,
8386
+ "learning_rate": 1.3640989519231629e-05,
8387
+ "loss": 0.0,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.7754045307443366,
8392
+ "grad_norm": 2.8403444957803003e-05,
8393
+ "learning_rate": 1.3566454898754016e-05,
8394
+ "loss": 0.0,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.7760517799352751,
8399
+ "grad_norm": 3.0428616810240783e-05,
8400
+ "learning_rate": 1.3492092491030279e-05,
8401
+ "loss": 0.0,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.7766990291262136,
8406
+ "grad_norm": 2.8647311410168186e-05,
8407
+ "learning_rate": 1.3417902647553948e-05,
8408
+ "loss": 0.0,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.7773462783171521,
8413
+ "grad_norm": 3.5604185541160405e-05,
8414
+ "learning_rate": 1.3343885719002896e-05,
8415
+ "loss": 0.0,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.7779935275080906,
8420
+ "grad_norm": 3.1396841222885996e-05,
8421
+ "learning_rate": 1.3270042055237609e-05,
8422
+ "loss": 0.0,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.7786407766990291,
8427
+ "grad_norm": 3.281456883996725e-05,
8428
+ "learning_rate": 1.3196372005299656e-05,
8429
+ "loss": 0.0,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.7792880258899676,
8434
+ "grad_norm": 2.9937604267615825e-05,
8435
+ "learning_rate": 1.3122875917409916e-05,
8436
+ "loss": 0.0,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.7799352750809061,
8441
+ "grad_norm": 2.828240758390166e-05,
8442
+ "learning_rate": 1.3049554138967051e-05,
8443
+ "loss": 0.0,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.7805825242718447,
8448
+ "grad_norm": 3.450288932071999e-05,
8449
+ "learning_rate": 1.2976407016545744e-05,
8450
+ "loss": 0.0,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.7812297734627832,
8455
+ "grad_norm": 3.089702659053728e-05,
8456
+ "learning_rate": 1.2903434895895183e-05,
8457
+ "loss": 0.0,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.7818770226537217,
8462
+ "grad_norm": 3.3058688131859526e-05,
8463
+ "learning_rate": 1.2830638121937289e-05,
8464
+ "loss": 0.0,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.7825242718446602,
8469
+ "grad_norm": 3.49712063325569e-05,
8470
+ "learning_rate": 1.275801703876524e-05,
8471
+ "loss": 0.0,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.7831715210355987,
8476
+ "grad_norm": 3.258398282923736e-05,
8477
+ "learning_rate": 1.2685571989641698e-05,
8478
+ "loss": 0.0,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.7838187702265372,
8483
+ "grad_norm": 3.234569157939404e-05,
8484
+ "learning_rate": 1.2613303316997288e-05,
8485
+ "loss": 0.0,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.7844660194174757,
8490
+ "grad_norm": 2.958671575470362e-05,
8491
+ "learning_rate": 1.2541211362428962e-05,
8492
+ "loss": 0.0,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.7851132686084142,
8497
+ "grad_norm": 2.8513155484688468e-05,
8498
+ "learning_rate": 1.246929646669831e-05,
8499
+ "loss": 0.0,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.7857605177993527,
8504
+ "grad_norm": 3.2108306186273694e-05,
8505
+ "learning_rate": 1.2397558969730077e-05,
8506
+ "loss": 0.0,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.7864077669902912,
8511
+ "grad_norm": 3.305998325231485e-05,
8512
+ "learning_rate": 1.2325999210610423e-05,
8513
+ "loss": 0.0,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.7870550161812297,
8518
+ "grad_norm": 2.8868706067441963e-05,
8519
+ "learning_rate": 1.2254617527585433e-05,
8520
+ "loss": 0.0,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.7877022653721683,
8525
+ "grad_norm": 3.401190770091489e-05,
8526
+ "learning_rate": 1.2183414258059417e-05,
8527
+ "loss": 0.0,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.7883495145631068,
8532
+ "grad_norm": 2.9487531719496474e-05,
8533
+ "learning_rate": 1.2112389738593427e-05,
8534
+ "loss": 0.0,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.7889967637540453,
8539
+ "grad_norm": 3.0200997571228072e-05,
8540
+ "learning_rate": 1.2041544304903552e-05,
8541
+ "loss": 0.0,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.7896440129449838,
8546
+ "grad_norm": 2.9967310183565132e-05,
8547
+ "learning_rate": 1.1970878291859423e-05,
8548
+ "loss": 0.0,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.7902912621359224,
8553
+ "grad_norm": 3.139051841571927e-05,
8554
+ "learning_rate": 1.190039203348256e-05,
8555
+ "loss": 0.0,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.7909385113268609,
8560
+ "grad_norm": 3.090596874244511e-05,
8561
+ "learning_rate": 1.183008586294485e-05,
8562
+ "loss": 0.0,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.7915857605177994,
8567
+ "grad_norm": 3.282758916611783e-05,
8568
+ "learning_rate": 1.1759960112566953e-05,
8569
+ "loss": 0.0,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.7922330097087379,
8574
+ "grad_norm": 2.9495713533833623e-05,
8575
+ "learning_rate": 1.1690015113816689e-05,
8576
+ "loss": 0.0,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.7928802588996764,
8581
+ "grad_norm": 3.188411210430786e-05,
8582
+ "learning_rate": 1.1620251197307535e-05,
8583
+ "loss": 0.0,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.7935275080906149,
8588
+ "grad_norm": 3.187660331605002e-05,
8589
+ "learning_rate": 1.1550668692797062e-05,
8590
+ "loss": 0.0,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.7941747572815534,
8595
+ "grad_norm": 3.0207180316210724e-05,
8596
+ "learning_rate": 1.148126792918527e-05,
8597
+ "loss": 0.0,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.7948220064724919,
8602
+ "grad_norm": 2.8910977562190965e-05,
8603
+ "learning_rate": 1.1412049234513178e-05,
8604
+ "loss": 0.0,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.7954692556634304,
8609
+ "grad_norm": 3.139706313959323e-05,
8610
+ "learning_rate": 1.1343012935961206e-05,
8611
+ "loss": 0.0,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.7961165048543689,
8616
+ "grad_norm": 2.9498503863578662e-05,
8617
+ "learning_rate": 1.1274159359847591e-05,
8618
+ "loss": 0.0,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.7967637540453074,
8623
+ "grad_norm": 2.889409734052606e-05,
8624
+ "learning_rate": 1.1205488831626936e-05,
8625
+ "loss": 0.0,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.7974110032362459,
8630
+ "grad_norm": 2.7833795684273355e-05,
8631
+ "learning_rate": 1.1137001675888564e-05,
8632
+ "loss": 0.0,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.7980582524271844,
8637
+ "grad_norm": 2.9727289074799046e-05,
8638
+ "learning_rate": 1.1068698216355084e-05,
8639
+ "loss": 0.0,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.7987055016181229,
8644
+ "grad_norm": 2.9720979000558145e-05,
8645
+ "learning_rate": 1.100057877588081e-05,
8646
+ "loss": 0.0,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.7993527508090615,
8651
+ "grad_norm": 3.0549646908184513e-05,
8652
+ "learning_rate": 1.0932643676450205e-05,
8653
+ "loss": 0.0,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.8,
8658
+ "grad_norm": 2.8757727704942226e-05,
8659
+ "learning_rate": 1.0864893239176438e-05,
8660
+ "loss": 0.0,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.8006472491909385,
8665
+ "grad_norm": 2.9481703677447513e-05,
8666
+ "learning_rate": 1.0797327784299837e-05,
8667
+ "loss": 0.0,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.801294498381877,
8672
+ "grad_norm": 3.140431363135576e-05,
8673
+ "learning_rate": 1.0729947631186276e-05,
8674
+ "loss": 0.0,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.8019417475728156,
8679
+ "grad_norm": 2.90126190520823e-05,
8680
+ "learning_rate": 1.066275309832584e-05,
8681
+ "loss": 0.0,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.8025889967637541,
8686
+ "grad_norm": 2.924008913396392e-05,
8687
+ "learning_rate": 1.0595744503331207e-05,
8688
+ "loss": 0.0,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.8032362459546926,
8693
+ "grad_norm": 3.188064874848351e-05,
8694
+ "learning_rate": 1.0528922162936134e-05,
8695
+ "loss": 0.0,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.8038834951456311,
8700
+ "grad_norm": 2.780007525871042e-05,
8701
+ "learning_rate": 1.0462286392994058e-05,
8702
+ "loss": 0.0,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.8045307443365696,
8707
+ "grad_norm": 2.7808411687146872e-05,
8708
+ "learning_rate": 1.0395837508476486e-05,
8709
+ "loss": 0.0,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.8051779935275081,
8714
+ "grad_norm": 2.9482629543053918e-05,
8715
+ "learning_rate": 1.0329575823471588e-05,
8716
+ "loss": 0.0,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.8058252427184466,
8721
+ "grad_norm": 2.779496571747586e-05,
8722
+ "learning_rate": 1.0263501651182706e-05,
8723
+ "loss": 0.0,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.8064724919093851,
8728
+ "grad_norm": 2.971193680423312e-05,
8729
+ "learning_rate": 1.0197615303926794e-05,
8730
+ "loss": 0.0,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.8071197411003236,
8735
+ "grad_norm": 2.7200567274121568e-05,
8736
+ "learning_rate": 1.0131917093133075e-05,
8737
+ "loss": 0.0,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.8077669902912621,
8742
+ "grad_norm": 2.7336840503267013e-05,
8743
+ "learning_rate": 1.0066407329341443e-05,
8744
+ "loss": 0.0,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.8084142394822007,
8749
+ "grad_norm": 3.140536500723101e-05,
8750
+ "learning_rate": 1.0001086322201048e-05,
8751
+ "loss": 0.0,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.8090614886731392,
8756
+ "grad_norm": 3.138635292998515e-05,
8757
+ "learning_rate": 9.935954380468859e-06,
8758
+ "loss": 0.0,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.8097087378640777,
8763
+ "grad_norm": 3.832921720459126e-05,
8764
+ "learning_rate": 9.87101181200818e-06,
8765
+ "loss": 0.0,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.8103559870550162,
8770
+ "grad_norm": 2.887231130443979e-05,
8771
+ "learning_rate": 9.806258923787154e-06,
8772
+ "loss": 0.0,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.8110032362459547,
8777
+ "grad_norm": 3.210567228961736e-05,
8778
+ "learning_rate": 9.7416960218774e-06,
8779
+ "loss": 0.0,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.8116504854368932,
8784
+ "grad_norm": 3.331467814859934e-05,
8785
+ "learning_rate": 9.67732341145246e-06,
8786
+ "loss": 0.0,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.8122977346278317,
8791
+ "grad_norm": 2.97059250442544e-05,
8792
+ "learning_rate": 9.613141396786462e-06,
8793
+ "loss": 0.0,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.8129449838187702,
8798
+ "grad_norm": 3.066575663979165e-05,
8799
+ "learning_rate": 9.549150281252633e-06,
8800
+ "loss": 0.0,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.8135922330097087,
8805
+ "grad_norm": 2.9601724236272275e-05,
8806
+ "learning_rate": 9.48535036732181e-06,
8807
+ "loss": 0.0,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.8142394822006472,
8812
+ "grad_norm": 2.846097959263716e-05,
8813
+ "learning_rate": 9.421741956561137e-06,
8814
+ "loss": 0.0,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.8148867313915857,
8819
+ "grad_norm": 3.0182511181919836e-05,
8820
+ "learning_rate": 9.358325349632514e-06,
8821
+ "loss": 0.0,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.8155339805825242,
8826
+ "grad_norm": 3.1620755180483684e-05,
8827
+ "learning_rate": 9.295100846291238e-06,
8828
+ "loss": 0.0,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.8161812297734627,
8833
+ "grad_norm": 3.21077459375374e-05,
8834
+ "learning_rate": 9.232068745384603e-06,
8835
+ "loss": 0.0,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.8168284789644013,
8840
+ "grad_norm": 3.1390874937642366e-05,
8841
+ "learning_rate": 9.16922934485046e-06,
8842
+ "loss": 0.0,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.8174757281553398,
8847
+ "grad_norm": 3.0309969588415697e-05,
8848
+ "learning_rate": 9.106582941715768e-06,
8849
+ "loss": 0.0,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.8181229773462784,
8854
+ "grad_norm": 2.8271257178857923e-05,
8855
+ "learning_rate": 9.044129832095299e-06,
8856
+ "loss": 0.0,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.8187702265372169,
8861
+ "grad_norm": 7.29700768715702e-05,
8862
+ "learning_rate": 8.981870311190099e-06,
8863
+ "loss": 0.0,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.8194174757281554,
8868
+ "grad_norm": 3.4984001104021445e-05,
8869
+ "learning_rate": 8.91980467328623e-06,
8870
+ "loss": 0.0,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.8200647249190939,
8875
+ "grad_norm": 2.912871968874242e-05,
8876
+ "learning_rate": 8.857933211753289e-06,
8877
+ "loss": 0.0,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.8207119741100324,
8882
+ "grad_norm": 3.0196642910595983e-05,
8883
+ "learning_rate": 8.796256219043042e-06,
8884
+ "loss": 0.0,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.8213592233009709,
8889
+ "grad_norm": 2.9139126127120107e-05,
8890
+ "learning_rate": 8.734773986688032e-06,
8891
+ "loss": 0.0,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.8220064724919094,
8896
+ "grad_norm": 3.0069269996602088e-05,
8897
+ "learning_rate": 8.673486805300263e-06,
8898
+ "loss": 0.0,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.8226537216828479,
8903
+ "grad_norm": 3.189206836395897e-05,
8904
+ "learning_rate": 8.61239496456973e-06,
8905
+ "loss": 0.0,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.8233009708737864,
8910
+ "grad_norm": 3.237631972297095e-05,
8911
+ "learning_rate": 8.551498753263133e-06,
8912
+ "loss": 0.0,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.8239482200647249,
8917
+ "grad_norm": 3.1884130294201896e-05,
8918
+ "learning_rate": 8.490798459222476e-06,
8919
+ "loss": 0.0,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.8245954692556634,
8924
+ "grad_norm": 3.139725959044881e-05,
8925
+ "learning_rate": 8.430294369363667e-06,
8926
+ "loss": 0.0,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.8252427184466019,
8931
+ "grad_norm": 3.044573895749636e-05,
8932
+ "learning_rate": 8.369986769675269e-06,
8933
+ "loss": 0.0,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.8258899676375404,
8938
+ "grad_norm": 3.236419433960691e-05,
8939
+ "learning_rate": 8.309875945217022e-06,
8940
+ "loss": 0.0,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.8265372168284789,
8945
+ "grad_norm": 3.04457080346765e-05,
8946
+ "learning_rate": 8.249962180118581e-06,
8947
+ "loss": 0.0,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.8271844660194175,
8952
+ "grad_norm": 3.3080803405027837e-05,
8953
+ "learning_rate": 8.190245757578175e-06,
8954
+ "loss": 0.0,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.827831715210356,
8959
+ "grad_norm": 3.0458842957159504e-05,
8960
+ "learning_rate": 8.130726959861201e-06,
8961
+ "loss": 0.0,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.8284789644012945,
8966
+ "grad_norm": 2.9737420845776796e-05,
8967
+ "learning_rate": 8.071406068298926e-06,
8968
+ "loss": 0.0,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.829126213592233,
8973
+ "grad_norm": 2.828111610142514e-05,
8974
+ "learning_rate": 8.012283363287205e-06,
8975
+ "loss": 0.0,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.8297734627831715,
8980
+ "grad_norm": 2.9597998945973814e-05,
8981
+ "learning_rate": 7.95335912428506e-06,
8982
+ "loss": 0.0,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.83042071197411,
8987
+ "grad_norm": 2.8280543119763024e-05,
8988
+ "learning_rate": 7.894633629813458e-06,
8989
+ "loss": 0.0,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.8310679611650486,
8994
+ "grad_norm": 2.780561408144422e-05,
8995
+ "learning_rate": 7.836107157453937e-06,
8996
+ "loss": 0.0,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.8317152103559871,
9001
+ "grad_norm": 3.162684879498556e-05,
9002
+ "learning_rate": 7.77777998384726e-06,
9003
+ "loss": 0.0,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.8323624595469256,
9008
+ "grad_norm": 2.8393124011927284e-05,
9009
+ "learning_rate": 7.719652384692216e-06,
9010
+ "loss": 0.0,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.8330097087378641,
9015
+ "grad_norm": 2.7938367566093802e-05,
9016
+ "learning_rate": 7.661724634744221e-06,
9017
+ "loss": 0.0,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.8336569579288026,
9022
+ "grad_norm": 2.7803946068161167e-05,
9023
+ "learning_rate": 7.6039970078140345e-06,
9024
+ "loss": 0.0,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.8343042071197411,
9029
+ "grad_norm": 2.935515840363223e-05,
9030
+ "learning_rate": 7.5464697767665234e-06,
9031
+ "loss": 0.0,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.8349514563106796,
9036
+ "grad_norm": 2.8421714887372218e-05,
9037
+ "learning_rate": 7.489143213519301e-06,
9038
+ "loss": 0.0,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.8355987055016181,
9043
+ "grad_norm": 2.9472732421709225e-05,
9044
+ "learning_rate": 7.432017589041463e-06,
9045
+ "loss": 0.0,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.8362459546925566,
9050
+ "grad_norm": 3.0081349905231036e-05,
9051
+ "learning_rate": 7.375093173352348e-06,
9052
+ "loss": 0.0,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.8368932038834952,
9057
+ "grad_norm": 2.7322215828462504e-05,
9058
+ "learning_rate": 7.3183702355202e-06,
9059
+ "loss": 0.0,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.8375404530744337,
9064
+ "grad_norm": 2.9117414669599384e-05,
9065
+ "learning_rate": 7.26184904366094e-06,
9066
+ "loss": 0.0,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.8381877022653722,
9071
+ "grad_norm": 2.838773616531398e-05,
9072
+ "learning_rate": 7.205529864936883e-06,
9073
+ "loss": 0.0,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.8388349514563107,
9078
+ "grad_norm": 2.8870774258393794e-05,
9079
+ "learning_rate": 7.149412965555463e-06,
9080
+ "loss": 0.0,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.8394822006472492,
9085
+ "grad_norm": 2.9239281502668746e-05,
9086
+ "learning_rate": 7.093498610768001e-06,
9087
+ "loss": 0.0,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.8401294498381877,
9092
+ "grad_norm": 2.780013528536074e-05,
9093
+ "learning_rate": 7.0377870648684394e-06,
9094
+ "loss": 0.0,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.8407766990291262,
9099
+ "grad_norm": 2.7307174605084583e-05,
9100
+ "learning_rate": 6.9822785911920766e-06,
9101
+ "loss": 0.0,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.8414239482200647,
9106
+ "grad_norm": 2.685461367946118e-05,
9107
+ "learning_rate": 6.926973452114338e-06,
9108
+ "loss": 0.0,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.8420711974110032,
9113
+ "grad_norm": 3.219491190975532e-05,
9114
+ "learning_rate": 6.871871909049554e-06,
9115
+ "loss": 0.0,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.8427184466019417,
9120
+ "grad_norm": 3.353790452820249e-05,
9121
+ "learning_rate": 6.816974222449674e-06,
9122
+ "loss": 0.0,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.8433656957928802,
9127
+ "grad_norm": 3.2828796975081787e-05,
9128
+ "learning_rate": 6.762280651803105e-06,
9129
+ "loss": 0.0,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.8440129449838187,
9134
+ "grad_norm": 3.161135100526735e-05,
9135
+ "learning_rate": 6.7077914556334e-06,
9136
+ "loss": 0.0,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.8446601941747572,
9141
+ "grad_norm": 3.0181634429027326e-05,
9142
+ "learning_rate": 6.653506891498118e-06,
9143
+ "loss": 0.0,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.8453074433656957,
9148
+ "grad_norm": 3.0183506169123575e-05,
9149
+ "learning_rate": 6.599427215987574e-06,
9150
+ "loss": 0.0,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.8459546925566344,
9155
+ "grad_norm": 2.7570862584980205e-05,
9156
+ "learning_rate": 6.5455526847235825e-06,
9157
+ "loss": 0.0,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.8466019417475729,
9162
+ "grad_norm": 2.912186027970165e-05,
9163
+ "learning_rate": 6.49188355235833e-06,
9164
+ "loss": 0.0,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.8472491909385114,
9169
+ "grad_norm": 5.2388324547791854e-05,
9170
+ "learning_rate": 6.438420072573126e-06,
9171
+ "loss": 0.0,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.8478964401294499,
9176
+ "grad_norm": 2.9694594559259713e-05,
9177
+ "learning_rate": 6.3851624980771905e-06,
9178
+ "loss": 0.0,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.8485436893203884,
9183
+ "grad_norm": 3.2102074328577146e-05,
9184
+ "learning_rate": 6.332111080606467e-06,
9185
+ "loss": 0.0,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.8491909385113269,
9190
+ "grad_norm": 3.619419294409454e-05,
9191
+ "learning_rate": 6.279266070922496e-06,
9192
+ "loss": 0.0,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.8498381877022654,
9197
+ "grad_norm": 3.186412141076289e-05,
9198
+ "learning_rate": 6.226627718811118e-06,
9199
+ "loss": 0.0,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.8504854368932039,
9204
+ "grad_norm": 3.2827385439304635e-05,
9205
+ "learning_rate": 6.1741962730814e-06,
9206
+ "loss": 0.0,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.8511326860841424,
9211
+ "grad_norm": 2.8862363251391798e-05,
9212
+ "learning_rate": 6.121971981564367e-06,
9213
+ "loss": 0.0,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.8517799352750809,
9218
+ "grad_norm": 2.9111837648088112e-05,
9219
+ "learning_rate": 6.069955091111912e-06,
9220
+ "loss": 0.0,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.8524271844660194,
9225
+ "grad_norm": 2.9940256354166195e-05,
9226
+ "learning_rate": 6.018145847595585e-06,
9227
+ "loss": 0.0,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.8530744336569579,
9232
+ "grad_norm": 3.0056986361159943e-05,
9233
+ "learning_rate": 5.966544495905408e-06,
9234
+ "loss": 0.0,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.8537216828478964,
9239
+ "grad_norm": 3.307464066892862e-05,
9240
+ "learning_rate": 5.915151279948788e-06,
9241
+ "loss": 0.0,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.8543689320388349,
9246
+ "grad_norm": 3.189213020959869e-05,
9247
+ "learning_rate": 5.863966442649327e-06,
9248
+ "loss": 0.0,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.8550161812297734,
9253
+ "grad_norm": 2.996783223352395e-05,
9254
+ "learning_rate": 5.812990225945603e-06,
9255
+ "loss": 0.0,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.855663430420712,
9260
+ "grad_norm": 3.2352731068385765e-05,
9261
+ "learning_rate": 5.762222870790163e-06,
9262
+ "loss": 0.0,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.8563106796116505,
9267
+ "grad_norm": 3.427658521104604e-05,
9268
+ "learning_rate": 5.711664617148299e-06,
9269
+ "loss": 0.0,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.856957928802589,
9274
+ "grad_norm": 3.427062256378122e-05,
9275
+ "learning_rate": 5.6613157039969055e-06,
9276
+ "loss": 0.0,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.8576051779935275,
9281
+ "grad_norm": 3.057840876863338e-05,
9282
+ "learning_rate": 5.611176369323412e-06,
9283
+ "loss": 0.0,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.858252427184466,
9288
+ "grad_norm": 3.3830769098130986e-05,
9289
+ "learning_rate": 5.56124685012458e-06,
9290
+ "loss": 0.0,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.8588996763754045,
9295
+ "grad_norm": 3.0684615921927616e-05,
9296
+ "learning_rate": 5.511527382405451e-06,
9297
+ "loss": 0.0,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.859546925566343,
9302
+ "grad_norm": 2.877054976124782e-05,
9303
+ "learning_rate": 5.462018201178204e-06,
9304
+ "loss": 0.0,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.8601941747572815,
9309
+ "grad_norm": 2.8292075512581505e-05,
9310
+ "learning_rate": 5.412719540461015e-06,
9311
+ "loss": 0.0,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.86084142394822,
9316
+ "grad_norm": 4.5770942961098626e-05,
9317
+ "learning_rate": 5.363631633277006e-06,
9318
+ "loss": 0.0,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.8614886731391586,
9323
+ "grad_norm": 2.9364460715441965e-05,
9324
+ "learning_rate": 5.314754711653125e-06,
9325
+ "loss": 0.0,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.8621359223300971,
9330
+ "grad_norm": 2.9971184630994685e-05,
9331
+ "learning_rate": 5.266089006618991e-06,
9332
+ "loss": 0.0,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.8627831715210356,
9337
+ "grad_norm": 3.090947211603634e-05,
9338
+ "learning_rate": 5.217634748205902e-06,
9339
+ "loss": 0.0,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.8634304207119741,
9344
+ "grad_norm": 2.972232505271677e-05,
9345
+ "learning_rate": 5.169392165445691e-06,
9346
+ "loss": 0.0,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.8640776699029126,
9351
+ "grad_norm": 2.7802563636214472e-05,
9352
+ "learning_rate": 5.121361486369625e-06,
9353
+ "loss": 0.0,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.8647249190938512,
9358
+ "grad_norm": 2.7798199880635366e-05,
9359
+ "learning_rate": 5.0735429380073865e-06,
9360
+ "loss": 0.0,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.8653721682847897,
9365
+ "grad_norm": 2.84150373772718e-05,
9366
+ "learning_rate": 5.025936746385928e-06,
9367
+ "loss": 0.0,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.8660194174757282,
9372
+ "grad_norm": 2.972891707031522e-05,
9373
+ "learning_rate": 4.978543136528474e-06,
9374
+ "loss": 0.0,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.8666666666666667,
9379
+ "grad_norm": 2.9013235689490102e-05,
9380
+ "learning_rate": 4.931362332453421e-06,
9381
+ "loss": 0.0,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.8673139158576052,
9386
+ "grad_norm": 2.887454320443794e-05,
9387
+ "learning_rate": 4.884394557173249e-06,
9388
+ "loss": 0.0,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.8679611650485437,
9393
+ "grad_norm": 3.425277827773243e-05,
9394
+ "learning_rate": 4.837640032693558e-06,
9395
+ "loss": 0.0,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.8686084142394822,
9400
+ "grad_norm": 2.8632548492169008e-05,
9401
+ "learning_rate": 4.791098980011921e-06,
9402
+ "loss": 0.0,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.8692556634304207,
9407
+ "grad_norm": 2.853093610610813e-05,
9408
+ "learning_rate": 4.744771619116872e-06,
9409
+ "loss": 0.0,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.8699029126213592,
9414
+ "grad_norm": 2.9239194191177376e-05,
9415
+ "learning_rate": 4.698658168986908e-06,
9416
+ "loss": 0.0,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.8705501618122977,
9421
+ "grad_norm": 2.6730338504421525e-05,
9422
+ "learning_rate": 4.652758847589416e-06,
9423
+ "loss": 0.0,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.8711974110032362,
9428
+ "grad_norm": 2.781052353384439e-05,
9429
+ "learning_rate": 4.607073871879613e-06,
9430
+ "loss": 0.0,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.8718446601941747,
9435
+ "grad_norm": 2.9233944587758742e-05,
9436
+ "learning_rate": 4.5616034577995955e-06,
9437
+ "loss": 0.0,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.8724919093851132,
9442
+ "grad_norm": 2.815485822793562e-05,
9443
+ "learning_rate": 4.5163478202772615e-06,
9444
+ "loss": 0.0,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.8731391585760517,
9449
+ "grad_norm": 2.8653046683757566e-05,
9450
+ "learning_rate": 4.471307173225292e-06,
9451
+ "loss": 0.0,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.8737864077669902,
9456
+ "grad_norm": 3.0307597626233473e-05,
9457
+ "learning_rate": 4.426481729540205e-06,
9458
+ "loss": 0.0,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.8744336569579289,
9463
+ "grad_norm": 3.496236968203448e-05,
9464
+ "learning_rate": 4.381871701101248e-06,
9465
+ "loss": 0.0,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.8750809061488674,
9470
+ "grad_norm": 3.211486182408407e-05,
9471
+ "learning_rate": 4.337477298769493e-06,
9472
+ "loss": 0.0,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.8757281553398059,
9477
+ "grad_norm": 2.8743703296640888e-05,
9478
+ "learning_rate": 4.293298732386786e-06,
9479
+ "loss": 0.0,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.8763754045307444,
9484
+ "grad_norm": 3.354837099323049e-05,
9485
+ "learning_rate": 4.249336210774746e-06,
9486
+ "loss": 0.0,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.8770226537216829,
9491
+ "grad_norm": 3.329403989482671e-05,
9492
+ "learning_rate": 4.205589941733834e-06,
9493
+ "loss": 0.0,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.8776699029126214,
9498
+ "grad_norm": 2.9112465199432336e-05,
9499
+ "learning_rate": 4.162060132042333e-06,
9500
+ "loss": 0.0,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.8783171521035599,
9505
+ "grad_norm": 3.116092921118252e-05,
9506
+ "learning_rate": 4.118746987455336e-06,
9507
+ "loss": 0.0,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.8789644012944984,
9512
+ "grad_norm": 3.0895193049218506e-05,
9513
+ "learning_rate": 4.075650712703849e-06,
9514
+ "loss": 0.0,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.8796116504854369,
9519
+ "grad_norm": 3.210348222637549e-05,
9520
+ "learning_rate": 4.032771511493782e-06,
9521
+ "loss": 0.0,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.8802588996763754,
9526
+ "grad_norm": 3.0547904316335917e-05,
9527
+ "learning_rate": 3.990109586504965e-06,
9528
+ "loss": 0.0,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.8809061488673139,
9533
+ "grad_norm": 2.946665154013317e-05,
9534
+ "learning_rate": 3.9476651393902494e-06,
9535
+ "loss": 0.0,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.8815533980582524,
9540
+ "grad_norm": 3.0193479688023217e-05,
9541
+ "learning_rate": 3.905438370774495e-06,
9542
+ "loss": 0.0,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.8822006472491909,
9547
+ "grad_norm": 3.0318025892484002e-05,
9548
+ "learning_rate": 3.8634294802536384e-06,
9549
+ "loss": 0.0,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.8828478964401294,
9554
+ "grad_norm": 3.162304710713215e-05,
9555
+ "learning_rate": 3.82163866639379e-06,
9556
+ "loss": 0.0,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.883495145631068,
9561
+ "grad_norm": 3.113932689302601e-05,
9562
+ "learning_rate": 3.7800661267302417e-06,
9563
+ "loss": 0.0,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.8841423948220065,
9568
+ "grad_norm": 3.0186189178493805e-05,
9569
+ "learning_rate": 3.7387120577665524e-06,
9570
+ "loss": 0.0,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.884789644012945,
9575
+ "grad_norm": 3.017430026375223e-05,
9576
+ "learning_rate": 3.69757665497365e-06,
9577
+ "loss": 0.0,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.8854368932038835,
9582
+ "grad_norm": 3.1866406061453745e-05,
9583
+ "learning_rate": 3.6566601127888344e-06,
9584
+ "loss": 0.0,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.886084142394822,
9589
+ "grad_norm": 2.9112245101714507e-05,
9590
+ "learning_rate": 3.615962624614938e-06,
9591
+ "loss": 0.0,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.8867313915857605,
9596
+ "grad_norm": 2.9124956199666485e-05,
9597
+ "learning_rate": 3.5754843828193716e-06,
9598
+ "loss": 0.0,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.887378640776699,
9603
+ "grad_norm": 3.236894553992897e-05,
9604
+ "learning_rate": 3.535225578733198e-06,
9605
+ "loss": 0.0,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.8880258899676375,
9610
+ "grad_norm": 3.188128903275356e-05,
9611
+ "learning_rate": 3.4951864026502854e-06,
9612
+ "loss": 0.0,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.888673139158576,
9617
+ "grad_norm": 3.475479024928063e-05,
9618
+ "learning_rate": 3.4553670438263408e-06,
9619
+ "loss": 0.0,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.8893203883495145,
9624
+ "grad_norm": 3.189170456607826e-05,
9625
+ "learning_rate": 3.41576769047805e-06,
9626
+ "loss": 0.0,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.889967637540453,
9631
+ "grad_norm": 3.0447605240624398e-05,
9632
+ "learning_rate": 3.376388529782215e-06,
9633
+ "loss": 0.0,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.8906148867313916,
9638
+ "grad_norm": 3.116185325779952e-05,
9639
+ "learning_rate": 3.3372297478748038e-06,
9640
+ "loss": 0.0,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.8912621359223301,
9645
+ "grad_norm": 2.9720120437559672e-05,
9646
+ "learning_rate": 3.2982915298501173e-06,
9647
+ "loss": 0.0,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.8919093851132686,
9652
+ "grad_norm": 3.618436312535778e-05,
9653
+ "learning_rate": 3.2595740597599234e-06,
9654
+ "loss": 0.0,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.8925566343042072,
9659
+ "grad_norm": 2.9376269594649784e-05,
9660
+ "learning_rate": 3.221077520612531e-06,
9661
+ "loss": 0.0,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.8932038834951457,
9666
+ "grad_norm": 3.2120238756760955e-05,
9667
+ "learning_rate": 3.1828020943719894e-06,
9668
+ "loss": 0.0,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.8938511326860842,
9673
+ "grad_norm": 3.238513454562053e-05,
9674
+ "learning_rate": 3.144747961957195e-06,
9675
+ "loss": 0.0,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.8944983818770227,
9680
+ "grad_norm": 3.115571234957315e-05,
9681
+ "learning_rate": 3.1069153032410147e-06,
9682
+ "loss": 0.0,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.8951456310679612,
9687
+ "grad_norm": 2.8277658202569e-05,
9688
+ "learning_rate": 3.069304297049508e-06,
9689
+ "loss": 0.0,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.8957928802588997,
9694
+ "grad_norm": 2.8890643079648726e-05,
9695
+ "learning_rate": 3.0319151211609886e-06,
9696
+ "loss": 0.0,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.8964401294498382,
9701
+ "grad_norm": 3.032093809451908e-05,
9702
+ "learning_rate": 2.9947479523052548e-06,
9703
+ "loss": 0.0,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.8970873786407767,
9708
+ "grad_norm": 3.0906725442036986e-05,
9709
+ "learning_rate": 2.9578029661627314e-06,
9710
+ "loss": 0.0,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.8977346278317152,
9715
+ "grad_norm": 3.1875537388259545e-05,
9716
+ "learning_rate": 2.921080337363624e-06,
9717
+ "loss": 0.0,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.8983818770226537,
9722
+ "grad_norm": 2.8284761356189847e-05,
9723
+ "learning_rate": 2.884580239487128e-06,
9724
+ "loss": 0.0,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.8990291262135922,
9729
+ "grad_norm": 2.9141221602912992e-05,
9730
+ "learning_rate": 2.8483028450605742e-06,
9731
+ "loss": 0.0,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.8996763754045307,
9736
+ "grad_norm": 2.780696377158165e-05,
9737
+ "learning_rate": 2.8122483255586252e-06,
9738
+ "loss": 0.0,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.9003236245954692,
9743
+ "grad_norm": 3.0303663152153604e-05,
9744
+ "learning_rate": 2.776416851402469e-06,
9745
+ "loss": 0.0,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.9009708737864077,
9750
+ "grad_norm": 2.9251741580083035e-05,
9751
+ "learning_rate": 2.7408085919590264e-06,
9752
+ "loss": 0.0,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.9016181229773462,
9757
+ "grad_norm": 2.935952397820074e-05,
9758
+ "learning_rate": 2.705423715540101e-06,
9759
+ "loss": 0.0,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.9022653721682848,
9764
+ "grad_norm": 3.0076322218519635e-05,
9765
+ "learning_rate": 2.670262389401651e-06,
9766
+ "loss": 0.0,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.9029126213592233,
9771
+ "grad_norm": 2.7805677746073343e-05,
9772
+ "learning_rate": 2.6353247797429535e-06,
9773
+ "loss": 0.0,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.9035598705501618,
9778
+ "grad_norm": 2.8380973162711598e-05,
9779
+ "learning_rate": 2.6006110517058144e-06,
9780
+ "loss": 0.0,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.9042071197411004,
9785
+ "grad_norm": 2.719420808716677e-05,
9786
+ "learning_rate": 2.566121369373836e-06,
9787
+ "loss": 0.0,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.9048543689320389,
9792
+ "grad_norm": 2.673549715836998e-05,
9793
+ "learning_rate": 2.531855895771579e-06,
9794
+ "loss": 0.0,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.9055016181229774,
9799
+ "grad_norm": 3.116455263807438e-05,
9800
+ "learning_rate": 2.4978147928638397e-06,
9801
+ "loss": 0.0,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.9061488673139159,
9806
+ "grad_norm": 2.9239681680337526e-05,
9807
+ "learning_rate": 2.463998221554875e-06,
9808
+ "loss": 0.0,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.9067961165048544,
9813
+ "grad_norm": 3.38866411766503e-05,
9814
+ "learning_rate": 2.430406341687608e-06,
9815
+ "loss": 0.0,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.9074433656957929,
9820
+ "grad_norm": 3.031195592484437e-05,
9821
+ "learning_rate": 2.3970393120429145e-06,
9822
+ "loss": 0.0,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.9080906148867314,
9827
+ "grad_norm": 3.054170520044863e-05,
9828
+ "learning_rate": 2.363897290338868e-06,
9829
+ "loss": 0.0,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.9087378640776699,
9834
+ "grad_norm": 2.8882692276965827e-05,
9835
+ "learning_rate": 2.3309804332299566e-06,
9836
+ "loss": 0.0,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.9093851132686084,
9841
+ "grad_norm": 2.8627364372368902e-05,
9842
+ "learning_rate": 2.2982888963063774e-06,
9843
+ "loss": 0.0,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.9100323624595469,
9848
+ "grad_norm": 2.7794889319920912e-05,
9849
+ "learning_rate": 2.2658228340933117e-06,
9850
+ "loss": 0.0,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.9106796116504854,
9855
+ "grad_norm": 3.1401821615872905e-05,
9856
+ "learning_rate": 2.2335824000501437e-06,
9857
+ "loss": 0.0,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.911326860841424,
9862
+ "grad_norm": 2.909961222030688e-05,
9863
+ "learning_rate": 2.201567746569794e-06,
9864
+ "loss": 0.0,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.9119741100323625,
9869
+ "grad_norm": 3.055423076148145e-05,
9870
+ "learning_rate": 2.1697790249779636e-06,
9871
+ "loss": 0.0,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.912621359223301,
9876
+ "grad_norm": 2.8502765417215414e-05,
9877
+ "learning_rate": 2.13821638553241e-06,
9878
+ "loss": 0.0,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.9132686084142395,
9883
+ "grad_norm": 3.2103438570629805e-05,
9884
+ "learning_rate": 2.106879977422277e-06,
9885
+ "loss": 0.0,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.913915857605178,
9890
+ "grad_norm": 3.0755229090573266e-05,
9891
+ "learning_rate": 2.0757699487673533e-06,
9892
+ "loss": 0.0,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.9145631067961165,
9897
+ "grad_norm": 2.8395124900271185e-05,
9898
+ "learning_rate": 2.044886446617389e-06,
9899
+ "loss": 0.0,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.915210355987055,
9904
+ "grad_norm": 3.307309452793561e-05,
9905
+ "learning_rate": 2.0142296169514073e-06,
9906
+ "loss": 0.0,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.9158576051779935,
9911
+ "grad_norm": 2.995224713231437e-05,
9912
+ "learning_rate": 1.9837996046769837e-06,
9913
+ "loss": 0.0,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.916504854368932,
9918
+ "grad_norm": 3.0005847293068655e-05,
9919
+ "learning_rate": 1.9535965536295885e-06,
9920
+ "loss": 0.0,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.9171521035598705,
9925
+ "grad_norm": 3.1141447834670544e-05,
9926
+ "learning_rate": 1.923620606571919e-06,
9927
+ "loss": 0.0,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 0.917799352750809,
9932
+ "grad_norm": 2.9125007131369784e-05,
9933
+ "learning_rate": 1.8938719051931674e-06,
9934
+ "loss": 0.0,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 0.9184466019417475,
9939
+ "grad_norm": 3.1149378628470004e-05,
9940
+ "learning_rate": 1.8643505901084268e-06,
9941
+ "loss": 0.0,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 0.919093851132686,
9946
+ "grad_norm": 3.2131334592122585e-05,
9947
+ "learning_rate": 1.8350568008579705e-06,
9948
+ "loss": 0.0,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 0.9197411003236245,
9953
+ "grad_norm": 3.188562550349161e-05,
9954
+ "learning_rate": 1.8059906759066159e-06,
9955
+ "loss": 0.0,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 0.920388349514563,
9960
+ "grad_norm": 3.0224360671127215e-05,
9961
+ "learning_rate": 1.777152352643069e-06,
9962
+ "loss": 0.0,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 0.9210355987055017,
9967
+ "grad_norm": 3.379662666702643e-05,
9968
+ "learning_rate": 1.7485419673792524e-06,
9969
+ "loss": 0.0,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 0.9216828478964402,
9974
+ "grad_norm": 3.2119089155457914e-05,
9975
+ "learning_rate": 1.7201596553497013e-06,
9976
+ "loss": 0.0,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 0.9223300970873787,
9981
+ "grad_norm": 3.09307397401426e-05,
9982
+ "learning_rate": 1.692005550710901e-06,
9983
+ "loss": 0.0,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 0.9229773462783172,
9988
+ "grad_norm": 3.093123814323917e-05,
9989
+ "learning_rate": 1.6640797865406288e-06,
9990
+ "loss": 0.0,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 0.9236245954692557,
9995
+ "grad_norm": 3.285687125753611e-05,
9996
+ "learning_rate": 1.6363824948373852e-06,
9997
+ "loss": 0.0,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 0.9242718446601942,
10002
+ "grad_norm": 2.959301127702929e-05,
10003
+ "learning_rate": 1.6089138065197185e-06,
10004
+ "loss": 0.0,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 0.9249190938511327,
10009
+ "grad_norm": 3.1159772333921865e-05,
10010
+ "learning_rate": 1.5816738514256135e-06,
10011
+ "loss": 0.0,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 0.9255663430420712,
10016
+ "grad_norm": 2.8291822673054412e-05,
10017
+ "learning_rate": 1.5546627583119088e-06,
10018
+ "loss": 0.0,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 0.9262135922330097,
10023
+ "grad_norm": 2.936238524853252e-05,
10024
+ "learning_rate": 1.5278806548536584e-06,
10025
+ "loss": 0.0,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 0.9268608414239482,
10030
+ "grad_norm": 3.067820944124833e-05,
10031
+ "learning_rate": 1.501327667643515e-06,
10032
+ "loss": 0.0,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 0.9275080906148867,
10037
+ "grad_norm": 2.8284572181291878e-05,
10038
+ "learning_rate": 1.4750039221911926e-06,
10039
+ "loss": 0.0,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 0.9281553398058252,
10044
+ "grad_norm": 2.9370548872975633e-05,
10045
+ "learning_rate": 1.4489095429227995e-06,
10046
+ "loss": 0.0,
10047
+ "step": 1434
10048
  }
10049
  ],
10050
  "logging_steps": 1,
 
10064
  "attributes": {}
10065
  }
10066
  },
10067
+ "total_flos": 4.203003914074718e+18,
10068
  "train_batch_size": 4,
10069
  "trial_name": null,
10070
  "trial_params": null