lemon-mint commited on
Commit
aa2fbab
·
verified ·
1 Parent(s): e870357

Training in progress, step 1800, checkpoint

Browse files
last-checkpoint/model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:79fe16944f629549945f5f2c06422c7a241f7bae3d014f8dd17a1149a40fbfd0
3
  size 4903351912
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5859bd1404f892d35509df4eb9eb0f7737ea45e8f0d6979cb2b835aa7c512bc7
3
  size 4903351912
last-checkpoint/model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5241262c584e8e38b33904bd89c983c39ba6faf07b94f087ab342302d754b9e3
3
  size 4947570872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13e59e818fe01a75735fabb570d56fa405537d22f0e7c991d2ed42d79960ca24
3
  size 4947570872
last-checkpoint/model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5449bdcadaf0201292a67c0ad5b208d1cdde4e06e814ab6522183849a1400b1a
3
  size 4962221464
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:87d6f7b783ba7bb115969fd3f2e645748ecdd1b8fe67ef98d138f57d9282fbf5
3
  size 4962221464
last-checkpoint/model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:09228f48c0c789ba37b7f5a610d84d8183d6ff4aec0c975488b2d26c4941159e
3
  size 3670322200
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ca0d89ee1ab87e72354decf620a8e0747d38d974878c367d3f4b984d8f027b2
3
  size 3670322200
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d8131d9be08c2d71451fbf6d876d3be0c699b1df06dfddf2c05eb8147aebfb57
3
  size 2216
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b2160809fdf12c9c94b7b9d3bc115d1ba2a8669618c3440d0d106283ecbf1f93
3
  size 2216
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:57bd7f95a13fc232aad983b41220d64da0d721697b71fd0d27e198813f08e0e2
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32d153f5bc2adb9c7a93379e862b4bc1d4648be9d3370182494e08b0e56d554f
3
  size 1000
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.404494382022472,
5
  "eval_steps": 500,
6
- "global_step": 1500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -10507,6 +10507,2106 @@
10507
  "learning_rate": 8.938532094069722e-06,
10508
  "loss": 1.169,
10509
  "step": 1500
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10510
  }
10511
  ],
10512
  "logging_steps": 1,
@@ -10526,7 +12626,7 @@
10526
  "attributes": {}
10527
  }
10528
  },
10529
- "total_flos": 4.907768355131228e+18,
10530
  "train_batch_size": 8,
10531
  "trial_name": null,
10532
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.6853932584269664,
5
  "eval_steps": 500,
6
+ "global_step": 1800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
10507
  "learning_rate": 8.938532094069722e-06,
10508
  "loss": 1.169,
10509
  "step": 1500
10510
+ },
10511
+ {
10512
+ "epoch": 1.405430711610487,
10513
+ "grad_norm": 0.0,
10514
+ "learning_rate": 8.91274582641178e-06,
10515
+ "loss": 1.1761,
10516
+ "step": 1501
10517
+ },
10518
+ {
10519
+ "epoch": 1.4063670411985019,
10520
+ "grad_norm": 0.0,
10521
+ "learning_rate": 8.886986139034863e-06,
10522
+ "loss": 1.1018,
10523
+ "step": 1502
10524
+ },
10525
+ {
10526
+ "epoch": 1.4073033707865168,
10527
+ "grad_norm": 0.0,
10528
+ "learning_rate": 8.86125309369454e-06,
10529
+ "loss": 1.1077,
10530
+ "step": 1503
10531
+ },
10532
+ {
10533
+ "epoch": 1.4082397003745317,
10534
+ "grad_norm": 0.0,
10535
+ "learning_rate": 8.835546752082527e-06,
10536
+ "loss": 1.1377,
10537
+ "step": 1504
10538
+ },
10539
+ {
10540
+ "epoch": 1.4091760299625469,
10541
+ "grad_norm": 0.0,
10542
+ "learning_rate": 8.809867175826496e-06,
10543
+ "loss": 1.1257,
10544
+ "step": 1505
10545
+ },
10546
+ {
10547
+ "epoch": 1.4101123595505618,
10548
+ "grad_norm": 0.0,
10549
+ "learning_rate": 8.784214426489964e-06,
10550
+ "loss": 1.1451,
10551
+ "step": 1506
10552
+ },
10553
+ {
10554
+ "epoch": 1.4110486891385767,
10555
+ "grad_norm": 0.0,
10556
+ "learning_rate": 8.758588565572137e-06,
10557
+ "loss": 1.1264,
10558
+ "step": 1507
10559
+ },
10560
+ {
10561
+ "epoch": 1.4119850187265919,
10562
+ "grad_norm": 0.0,
10563
+ "learning_rate": 8.732989654507758e-06,
10564
+ "loss": 1.1549,
10565
+ "step": 1508
10566
+ },
10567
+ {
10568
+ "epoch": 1.4129213483146068,
10569
+ "grad_norm": 0.0,
10570
+ "learning_rate": 8.707417754666944e-06,
10571
+ "loss": 1.1708,
10572
+ "step": 1509
10573
+ },
10574
+ {
10575
+ "epoch": 1.4138576779026217,
10576
+ "grad_norm": 0.0,
10577
+ "learning_rate": 8.681872927355083e-06,
10578
+ "loss": 1.1633,
10579
+ "step": 1510
10580
+ },
10581
+ {
10582
+ "epoch": 1.4147940074906367,
10583
+ "grad_norm": 0.0,
10584
+ "learning_rate": 8.656355233812656e-06,
10585
+ "loss": 1.1428,
10586
+ "step": 1511
10587
+ },
10588
+ {
10589
+ "epoch": 1.4157303370786516,
10590
+ "grad_norm": 0.0,
10591
+ "learning_rate": 8.630864735215068e-06,
10592
+ "loss": 1.1585,
10593
+ "step": 1512
10594
+ },
10595
+ {
10596
+ "epoch": 1.4166666666666667,
10597
+ "grad_norm": 0.0,
10598
+ "learning_rate": 8.60540149267256e-06,
10599
+ "loss": 1.1019,
10600
+ "step": 1513
10601
+ },
10602
+ {
10603
+ "epoch": 1.4176029962546817,
10604
+ "grad_norm": 0.0,
10605
+ "learning_rate": 8.579965567230013e-06,
10606
+ "loss": 1.1107,
10607
+ "step": 1514
10608
+ },
10609
+ {
10610
+ "epoch": 1.4185393258426966,
10611
+ "grad_norm": 0.0,
10612
+ "learning_rate": 8.554557019866812e-06,
10613
+ "loss": 1.088,
10614
+ "step": 1515
10615
+ },
10616
+ {
10617
+ "epoch": 1.4194756554307117,
10618
+ "grad_norm": 0.0,
10619
+ "learning_rate": 8.529175911496728e-06,
10620
+ "loss": 1.1172,
10621
+ "step": 1516
10622
+ },
10623
+ {
10624
+ "epoch": 1.4204119850187267,
10625
+ "grad_norm": 0.0,
10626
+ "learning_rate": 8.503822302967732e-06,
10627
+ "loss": 1.1868,
10628
+ "step": 1517
10629
+ },
10630
+ {
10631
+ "epoch": 1.4213483146067416,
10632
+ "grad_norm": 0.0,
10633
+ "learning_rate": 8.478496255061872e-06,
10634
+ "loss": 1.14,
10635
+ "step": 1518
10636
+ },
10637
+ {
10638
+ "epoch": 1.4222846441947565,
10639
+ "grad_norm": 0.0,
10640
+ "learning_rate": 8.453197828495132e-06,
10641
+ "loss": 1.1309,
10642
+ "step": 1519
10643
+ },
10644
+ {
10645
+ "epoch": 1.4232209737827715,
10646
+ "grad_norm": 0.0,
10647
+ "learning_rate": 8.427927083917262e-06,
10648
+ "loss": 1.1472,
10649
+ "step": 1520
10650
+ },
10651
+ {
10652
+ "epoch": 1.4241573033707864,
10653
+ "grad_norm": 0.0,
10654
+ "learning_rate": 8.40268408191167e-06,
10655
+ "loss": 1.205,
10656
+ "step": 1521
10657
+ },
10658
+ {
10659
+ "epoch": 1.4250936329588015,
10660
+ "grad_norm": 0.0,
10661
+ "learning_rate": 8.377468882995223e-06,
10662
+ "loss": 1.1165,
10663
+ "step": 1522
10664
+ },
10665
+ {
10666
+ "epoch": 1.4260299625468165,
10667
+ "grad_norm": 0.0,
10668
+ "learning_rate": 8.35228154761817e-06,
10669
+ "loss": 1.1351,
10670
+ "step": 1523
10671
+ },
10672
+ {
10673
+ "epoch": 1.4269662921348314,
10674
+ "grad_norm": 0.0,
10675
+ "learning_rate": 8.327122136163928e-06,
10676
+ "loss": 1.1118,
10677
+ "step": 1524
10678
+ },
10679
+ {
10680
+ "epoch": 1.4279026217228465,
10681
+ "grad_norm": 0.0,
10682
+ "learning_rate": 8.301990708948996e-06,
10683
+ "loss": 1.1238,
10684
+ "step": 1525
10685
+ },
10686
+ {
10687
+ "epoch": 1.4288389513108615,
10688
+ "grad_norm": 0.0,
10689
+ "learning_rate": 8.276887326222769e-06,
10690
+ "loss": 1.1302,
10691
+ "step": 1526
10692
+ },
10693
+ {
10694
+ "epoch": 1.4297752808988764,
10695
+ "grad_norm": 0.0,
10696
+ "learning_rate": 8.251812048167402e-06,
10697
+ "loss": 1.1591,
10698
+ "step": 1527
10699
+ },
10700
+ {
10701
+ "epoch": 1.4307116104868913,
10702
+ "grad_norm": 0.0,
10703
+ "learning_rate": 8.2267649348977e-06,
10704
+ "loss": 1.1453,
10705
+ "step": 1528
10706
+ },
10707
+ {
10708
+ "epoch": 1.4316479400749063,
10709
+ "grad_norm": 0.0,
10710
+ "learning_rate": 8.201746046460922e-06,
10711
+ "loss": 1.1393,
10712
+ "step": 1529
10713
+ },
10714
+ {
10715
+ "epoch": 1.4325842696629214,
10716
+ "grad_norm": 0.0,
10717
+ "learning_rate": 8.176755442836661e-06,
10718
+ "loss": 1.1307,
10719
+ "step": 1530
10720
+ },
10721
+ {
10722
+ "epoch": 1.4335205992509363,
10723
+ "grad_norm": 0.0,
10724
+ "learning_rate": 8.151793183936724e-06,
10725
+ "loss": 1.1203,
10726
+ "step": 1531
10727
+ },
10728
+ {
10729
+ "epoch": 1.4344569288389513,
10730
+ "grad_norm": 0.0,
10731
+ "learning_rate": 8.12685932960494e-06,
10732
+ "loss": 1.1445,
10733
+ "step": 1532
10734
+ },
10735
+ {
10736
+ "epoch": 1.4353932584269664,
10737
+ "grad_norm": 0.0,
10738
+ "learning_rate": 8.101953939617053e-06,
10739
+ "loss": 1.1466,
10740
+ "step": 1533
10741
+ },
10742
+ {
10743
+ "epoch": 1.4363295880149813,
10744
+ "grad_norm": 0.0,
10745
+ "learning_rate": 8.077077073680577e-06,
10746
+ "loss": 1.0897,
10747
+ "step": 1534
10748
+ },
10749
+ {
10750
+ "epoch": 1.4372659176029963,
10751
+ "grad_norm": 0.0,
10752
+ "learning_rate": 8.052228791434618e-06,
10753
+ "loss": 1.1645,
10754
+ "step": 1535
10755
+ },
10756
+ {
10757
+ "epoch": 1.4382022471910112,
10758
+ "grad_norm": 0.0,
10759
+ "learning_rate": 8.027409152449783e-06,
10760
+ "loss": 1.1831,
10761
+ "step": 1536
10762
+ },
10763
+ {
10764
+ "epoch": 1.4391385767790261,
10765
+ "grad_norm": 0.0,
10766
+ "learning_rate": 8.002618216227994e-06,
10767
+ "loss": 1.0751,
10768
+ "step": 1537
10769
+ },
10770
+ {
10771
+ "epoch": 1.4400749063670413,
10772
+ "grad_norm": 0.0,
10773
+ "learning_rate": 7.977856042202354e-06,
10774
+ "loss": 1.0924,
10775
+ "step": 1538
10776
+ },
10777
+ {
10778
+ "epoch": 1.4410112359550562,
10779
+ "grad_norm": 0.0,
10780
+ "learning_rate": 7.953122689737045e-06,
10781
+ "loss": 1.1164,
10782
+ "step": 1539
10783
+ },
10784
+ {
10785
+ "epoch": 1.4419475655430711,
10786
+ "grad_norm": 0.0,
10787
+ "learning_rate": 7.928418218127121e-06,
10788
+ "loss": 1.1018,
10789
+ "step": 1540
10790
+ },
10791
+ {
10792
+ "epoch": 1.4428838951310863,
10793
+ "grad_norm": 0.0,
10794
+ "learning_rate": 7.903742686598402e-06,
10795
+ "loss": 1.1509,
10796
+ "step": 1541
10797
+ },
10798
+ {
10799
+ "epoch": 1.4438202247191012,
10800
+ "grad_norm": 0.0,
10801
+ "learning_rate": 7.87909615430735e-06,
10802
+ "loss": 1.1266,
10803
+ "step": 1542
10804
+ },
10805
+ {
10806
+ "epoch": 1.4447565543071161,
10807
+ "grad_norm": 0.0,
10808
+ "learning_rate": 7.854478680340875e-06,
10809
+ "loss": 1.154,
10810
+ "step": 1543
10811
+ },
10812
+ {
10813
+ "epoch": 1.445692883895131,
10814
+ "grad_norm": 0.0,
10815
+ "learning_rate": 7.829890323716247e-06,
10816
+ "loss": 1.1338,
10817
+ "step": 1544
10818
+ },
10819
+ {
10820
+ "epoch": 1.446629213483146,
10821
+ "grad_norm": 0.0,
10822
+ "learning_rate": 7.805331143380926e-06,
10823
+ "loss": 1.1359,
10824
+ "step": 1545
10825
+ },
10826
+ {
10827
+ "epoch": 1.447565543071161,
10828
+ "grad_norm": 0.0,
10829
+ "learning_rate": 7.780801198212418e-06,
10830
+ "loss": 1.1192,
10831
+ "step": 1546
10832
+ },
10833
+ {
10834
+ "epoch": 1.448501872659176,
10835
+ "grad_norm": 0.0,
10836
+ "learning_rate": 7.756300547018137e-06,
10837
+ "loss": 1.1369,
10838
+ "step": 1547
10839
+ },
10840
+ {
10841
+ "epoch": 1.449438202247191,
10842
+ "grad_norm": 0.0,
10843
+ "learning_rate": 7.73182924853529e-06,
10844
+ "loss": 1.1355,
10845
+ "step": 1548
10846
+ },
10847
+ {
10848
+ "epoch": 1.450374531835206,
10849
+ "grad_norm": 0.0,
10850
+ "learning_rate": 7.707387361430696e-06,
10851
+ "loss": 1.1717,
10852
+ "step": 1549
10853
+ },
10854
+ {
10855
+ "epoch": 1.451310861423221,
10856
+ "grad_norm": 0.0,
10857
+ "learning_rate": 7.682974944300659e-06,
10858
+ "loss": 1.1523,
10859
+ "step": 1550
10860
+ },
10861
+ {
10862
+ "epoch": 1.452247191011236,
10863
+ "grad_norm": 0.0,
10864
+ "learning_rate": 7.658592055670857e-06,
10865
+ "loss": 1.1508,
10866
+ "step": 1551
10867
+ },
10868
+ {
10869
+ "epoch": 1.453183520599251,
10870
+ "grad_norm": 0.0,
10871
+ "learning_rate": 7.634238753996159e-06,
10872
+ "loss": 1.1318,
10873
+ "step": 1552
10874
+ },
10875
+ {
10876
+ "epoch": 1.4541198501872659,
10877
+ "grad_norm": 0.0,
10878
+ "learning_rate": 7.609915097660497e-06,
10879
+ "loss": 1.1081,
10880
+ "step": 1553
10881
+ },
10882
+ {
10883
+ "epoch": 1.4550561797752808,
10884
+ "grad_norm": 0.0,
10885
+ "learning_rate": 7.5856211449767555e-06,
10886
+ "loss": 1.142,
10887
+ "step": 1554
10888
+ },
10889
+ {
10890
+ "epoch": 1.455992509363296,
10891
+ "grad_norm": 0.0,
10892
+ "learning_rate": 7.561356954186582e-06,
10893
+ "loss": 1.1294,
10894
+ "step": 1555
10895
+ },
10896
+ {
10897
+ "epoch": 1.4569288389513109,
10898
+ "grad_norm": 0.0,
10899
+ "learning_rate": 7.537122583460294e-06,
10900
+ "loss": 1.1681,
10901
+ "step": 1556
10902
+ },
10903
+ {
10904
+ "epoch": 1.4578651685393258,
10905
+ "grad_norm": 0.0,
10906
+ "learning_rate": 7.512918090896719e-06,
10907
+ "loss": 1.126,
10908
+ "step": 1557
10909
+ },
10910
+ {
10911
+ "epoch": 1.458801498127341,
10912
+ "grad_norm": 0.0,
10913
+ "learning_rate": 7.4887435345230375e-06,
10914
+ "loss": 1.188,
10915
+ "step": 1558
10916
+ },
10917
+ {
10918
+ "epoch": 1.4597378277153559,
10919
+ "grad_norm": 0.0,
10920
+ "learning_rate": 7.464598972294668e-06,
10921
+ "loss": 1.1648,
10922
+ "step": 1559
10923
+ },
10924
+ {
10925
+ "epoch": 1.4606741573033708,
10926
+ "grad_norm": 0.0,
10927
+ "learning_rate": 7.440484462095137e-06,
10928
+ "loss": 1.0994,
10929
+ "step": 1560
10930
+ },
10931
+ {
10932
+ "epoch": 1.4616104868913857,
10933
+ "grad_norm": 0.0,
10934
+ "learning_rate": 7.4164000617359115e-06,
10935
+ "loss": 1.1331,
10936
+ "step": 1561
10937
+ },
10938
+ {
10939
+ "epoch": 1.4625468164794007,
10940
+ "grad_norm": 0.0,
10941
+ "learning_rate": 7.3923458289562665e-06,
10942
+ "loss": 1.1525,
10943
+ "step": 1562
10944
+ },
10945
+ {
10946
+ "epoch": 1.4634831460674158,
10947
+ "grad_norm": 0.0,
10948
+ "learning_rate": 7.368321821423179e-06,
10949
+ "loss": 1.1373,
10950
+ "step": 1563
10951
+ },
10952
+ {
10953
+ "epoch": 1.4644194756554307,
10954
+ "grad_norm": 0.0,
10955
+ "learning_rate": 7.344328096731144e-06,
10956
+ "loss": 1.1692,
10957
+ "step": 1564
10958
+ },
10959
+ {
10960
+ "epoch": 1.4653558052434457,
10961
+ "grad_norm": 0.0,
10962
+ "learning_rate": 7.320364712402055e-06,
10963
+ "loss": 1.1382,
10964
+ "step": 1565
10965
+ },
10966
+ {
10967
+ "epoch": 1.4662921348314606,
10968
+ "grad_norm": 0.0,
10969
+ "learning_rate": 7.296431725885085e-06,
10970
+ "loss": 1.1261,
10971
+ "step": 1566
10972
+ },
10973
+ {
10974
+ "epoch": 1.4672284644194757,
10975
+ "grad_norm": 0.0,
10976
+ "learning_rate": 7.272529194556528e-06,
10977
+ "loss": 1.1731,
10978
+ "step": 1567
10979
+ },
10980
+ {
10981
+ "epoch": 1.4681647940074907,
10982
+ "grad_norm": 0.0,
10983
+ "learning_rate": 7.248657175719649e-06,
10984
+ "loss": 1.185,
10985
+ "step": 1568
10986
+ },
10987
+ {
10988
+ "epoch": 1.4691011235955056,
10989
+ "grad_norm": 0.0,
10990
+ "learning_rate": 7.2248157266045904e-06,
10991
+ "loss": 1.1735,
10992
+ "step": 1569
10993
+ },
10994
+ {
10995
+ "epoch": 1.4700374531835205,
10996
+ "grad_norm": 0.0,
10997
+ "learning_rate": 7.2010049043681825e-06,
10998
+ "loss": 1.1518,
10999
+ "step": 1570
11000
+ },
11001
+ {
11002
+ "epoch": 1.4709737827715355,
11003
+ "grad_norm": 0.0,
11004
+ "learning_rate": 7.17722476609384e-06,
11005
+ "loss": 1.1282,
11006
+ "step": 1571
11007
+ },
11008
+ {
11009
+ "epoch": 1.4719101123595506,
11010
+ "grad_norm": 0.0,
11011
+ "learning_rate": 7.153475368791427e-06,
11012
+ "loss": 1.1125,
11013
+ "step": 1572
11014
+ },
11015
+ {
11016
+ "epoch": 1.4728464419475655,
11017
+ "grad_norm": 0.0,
11018
+ "learning_rate": 7.129756769397096e-06,
11019
+ "loss": 1.1646,
11020
+ "step": 1573
11021
+ },
11022
+ {
11023
+ "epoch": 1.4737827715355805,
11024
+ "grad_norm": 0.0,
11025
+ "learning_rate": 7.106069024773166e-06,
11026
+ "loss": 1.1523,
11027
+ "step": 1574
11028
+ },
11029
+ {
11030
+ "epoch": 1.4747191011235956,
11031
+ "grad_norm": 0.0,
11032
+ "learning_rate": 7.082412191708001e-06,
11033
+ "loss": 1.1439,
11034
+ "step": 1575
11035
+ },
11036
+ {
11037
+ "epoch": 1.4756554307116105,
11038
+ "grad_norm": 0.0,
11039
+ "learning_rate": 7.058786326915839e-06,
11040
+ "loss": 1.1748,
11041
+ "step": 1576
11042
+ },
11043
+ {
11044
+ "epoch": 1.4765917602996255,
11045
+ "grad_norm": 0.0,
11046
+ "learning_rate": 7.035191487036685e-06,
11047
+ "loss": 1.13,
11048
+ "step": 1577
11049
+ },
11050
+ {
11051
+ "epoch": 1.4775280898876404,
11052
+ "grad_norm": 0.0,
11053
+ "learning_rate": 7.0116277286361765e-06,
11054
+ "loss": 1.118,
11055
+ "step": 1578
11056
+ },
11057
+ {
11058
+ "epoch": 1.4784644194756553,
11059
+ "grad_norm": 0.0,
11060
+ "learning_rate": 6.9880951082054196e-06,
11061
+ "loss": 1.1559,
11062
+ "step": 1579
11063
+ },
11064
+ {
11065
+ "epoch": 1.4794007490636705,
11066
+ "grad_norm": 0.0,
11067
+ "learning_rate": 6.964593682160868e-06,
11068
+ "loss": 1.1149,
11069
+ "step": 1580
11070
+ },
11071
+ {
11072
+ "epoch": 1.4803370786516854,
11073
+ "grad_norm": 0.0,
11074
+ "learning_rate": 6.941123506844212e-06,
11075
+ "loss": 1.1298,
11076
+ "step": 1581
11077
+ },
11078
+ {
11079
+ "epoch": 1.4812734082397003,
11080
+ "grad_norm": 0.0,
11081
+ "learning_rate": 6.917684638522206e-06,
11082
+ "loss": 1.1405,
11083
+ "step": 1582
11084
+ },
11085
+ {
11086
+ "epoch": 1.4822097378277155,
11087
+ "grad_norm": 0.0,
11088
+ "learning_rate": 6.894277133386549e-06,
11089
+ "loss": 1.1084,
11090
+ "step": 1583
11091
+ },
11092
+ {
11093
+ "epoch": 1.4831460674157304,
11094
+ "grad_norm": 0.0,
11095
+ "learning_rate": 6.870901047553769e-06,
11096
+ "loss": 1.1001,
11097
+ "step": 1584
11098
+ },
11099
+ {
11100
+ "epoch": 1.4840823970037453,
11101
+ "grad_norm": 0.0,
11102
+ "learning_rate": 6.847556437065046e-06,
11103
+ "loss": 1.1279,
11104
+ "step": 1585
11105
+ },
11106
+ {
11107
+ "epoch": 1.4850187265917603,
11108
+ "grad_norm": 0.0,
11109
+ "learning_rate": 6.824243357886111e-06,
11110
+ "loss": 1.1498,
11111
+ "step": 1586
11112
+ },
11113
+ {
11114
+ "epoch": 1.4859550561797752,
11115
+ "grad_norm": 0.0,
11116
+ "learning_rate": 6.800961865907109e-06,
11117
+ "loss": 1.1583,
11118
+ "step": 1587
11119
+ },
11120
+ {
11121
+ "epoch": 1.4868913857677903,
11122
+ "grad_norm": 0.0,
11123
+ "learning_rate": 6.777712016942464e-06,
11124
+ "loss": 1.157,
11125
+ "step": 1588
11126
+ },
11127
+ {
11128
+ "epoch": 1.4878277153558053,
11129
+ "grad_norm": 0.0,
11130
+ "learning_rate": 6.754493866730714e-06,
11131
+ "loss": 1.1747,
11132
+ "step": 1589
11133
+ },
11134
+ {
11135
+ "epoch": 1.4887640449438202,
11136
+ "grad_norm": 0.0,
11137
+ "learning_rate": 6.731307470934434e-06,
11138
+ "loss": 1.1574,
11139
+ "step": 1590
11140
+ },
11141
+ {
11142
+ "epoch": 1.4897003745318351,
11143
+ "grad_norm": 0.0,
11144
+ "learning_rate": 6.708152885140049e-06,
11145
+ "loss": 1.1248,
11146
+ "step": 1591
11147
+ },
11148
+ {
11149
+ "epoch": 1.4906367041198503,
11150
+ "grad_norm": 0.0,
11151
+ "learning_rate": 6.685030164857731e-06,
11152
+ "loss": 1.165,
11153
+ "step": 1592
11154
+ },
11155
+ {
11156
+ "epoch": 1.4915730337078652,
11157
+ "grad_norm": 0.0,
11158
+ "learning_rate": 6.661939365521266e-06,
11159
+ "loss": 1.1541,
11160
+ "step": 1593
11161
+ },
11162
+ {
11163
+ "epoch": 1.4925093632958801,
11164
+ "grad_norm": 0.0,
11165
+ "learning_rate": 6.6388805424879045e-06,
11166
+ "loss": 1.1691,
11167
+ "step": 1594
11168
+ },
11169
+ {
11170
+ "epoch": 1.493445692883895,
11171
+ "grad_norm": 0.0,
11172
+ "learning_rate": 6.615853751038233e-06,
11173
+ "loss": 1.1697,
11174
+ "step": 1595
11175
+ },
11176
+ {
11177
+ "epoch": 1.49438202247191,
11178
+ "grad_norm": 0.0,
11179
+ "learning_rate": 6.592859046376066e-06,
11180
+ "loss": 1.1568,
11181
+ "step": 1596
11182
+ },
11183
+ {
11184
+ "epoch": 1.4953183520599251,
11185
+ "grad_norm": 0.0,
11186
+ "learning_rate": 6.569896483628278e-06,
11187
+ "loss": 1.1656,
11188
+ "step": 1597
11189
+ },
11190
+ {
11191
+ "epoch": 1.49625468164794,
11192
+ "grad_norm": 0.0,
11193
+ "learning_rate": 6.54696611784468e-06,
11194
+ "loss": 1.151,
11195
+ "step": 1598
11196
+ },
11197
+ {
11198
+ "epoch": 1.497191011235955,
11199
+ "grad_norm": 0.0,
11200
+ "learning_rate": 6.524068003997917e-06,
11201
+ "loss": 1.1307,
11202
+ "step": 1599
11203
+ },
11204
+ {
11205
+ "epoch": 1.4981273408239701,
11206
+ "grad_norm": 0.0,
11207
+ "learning_rate": 6.501202196983301e-06,
11208
+ "loss": 1.1294,
11209
+ "step": 1600
11210
+ },
11211
+ {
11212
+ "epoch": 1.499063670411985,
11213
+ "grad_norm": 0.0,
11214
+ "learning_rate": 6.478368751618702e-06,
11215
+ "loss": 1.1632,
11216
+ "step": 1601
11217
+ },
11218
+ {
11219
+ "epoch": 1.5,
11220
+ "grad_norm": 0.0,
11221
+ "learning_rate": 6.455567722644394e-06,
11222
+ "loss": 1.1559,
11223
+ "step": 1602
11224
+ },
11225
+ {
11226
+ "epoch": 1.500936329588015,
11227
+ "grad_norm": 0.0,
11228
+ "learning_rate": 6.432799164722934e-06,
11229
+ "loss": 1.1024,
11230
+ "step": 1603
11231
+ },
11232
+ {
11233
+ "epoch": 1.5018726591760299,
11234
+ "grad_norm": 0.0,
11235
+ "learning_rate": 6.410063132439055e-06,
11236
+ "loss": 1.1236,
11237
+ "step": 1604
11238
+ },
11239
+ {
11240
+ "epoch": 1.5028089887640448,
11241
+ "grad_norm": 0.0,
11242
+ "learning_rate": 6.3873596802994985e-06,
11243
+ "loss": 1.1334,
11244
+ "step": 1605
11245
+ },
11246
+ {
11247
+ "epoch": 1.50374531835206,
11248
+ "grad_norm": 0.0,
11249
+ "learning_rate": 6.364688862732891e-06,
11250
+ "loss": 1.1242,
11251
+ "step": 1606
11252
+ },
11253
+ {
11254
+ "epoch": 1.5046816479400749,
11255
+ "grad_norm": 0.0,
11256
+ "learning_rate": 6.342050734089648e-06,
11257
+ "loss": 1.1469,
11258
+ "step": 1607
11259
+ },
11260
+ {
11261
+ "epoch": 1.50561797752809,
11262
+ "grad_norm": 0.0,
11263
+ "learning_rate": 6.3194453486417975e-06,
11264
+ "loss": 1.1377,
11265
+ "step": 1608
11266
+ },
11267
+ {
11268
+ "epoch": 1.506554307116105,
11269
+ "grad_norm": 0.0,
11270
+ "learning_rate": 6.296872760582864e-06,
11271
+ "loss": 1.1099,
11272
+ "step": 1609
11273
+ },
11274
+ {
11275
+ "epoch": 1.5074906367041199,
11276
+ "grad_norm": 0.0,
11277
+ "learning_rate": 6.274333024027763e-06,
11278
+ "loss": 1.1475,
11279
+ "step": 1610
11280
+ },
11281
+ {
11282
+ "epoch": 1.5084269662921348,
11283
+ "grad_norm": 0.0,
11284
+ "learning_rate": 6.2518261930126535e-06,
11285
+ "loss": 1.0754,
11286
+ "step": 1611
11287
+ },
11288
+ {
11289
+ "epoch": 1.5093632958801497,
11290
+ "grad_norm": 0.0,
11291
+ "learning_rate": 6.2293523214947835e-06,
11292
+ "loss": 1.1681,
11293
+ "step": 1612
11294
+ },
11295
+ {
11296
+ "epoch": 1.5102996254681647,
11297
+ "grad_norm": 0.0,
11298
+ "learning_rate": 6.206911463352414e-06,
11299
+ "loss": 1.1281,
11300
+ "step": 1613
11301
+ },
11302
+ {
11303
+ "epoch": 1.5112359550561798,
11304
+ "grad_norm": 0.0,
11305
+ "learning_rate": 6.184503672384641e-06,
11306
+ "loss": 1.0952,
11307
+ "step": 1614
11308
+ },
11309
+ {
11310
+ "epoch": 1.5121722846441947,
11311
+ "grad_norm": 0.0,
11312
+ "learning_rate": 6.1621290023112836e-06,
11313
+ "loss": 1.1379,
11314
+ "step": 1615
11315
+ },
11316
+ {
11317
+ "epoch": 1.5131086142322099,
11318
+ "grad_norm": 0.0,
11319
+ "learning_rate": 6.139787506772779e-06,
11320
+ "loss": 1.1544,
11321
+ "step": 1616
11322
+ },
11323
+ {
11324
+ "epoch": 1.5140449438202248,
11325
+ "grad_norm": 0.0,
11326
+ "learning_rate": 6.117479239330015e-06,
11327
+ "loss": 1.1538,
11328
+ "step": 1617
11329
+ },
11330
+ {
11331
+ "epoch": 1.5149812734082397,
11332
+ "grad_norm": 0.0,
11333
+ "learning_rate": 6.095204253464218e-06,
11334
+ "loss": 1.1352,
11335
+ "step": 1618
11336
+ },
11337
+ {
11338
+ "epoch": 1.5159176029962547,
11339
+ "grad_norm": 0.0,
11340
+ "learning_rate": 6.072962602576842e-06,
11341
+ "loss": 1.1392,
11342
+ "step": 1619
11343
+ },
11344
+ {
11345
+ "epoch": 1.5168539325842696,
11346
+ "grad_norm": 0.0,
11347
+ "learning_rate": 6.050754339989404e-06,
11348
+ "loss": 1.1455,
11349
+ "step": 1620
11350
+ },
11351
+ {
11352
+ "epoch": 1.5177902621722845,
11353
+ "grad_norm": 0.0,
11354
+ "learning_rate": 6.028579518943403e-06,
11355
+ "loss": 1.1365,
11356
+ "step": 1621
11357
+ },
11358
+ {
11359
+ "epoch": 1.5187265917602997,
11360
+ "grad_norm": 0.0,
11361
+ "learning_rate": 6.006438192600132e-06,
11362
+ "loss": 1.0375,
11363
+ "step": 1622
11364
+ },
11365
+ {
11366
+ "epoch": 1.5196629213483146,
11367
+ "grad_norm": 0.0,
11368
+ "learning_rate": 5.984330414040622e-06,
11369
+ "loss": 1.1491,
11370
+ "step": 1623
11371
+ },
11372
+ {
11373
+ "epoch": 1.5205992509363297,
11374
+ "grad_norm": 0.0,
11375
+ "learning_rate": 5.962256236265442e-06,
11376
+ "loss": 1.1085,
11377
+ "step": 1624
11378
+ },
11379
+ {
11380
+ "epoch": 1.5215355805243447,
11381
+ "grad_norm": 0.0,
11382
+ "learning_rate": 5.940215712194639e-06,
11383
+ "loss": 1.1701,
11384
+ "step": 1625
11385
+ },
11386
+ {
11387
+ "epoch": 1.5224719101123596,
11388
+ "grad_norm": 0.0,
11389
+ "learning_rate": 5.918208894667557e-06,
11390
+ "loss": 1.1008,
11391
+ "step": 1626
11392
+ },
11393
+ {
11394
+ "epoch": 1.5234082397003745,
11395
+ "grad_norm": 0.0,
11396
+ "learning_rate": 5.896235836442736e-06,
11397
+ "loss": 1.13,
11398
+ "step": 1627
11399
+ },
11400
+ {
11401
+ "epoch": 1.5243445692883895,
11402
+ "grad_norm": 0.0,
11403
+ "learning_rate": 5.874296590197799e-06,
11404
+ "loss": 1.0716,
11405
+ "step": 1628
11406
+ },
11407
+ {
11408
+ "epoch": 1.5252808988764044,
11409
+ "grad_norm": 0.0,
11410
+ "learning_rate": 5.852391208529291e-06,
11411
+ "loss": 1.0896,
11412
+ "step": 1629
11413
+ },
11414
+ {
11415
+ "epoch": 1.5262172284644193,
11416
+ "grad_norm": 0.0,
11417
+ "learning_rate": 5.8305197439525695e-06,
11418
+ "loss": 1.1592,
11419
+ "step": 1630
11420
+ },
11421
+ {
11422
+ "epoch": 1.5271535580524345,
11423
+ "grad_norm": 0.0,
11424
+ "learning_rate": 5.808682248901702e-06,
11425
+ "loss": 1.1458,
11426
+ "step": 1631
11427
+ },
11428
+ {
11429
+ "epoch": 1.5280898876404494,
11430
+ "grad_norm": 0.0,
11431
+ "learning_rate": 5.78687877572929e-06,
11432
+ "loss": 1.1197,
11433
+ "step": 1632
11434
+ },
11435
+ {
11436
+ "epoch": 1.5290262172284645,
11437
+ "grad_norm": 0.0,
11438
+ "learning_rate": 5.765109376706395e-06,
11439
+ "loss": 1.1197,
11440
+ "step": 1633
11441
+ },
11442
+ {
11443
+ "epoch": 1.5299625468164795,
11444
+ "grad_norm": 0.0,
11445
+ "learning_rate": 5.743374104022384e-06,
11446
+ "loss": 1.1329,
11447
+ "step": 1634
11448
+ },
11449
+ {
11450
+ "epoch": 1.5308988764044944,
11451
+ "grad_norm": 0.0,
11452
+ "learning_rate": 5.7216730097848e-06,
11453
+ "loss": 1.1374,
11454
+ "step": 1635
11455
+ },
11456
+ {
11457
+ "epoch": 1.5318352059925093,
11458
+ "grad_norm": 0.0,
11459
+ "learning_rate": 5.7000061460192544e-06,
11460
+ "loss": 1.0821,
11461
+ "step": 1636
11462
+ },
11463
+ {
11464
+ "epoch": 1.5327715355805243,
11465
+ "grad_norm": 0.0,
11466
+ "learning_rate": 5.678373564669304e-06,
11467
+ "loss": 1.141,
11468
+ "step": 1637
11469
+ },
11470
+ {
11471
+ "epoch": 1.5337078651685392,
11472
+ "grad_norm": 0.0,
11473
+ "learning_rate": 5.656775317596306e-06,
11474
+ "loss": 1.1377,
11475
+ "step": 1638
11476
+ },
11477
+ {
11478
+ "epoch": 1.5346441947565543,
11479
+ "grad_norm": 0.0,
11480
+ "learning_rate": 5.635211456579299e-06,
11481
+ "loss": 1.1862,
11482
+ "step": 1639
11483
+ },
11484
+ {
11485
+ "epoch": 1.5355805243445693,
11486
+ "grad_norm": 0.0,
11487
+ "learning_rate": 5.613682033314913e-06,
11488
+ "loss": 1.1611,
11489
+ "step": 1640
11490
+ },
11491
+ {
11492
+ "epoch": 1.5365168539325844,
11493
+ "grad_norm": 0.0,
11494
+ "learning_rate": 5.5921870994171945e-06,
11495
+ "loss": 1.1548,
11496
+ "step": 1641
11497
+ },
11498
+ {
11499
+ "epoch": 1.5374531835205993,
11500
+ "grad_norm": 0.0,
11501
+ "learning_rate": 5.570726706417502e-06,
11502
+ "loss": 1.1167,
11503
+ "step": 1642
11504
+ },
11505
+ {
11506
+ "epoch": 1.5383895131086143,
11507
+ "grad_norm": 0.0,
11508
+ "learning_rate": 5.5493009057644055e-06,
11509
+ "loss": 1.0833,
11510
+ "step": 1643
11511
+ },
11512
+ {
11513
+ "epoch": 1.5393258426966292,
11514
+ "grad_norm": 0.0,
11515
+ "learning_rate": 5.527909748823543e-06,
11516
+ "loss": 1.1003,
11517
+ "step": 1644
11518
+ },
11519
+ {
11520
+ "epoch": 1.5402621722846441,
11521
+ "grad_norm": 0.0,
11522
+ "learning_rate": 5.506553286877476e-06,
11523
+ "loss": 1.0904,
11524
+ "step": 1645
11525
+ },
11526
+ {
11527
+ "epoch": 1.541198501872659,
11528
+ "grad_norm": 0.0,
11529
+ "learning_rate": 5.485231571125617e-06,
11530
+ "loss": 1.1111,
11531
+ "step": 1646
11532
+ },
11533
+ {
11534
+ "epoch": 1.5421348314606742,
11535
+ "grad_norm": 0.0,
11536
+ "learning_rate": 5.463944652684066e-06,
11537
+ "loss": 1.1194,
11538
+ "step": 1647
11539
+ },
11540
+ {
11541
+ "epoch": 1.5430711610486891,
11542
+ "grad_norm": 0.0,
11543
+ "learning_rate": 5.442692582585487e-06,
11544
+ "loss": 1.1249,
11545
+ "step": 1648
11546
+ },
11547
+ {
11548
+ "epoch": 1.5440074906367043,
11549
+ "grad_norm": 0.0,
11550
+ "learning_rate": 5.421475411779029e-06,
11551
+ "loss": 1.1436,
11552
+ "step": 1649
11553
+ },
11554
+ {
11555
+ "epoch": 1.5449438202247192,
11556
+ "grad_norm": 0.0,
11557
+ "learning_rate": 5.400293191130154e-06,
11558
+ "loss": 1.1295,
11559
+ "step": 1650
11560
+ },
11561
+ {
11562
+ "epoch": 1.5458801498127341,
11563
+ "grad_norm": 0.0,
11564
+ "learning_rate": 5.3791459714205365e-06,
11565
+ "loss": 1.1103,
11566
+ "step": 1651
11567
+ },
11568
+ {
11569
+ "epoch": 1.546816479400749,
11570
+ "grad_norm": 0.0,
11571
+ "learning_rate": 5.35803380334795e-06,
11572
+ "loss": 1.1181,
11573
+ "step": 1652
11574
+ },
11575
+ {
11576
+ "epoch": 1.547752808988764,
11577
+ "grad_norm": 0.0,
11578
+ "learning_rate": 5.336956737526127e-06,
11579
+ "loss": 1.1575,
11580
+ "step": 1653
11581
+ },
11582
+ {
11583
+ "epoch": 1.548689138576779,
11584
+ "grad_norm": 0.0,
11585
+ "learning_rate": 5.315914824484656e-06,
11586
+ "loss": 1.1069,
11587
+ "step": 1654
11588
+ },
11589
+ {
11590
+ "epoch": 1.5496254681647939,
11591
+ "grad_norm": 0.0,
11592
+ "learning_rate": 5.2949081146688396e-06,
11593
+ "loss": 1.1024,
11594
+ "step": 1655
11595
+ },
11596
+ {
11597
+ "epoch": 1.550561797752809,
11598
+ "grad_norm": 0.0,
11599
+ "learning_rate": 5.2739366584396e-06,
11600
+ "loss": 1.1304,
11601
+ "step": 1656
11602
+ },
11603
+ {
11604
+ "epoch": 1.551498127340824,
11605
+ "grad_norm": 0.0,
11606
+ "learning_rate": 5.253000506073323e-06,
11607
+ "loss": 1.1182,
11608
+ "step": 1657
11609
+ },
11610
+ {
11611
+ "epoch": 1.552434456928839,
11612
+ "grad_norm": 0.0,
11613
+ "learning_rate": 5.232099707761782e-06,
11614
+ "loss": 1.1937,
11615
+ "step": 1658
11616
+ },
11617
+ {
11618
+ "epoch": 1.553370786516854,
11619
+ "grad_norm": 0.0,
11620
+ "learning_rate": 5.211234313611977e-06,
11621
+ "loss": 1.1658,
11622
+ "step": 1659
11623
+ },
11624
+ {
11625
+ "epoch": 1.554307116104869,
11626
+ "grad_norm": 0.0,
11627
+ "learning_rate": 5.190404373646028e-06,
11628
+ "loss": 1.1923,
11629
+ "step": 1660
11630
+ },
11631
+ {
11632
+ "epoch": 1.5552434456928839,
11633
+ "grad_norm": 0.0,
11634
+ "learning_rate": 5.169609937801077e-06,
11635
+ "loss": 1.1418,
11636
+ "step": 1661
11637
+ },
11638
+ {
11639
+ "epoch": 1.5561797752808988,
11640
+ "grad_norm": 0.0,
11641
+ "learning_rate": 5.148851055929127e-06,
11642
+ "loss": 1.1935,
11643
+ "step": 1662
11644
+ },
11645
+ {
11646
+ "epoch": 1.5571161048689137,
11647
+ "grad_norm": 0.0,
11648
+ "learning_rate": 5.128127777796965e-06,
11649
+ "loss": 1.1214,
11650
+ "step": 1663
11651
+ },
11652
+ {
11653
+ "epoch": 1.5580524344569289,
11654
+ "grad_norm": 0.0,
11655
+ "learning_rate": 5.107440153086012e-06,
11656
+ "loss": 1.1117,
11657
+ "step": 1664
11658
+ },
11659
+ {
11660
+ "epoch": 1.5589887640449438,
11661
+ "grad_norm": 0.0,
11662
+ "learning_rate": 5.086788231392205e-06,
11663
+ "loss": 1.1638,
11664
+ "step": 1665
11665
+ },
11666
+ {
11667
+ "epoch": 1.559925093632959,
11668
+ "grad_norm": 0.0,
11669
+ "learning_rate": 5.066172062225909e-06,
11670
+ "loss": 1.1493,
11671
+ "step": 1666
11672
+ },
11673
+ {
11674
+ "epoch": 1.5608614232209739,
11675
+ "grad_norm": 0.0,
11676
+ "learning_rate": 5.045591695011769e-06,
11677
+ "loss": 1.0885,
11678
+ "step": 1667
11679
+ },
11680
+ {
11681
+ "epoch": 1.5617977528089888,
11682
+ "grad_norm": 0.0,
11683
+ "learning_rate": 5.025047179088585e-06,
11684
+ "loss": 1.1453,
11685
+ "step": 1668
11686
+ },
11687
+ {
11688
+ "epoch": 1.5627340823970037,
11689
+ "grad_norm": 0.0,
11690
+ "learning_rate": 5.004538563709231e-06,
11691
+ "loss": 1.1053,
11692
+ "step": 1669
11693
+ },
11694
+ {
11695
+ "epoch": 1.5636704119850187,
11696
+ "grad_norm": 0.0,
11697
+ "learning_rate": 4.9840658980404975e-06,
11698
+ "loss": 1.1227,
11699
+ "step": 1670
11700
+ },
11701
+ {
11702
+ "epoch": 1.5646067415730336,
11703
+ "grad_norm": 0.0,
11704
+ "learning_rate": 4.9636292311629895e-06,
11705
+ "loss": 1.1435,
11706
+ "step": 1671
11707
+ },
11708
+ {
11709
+ "epoch": 1.5655430711610487,
11710
+ "grad_norm": 0.0,
11711
+ "learning_rate": 4.943228612071029e-06,
11712
+ "loss": 1.1342,
11713
+ "step": 1672
11714
+ },
11715
+ {
11716
+ "epoch": 1.5664794007490637,
11717
+ "grad_norm": 0.0,
11718
+ "learning_rate": 4.922864089672495e-06,
11719
+ "loss": 1.1126,
11720
+ "step": 1673
11721
+ },
11722
+ {
11723
+ "epoch": 1.5674157303370788,
11724
+ "grad_norm": 0.0,
11725
+ "learning_rate": 4.902535712788732e-06,
11726
+ "loss": 1.1245,
11727
+ "step": 1674
11728
+ },
11729
+ {
11730
+ "epoch": 1.5683520599250937,
11731
+ "grad_norm": 0.0,
11732
+ "learning_rate": 4.882243530154454e-06,
11733
+ "loss": 1.1784,
11734
+ "step": 1675
11735
+ },
11736
+ {
11737
+ "epoch": 1.5692883895131087,
11738
+ "grad_norm": 0.0,
11739
+ "learning_rate": 4.86198759041757e-06,
11740
+ "loss": 1.1366,
11741
+ "step": 1676
11742
+ },
11743
+ {
11744
+ "epoch": 1.5702247191011236,
11745
+ "grad_norm": 0.0,
11746
+ "learning_rate": 4.841767942139124e-06,
11747
+ "loss": 1.1074,
11748
+ "step": 1677
11749
+ },
11750
+ {
11751
+ "epoch": 1.5711610486891385,
11752
+ "grad_norm": 0.0,
11753
+ "learning_rate": 4.821584633793157e-06,
11754
+ "loss": 1.0981,
11755
+ "step": 1678
11756
+ },
11757
+ {
11758
+ "epoch": 1.5720973782771535,
11759
+ "grad_norm": 0.0,
11760
+ "learning_rate": 4.8014377137665794e-06,
11761
+ "loss": 1.1212,
11762
+ "step": 1679
11763
+ },
11764
+ {
11765
+ "epoch": 1.5730337078651684,
11766
+ "grad_norm": 0.0,
11767
+ "learning_rate": 4.781327230359057e-06,
11768
+ "loss": 1.1368,
11769
+ "step": 1680
11770
+ },
11771
+ {
11772
+ "epoch": 1.5739700374531835,
11773
+ "grad_norm": 0.0,
11774
+ "learning_rate": 4.761253231782929e-06,
11775
+ "loss": 1.1538,
11776
+ "step": 1681
11777
+ },
11778
+ {
11779
+ "epoch": 1.5749063670411985,
11780
+ "grad_norm": 0.0,
11781
+ "learning_rate": 4.741215766163047e-06,
11782
+ "loss": 1.1577,
11783
+ "step": 1682
11784
+ },
11785
+ {
11786
+ "epoch": 1.5758426966292136,
11787
+ "grad_norm": 0.0,
11788
+ "learning_rate": 4.72121488153668e-06,
11789
+ "loss": 1.1337,
11790
+ "step": 1683
11791
+ },
11792
+ {
11793
+ "epoch": 1.5767790262172285,
11794
+ "grad_norm": 0.0,
11795
+ "learning_rate": 4.7012506258534155e-06,
11796
+ "loss": 1.1163,
11797
+ "step": 1684
11798
+ },
11799
+ {
11800
+ "epoch": 1.5777153558052435,
11801
+ "grad_norm": 0.0,
11802
+ "learning_rate": 4.6813230469750056e-06,
11803
+ "loss": 1.1293,
11804
+ "step": 1685
11805
+ },
11806
+ {
11807
+ "epoch": 1.5786516853932584,
11808
+ "grad_norm": 0.0,
11809
+ "learning_rate": 4.661432192675283e-06,
11810
+ "loss": 1.1452,
11811
+ "step": 1686
11812
+ },
11813
+ {
11814
+ "epoch": 1.5795880149812733,
11815
+ "grad_norm": 0.0,
11816
+ "learning_rate": 4.641578110640055e-06,
11817
+ "loss": 1.1115,
11818
+ "step": 1687
11819
+ },
11820
+ {
11821
+ "epoch": 1.5805243445692883,
11822
+ "grad_norm": 0.0,
11823
+ "learning_rate": 4.621760848466936e-06,
11824
+ "loss": 1.1763,
11825
+ "step": 1688
11826
+ },
11827
+ {
11828
+ "epoch": 1.5814606741573034,
11829
+ "grad_norm": 0.0,
11830
+ "learning_rate": 4.601980453665305e-06,
11831
+ "loss": 1.1725,
11832
+ "step": 1689
11833
+ },
11834
+ {
11835
+ "epoch": 1.5823970037453183,
11836
+ "grad_norm": 0.0,
11837
+ "learning_rate": 4.582236973656142e-06,
11838
+ "loss": 1.1052,
11839
+ "step": 1690
11840
+ },
11841
+ {
11842
+ "epoch": 1.5833333333333335,
11843
+ "grad_norm": 0.0,
11844
+ "learning_rate": 4.562530455771925e-06,
11845
+ "loss": 1.1333,
11846
+ "step": 1691
11847
+ },
11848
+ {
11849
+ "epoch": 1.5842696629213484,
11850
+ "grad_norm": 0.0,
11851
+ "learning_rate": 4.5428609472565155e-06,
11852
+ "loss": 1.1603,
11853
+ "step": 1692
11854
+ },
11855
+ {
11856
+ "epoch": 1.5852059925093633,
11857
+ "grad_norm": 0.0,
11858
+ "learning_rate": 4.523228495265069e-06,
11859
+ "loss": 1.1142,
11860
+ "step": 1693
11861
+ },
11862
+ {
11863
+ "epoch": 1.5861423220973783,
11864
+ "grad_norm": 0.0,
11865
+ "learning_rate": 4.503633146863884e-06,
11866
+ "loss": 1.0894,
11867
+ "step": 1694
11868
+ },
11869
+ {
11870
+ "epoch": 1.5870786516853932,
11871
+ "grad_norm": 0.0,
11872
+ "learning_rate": 4.484074949030311e-06,
11873
+ "loss": 1.1276,
11874
+ "step": 1695
11875
+ },
11876
+ {
11877
+ "epoch": 1.5880149812734081,
11878
+ "grad_norm": 0.0,
11879
+ "learning_rate": 4.464553948652652e-06,
11880
+ "loss": 1.1378,
11881
+ "step": 1696
11882
+ },
11883
+ {
11884
+ "epoch": 1.5889513108614233,
11885
+ "grad_norm": 0.0,
11886
+ "learning_rate": 4.445070192530014e-06,
11887
+ "loss": 1.1139,
11888
+ "step": 1697
11889
+ },
11890
+ {
11891
+ "epoch": 1.5898876404494382,
11892
+ "grad_norm": 0.0,
11893
+ "learning_rate": 4.425623727372219e-06,
11894
+ "loss": 1.1721,
11895
+ "step": 1698
11896
+ },
11897
+ {
11898
+ "epoch": 1.5908239700374533,
11899
+ "grad_norm": 0.0,
11900
+ "learning_rate": 4.406214599799699e-06,
11901
+ "loss": 1.1481,
11902
+ "step": 1699
11903
+ },
11904
+ {
11905
+ "epoch": 1.5917602996254683,
11906
+ "grad_norm": 0.0,
11907
+ "learning_rate": 4.38684285634337e-06,
11908
+ "loss": 1.1395,
11909
+ "step": 1700
11910
+ },
11911
+ {
11912
+ "epoch": 1.5926966292134832,
11913
+ "grad_norm": 0.0,
11914
+ "learning_rate": 4.367508543444514e-06,
11915
+ "loss": 1.1295,
11916
+ "step": 1701
11917
+ },
11918
+ {
11919
+ "epoch": 1.5936329588014981,
11920
+ "grad_norm": 0.0,
11921
+ "learning_rate": 4.3482117074546944e-06,
11922
+ "loss": 1.1242,
11923
+ "step": 1702
11924
+ },
11925
+ {
11926
+ "epoch": 1.594569288389513,
11927
+ "grad_norm": 0.0,
11928
+ "learning_rate": 4.328952394635615e-06,
11929
+ "loss": 1.1241,
11930
+ "step": 1703
11931
+ },
11932
+ {
11933
+ "epoch": 1.595505617977528,
11934
+ "grad_norm": 0.0,
11935
+ "learning_rate": 4.309730651159023e-06,
11936
+ "loss": 1.1349,
11937
+ "step": 1704
11938
+ },
11939
+ {
11940
+ "epoch": 1.596441947565543,
11941
+ "grad_norm": 0.0,
11942
+ "learning_rate": 4.290546523106614e-06,
11943
+ "loss": 1.1303,
11944
+ "step": 1705
11945
+ },
11946
+ {
11947
+ "epoch": 1.597378277153558,
11948
+ "grad_norm": 0.0,
11949
+ "learning_rate": 4.271400056469885e-06,
11950
+ "loss": 1.1152,
11951
+ "step": 1706
11952
+ },
11953
+ {
11954
+ "epoch": 1.598314606741573,
11955
+ "grad_norm": 0.0,
11956
+ "learning_rate": 4.252291297150053e-06,
11957
+ "loss": 1.1145,
11958
+ "step": 1707
11959
+ },
11960
+ {
11961
+ "epoch": 1.5992509363295881,
11962
+ "grad_norm": 0.0,
11963
+ "learning_rate": 4.233220290957944e-06,
11964
+ "loss": 1.1283,
11965
+ "step": 1708
11966
+ },
11967
+ {
11968
+ "epoch": 1.600187265917603,
11969
+ "grad_norm": 0.0,
11970
+ "learning_rate": 4.214187083613858e-06,
11971
+ "loss": 1.1321,
11972
+ "step": 1709
11973
+ },
11974
+ {
11975
+ "epoch": 1.601123595505618,
11976
+ "grad_norm": 0.0,
11977
+ "learning_rate": 4.195191720747496e-06,
11978
+ "loss": 1.1436,
11979
+ "step": 1710
11980
+ },
11981
+ {
11982
+ "epoch": 1.602059925093633,
11983
+ "grad_norm": 0.0,
11984
+ "learning_rate": 4.176234247897824e-06,
11985
+ "loss": 1.1157,
11986
+ "step": 1711
11987
+ },
11988
+ {
11989
+ "epoch": 1.6029962546816479,
11990
+ "grad_norm": 0.0,
11991
+ "learning_rate": 4.157314710512968e-06,
11992
+ "loss": 1.1178,
11993
+ "step": 1712
11994
+ },
11995
+ {
11996
+ "epoch": 1.6039325842696628,
11997
+ "grad_norm": 0.0,
11998
+ "learning_rate": 4.138433153950108e-06,
11999
+ "loss": 1.1501,
12000
+ "step": 1713
12001
+ },
12002
+ {
12003
+ "epoch": 1.604868913857678,
12004
+ "grad_norm": 0.0,
12005
+ "learning_rate": 4.11958962347538e-06,
12006
+ "loss": 1.1095,
12007
+ "step": 1714
12008
+ },
12009
+ {
12010
+ "epoch": 1.6058052434456929,
12011
+ "grad_norm": 0.0,
12012
+ "learning_rate": 4.100784164263747e-06,
12013
+ "loss": 1.172,
12014
+ "step": 1715
12015
+ },
12016
+ {
12017
+ "epoch": 1.606741573033708,
12018
+ "grad_norm": 0.0,
12019
+ "learning_rate": 4.0820168213989e-06,
12020
+ "loss": 1.1468,
12021
+ "step": 1716
12022
+ },
12023
+ {
12024
+ "epoch": 1.607677902621723,
12025
+ "grad_norm": 0.0,
12026
+ "learning_rate": 4.063287639873163e-06,
12027
+ "loss": 1.1513,
12028
+ "step": 1717
12029
+ },
12030
+ {
12031
+ "epoch": 1.6086142322097379,
12032
+ "grad_norm": 0.0,
12033
+ "learning_rate": 4.044596664587364e-06,
12034
+ "loss": 1.1497,
12035
+ "step": 1718
12036
+ },
12037
+ {
12038
+ "epoch": 1.6095505617977528,
12039
+ "grad_norm": 0.0,
12040
+ "learning_rate": 4.02594394035073e-06,
12041
+ "loss": 1.1375,
12042
+ "step": 1719
12043
+ },
12044
+ {
12045
+ "epoch": 1.6104868913857677,
12046
+ "grad_norm": 0.0,
12047
+ "learning_rate": 4.0073295118808e-06,
12048
+ "loss": 1.1103,
12049
+ "step": 1720
12050
+ },
12051
+ {
12052
+ "epoch": 1.6114232209737827,
12053
+ "grad_norm": 0.0,
12054
+ "learning_rate": 3.988753423803302e-06,
12055
+ "loss": 1.1027,
12056
+ "step": 1721
12057
+ },
12058
+ {
12059
+ "epoch": 1.6123595505617978,
12060
+ "grad_norm": 0.0,
12061
+ "learning_rate": 3.970215720652035e-06,
12062
+ "loss": 1.1495,
12063
+ "step": 1722
12064
+ },
12065
+ {
12066
+ "epoch": 1.6132958801498127,
12067
+ "grad_norm": 0.0,
12068
+ "learning_rate": 3.951716446868792e-06,
12069
+ "loss": 1.1401,
12070
+ "step": 1723
12071
+ },
12072
+ {
12073
+ "epoch": 1.6142322097378277,
12074
+ "grad_norm": 0.0,
12075
+ "learning_rate": 3.9332556468032154e-06,
12076
+ "loss": 1.1324,
12077
+ "step": 1724
12078
+ },
12079
+ {
12080
+ "epoch": 1.6151685393258428,
12081
+ "grad_norm": 0.0,
12082
+ "learning_rate": 3.91483336471274e-06,
12083
+ "loss": 1.1533,
12084
+ "step": 1725
12085
+ },
12086
+ {
12087
+ "epoch": 1.6161048689138577,
12088
+ "grad_norm": 0.0,
12089
+ "learning_rate": 3.896449644762432e-06,
12090
+ "loss": 1.1735,
12091
+ "step": 1726
12092
+ },
12093
+ {
12094
+ "epoch": 1.6170411985018727,
12095
+ "grad_norm": 0.0,
12096
+ "learning_rate": 3.8781045310249195e-06,
12097
+ "loss": 1.1851,
12098
+ "step": 1727
12099
+ },
12100
+ {
12101
+ "epoch": 1.6179775280898876,
12102
+ "grad_norm": 0.0,
12103
+ "learning_rate": 3.859798067480287e-06,
12104
+ "loss": 1.122,
12105
+ "step": 1728
12106
+ },
12107
+ {
12108
+ "epoch": 1.6189138576779025,
12109
+ "grad_norm": 0.0,
12110
+ "learning_rate": 3.841530298015947e-06,
12111
+ "loss": 1.1203,
12112
+ "step": 1729
12113
+ },
12114
+ {
12115
+ "epoch": 1.6198501872659175,
12116
+ "grad_norm": 0.0,
12117
+ "learning_rate": 3.823301266426547e-06,
12118
+ "loss": 1.157,
12119
+ "step": 1730
12120
+ },
12121
+ {
12122
+ "epoch": 1.6207865168539326,
12123
+ "grad_norm": 0.0,
12124
+ "learning_rate": 3.8051110164138784e-06,
12125
+ "loss": 1.1388,
12126
+ "step": 1731
12127
+ },
12128
+ {
12129
+ "epoch": 1.6217228464419475,
12130
+ "grad_norm": 0.0,
12131
+ "learning_rate": 3.786959591586743e-06,
12132
+ "loss": 1.1765,
12133
+ "step": 1732
12134
+ },
12135
+ {
12136
+ "epoch": 1.6226591760299627,
12137
+ "grad_norm": 0.0,
12138
+ "learning_rate": 3.7688470354608785e-06,
12139
+ "loss": 1.1289,
12140
+ "step": 1733
12141
+ },
12142
+ {
12143
+ "epoch": 1.6235955056179776,
12144
+ "grad_norm": 0.0,
12145
+ "learning_rate": 3.750773391458835e-06,
12146
+ "loss": 1.1855,
12147
+ "step": 1734
12148
+ },
12149
+ {
12150
+ "epoch": 1.6245318352059925,
12151
+ "grad_norm": 0.0,
12152
+ "learning_rate": 3.732738702909873e-06,
12153
+ "loss": 1.112,
12154
+ "step": 1735
12155
+ },
12156
+ {
12157
+ "epoch": 1.6254681647940075,
12158
+ "grad_norm": 0.0,
12159
+ "learning_rate": 3.714743013049853e-06,
12160
+ "loss": 1.147,
12161
+ "step": 1736
12162
+ },
12163
+ {
12164
+ "epoch": 1.6264044943820224,
12165
+ "grad_norm": 0.0,
12166
+ "learning_rate": 3.6967863650211677e-06,
12167
+ "loss": 1.0953,
12168
+ "step": 1737
12169
+ },
12170
+ {
12171
+ "epoch": 1.6273408239700373,
12172
+ "grad_norm": 0.0,
12173
+ "learning_rate": 3.678868801872586e-06,
12174
+ "loss": 1.119,
12175
+ "step": 1738
12176
+ },
12177
+ {
12178
+ "epoch": 1.6282771535580525,
12179
+ "grad_norm": 0.0,
12180
+ "learning_rate": 3.6609903665591804e-06,
12181
+ "loss": 1.1757,
12182
+ "step": 1739
12183
+ },
12184
+ {
12185
+ "epoch": 1.6292134831460674,
12186
+ "grad_norm": 0.0,
12187
+ "learning_rate": 3.6431511019422395e-06,
12188
+ "loss": 1.1023,
12189
+ "step": 1740
12190
+ },
12191
+ {
12192
+ "epoch": 1.6301498127340825,
12193
+ "grad_norm": 0.0,
12194
+ "learning_rate": 3.625351050789121e-06,
12195
+ "loss": 1.1254,
12196
+ "step": 1741
12197
+ },
12198
+ {
12199
+ "epoch": 1.6310861423220975,
12200
+ "grad_norm": 0.0,
12201
+ "learning_rate": 3.607590255773179e-06,
12202
+ "loss": 1.1341,
12203
+ "step": 1742
12204
+ },
12205
+ {
12206
+ "epoch": 1.6320224719101124,
12207
+ "grad_norm": 0.0,
12208
+ "learning_rate": 3.5898687594736625e-06,
12209
+ "loss": 1.1491,
12210
+ "step": 1743
12211
+ },
12212
+ {
12213
+ "epoch": 1.6329588014981273,
12214
+ "grad_norm": 0.0,
12215
+ "learning_rate": 3.5721866043756117e-06,
12216
+ "loss": 1.1443,
12217
+ "step": 1744
12218
+ },
12219
+ {
12220
+ "epoch": 1.6338951310861423,
12221
+ "grad_norm": 0.0,
12222
+ "learning_rate": 3.5545438328697324e-06,
12223
+ "loss": 1.1176,
12224
+ "step": 1745
12225
+ },
12226
+ {
12227
+ "epoch": 1.6348314606741572,
12228
+ "grad_norm": 0.0,
12229
+ "learning_rate": 3.536940487252334e-06,
12230
+ "loss": 1.1327,
12231
+ "step": 1746
12232
+ },
12233
+ {
12234
+ "epoch": 1.6357677902621723,
12235
+ "grad_norm": 0.0,
12236
+ "learning_rate": 3.5193766097251914e-06,
12237
+ "loss": 1.1626,
12238
+ "step": 1747
12239
+ },
12240
+ {
12241
+ "epoch": 1.6367041198501873,
12242
+ "grad_norm": 0.0,
12243
+ "learning_rate": 3.501852242395463e-06,
12244
+ "loss": 1.1547,
12245
+ "step": 1748
12246
+ },
12247
+ {
12248
+ "epoch": 1.6376404494382022,
12249
+ "grad_norm": 0.0,
12250
+ "learning_rate": 3.4843674272755967e-06,
12251
+ "loss": 1.2044,
12252
+ "step": 1749
12253
+ },
12254
+ {
12255
+ "epoch": 1.6385767790262173,
12256
+ "grad_norm": 0.0,
12257
+ "learning_rate": 3.4669222062832098e-06,
12258
+ "loss": 1.1689,
12259
+ "step": 1750
12260
+ },
12261
+ {
12262
+ "epoch": 1.6395131086142323,
12263
+ "grad_norm": 0.0,
12264
+ "learning_rate": 3.449516621240994e-06,
12265
+ "loss": 1.1815,
12266
+ "step": 1751
12267
+ },
12268
+ {
12269
+ "epoch": 1.6404494382022472,
12270
+ "grad_norm": 0.0,
12271
+ "learning_rate": 3.432150713876634e-06,
12272
+ "loss": 1.1351,
12273
+ "step": 1752
12274
+ },
12275
+ {
12276
+ "epoch": 1.6413857677902621,
12277
+ "grad_norm": 0.0,
12278
+ "learning_rate": 3.414824525822673e-06,
12279
+ "loss": 1.1487,
12280
+ "step": 1753
12281
+ },
12282
+ {
12283
+ "epoch": 1.642322097378277,
12284
+ "grad_norm": 0.0,
12285
+ "learning_rate": 3.397538098616453e-06,
12286
+ "loss": 1.1323,
12287
+ "step": 1754
12288
+ },
12289
+ {
12290
+ "epoch": 1.643258426966292,
12291
+ "grad_norm": 0.0,
12292
+ "learning_rate": 3.38029147369997e-06,
12293
+ "loss": 1.1588,
12294
+ "step": 1755
12295
+ },
12296
+ {
12297
+ "epoch": 1.6441947565543071,
12298
+ "grad_norm": 0.0,
12299
+ "learning_rate": 3.3630846924198268e-06,
12300
+ "loss": 1.1534,
12301
+ "step": 1756
12302
+ },
12303
+ {
12304
+ "epoch": 1.645131086142322,
12305
+ "grad_norm": 0.0,
12306
+ "learning_rate": 3.3459177960270807e-06,
12307
+ "loss": 1.1498,
12308
+ "step": 1757
12309
+ },
12310
+ {
12311
+ "epoch": 1.6460674157303372,
12312
+ "grad_norm": 0.0,
12313
+ "learning_rate": 3.3287908256771904e-06,
12314
+ "loss": 1.0942,
12315
+ "step": 1758
12316
+ },
12317
+ {
12318
+ "epoch": 1.6470037453183521,
12319
+ "grad_norm": 0.0,
12320
+ "learning_rate": 3.311703822429886e-06,
12321
+ "loss": 1.1544,
12322
+ "step": 1759
12323
+ },
12324
+ {
12325
+ "epoch": 1.647940074906367,
12326
+ "grad_norm": 0.0,
12327
+ "learning_rate": 3.294656827249074e-06,
12328
+ "loss": 1.1519,
12329
+ "step": 1760
12330
+ },
12331
+ {
12332
+ "epoch": 1.648876404494382,
12333
+ "grad_norm": 0.0,
12334
+ "learning_rate": 3.277649881002767e-06,
12335
+ "loss": 1.2016,
12336
+ "step": 1761
12337
+ },
12338
+ {
12339
+ "epoch": 1.649812734082397,
12340
+ "grad_norm": 0.0,
12341
+ "learning_rate": 3.2606830244629516e-06,
12342
+ "loss": 1.1253,
12343
+ "step": 1762
12344
+ },
12345
+ {
12346
+ "epoch": 1.6507490636704119,
12347
+ "grad_norm": 0.0,
12348
+ "learning_rate": 3.2437562983055026e-06,
12349
+ "loss": 1.1326,
12350
+ "step": 1763
12351
+ },
12352
+ {
12353
+ "epoch": 1.651685393258427,
12354
+ "grad_norm": 0.0,
12355
+ "learning_rate": 3.2268697431100995e-06,
12356
+ "loss": 1.1575,
12357
+ "step": 1764
12358
+ },
12359
+ {
12360
+ "epoch": 1.652621722846442,
12361
+ "grad_norm": 0.0,
12362
+ "learning_rate": 3.2100233993601004e-06,
12363
+ "loss": 1.1771,
12364
+ "step": 1765
12365
+ },
12366
+ {
12367
+ "epoch": 1.653558052434457,
12368
+ "grad_norm": 0.0,
12369
+ "learning_rate": 3.1932173074424777e-06,
12370
+ "loss": 1.1624,
12371
+ "step": 1766
12372
+ },
12373
+ {
12374
+ "epoch": 1.654494382022472,
12375
+ "grad_norm": 0.0,
12376
+ "learning_rate": 3.1764515076477e-06,
12377
+ "loss": 1.122,
12378
+ "step": 1767
12379
+ },
12380
+ {
12381
+ "epoch": 1.655430711610487,
12382
+ "grad_norm": 0.0,
12383
+ "learning_rate": 3.1597260401696374e-06,
12384
+ "loss": 1.1395,
12385
+ "step": 1768
12386
+ },
12387
+ {
12388
+ "epoch": 1.6563670411985019,
12389
+ "grad_norm": 0.0,
12390
+ "learning_rate": 3.1430409451054624e-06,
12391
+ "loss": 1.0973,
12392
+ "step": 1769
12393
+ },
12394
+ {
12395
+ "epoch": 1.6573033707865168,
12396
+ "grad_norm": 0.0,
12397
+ "learning_rate": 3.1263962624555776e-06,
12398
+ "loss": 1.114,
12399
+ "step": 1770
12400
+ },
12401
+ {
12402
+ "epoch": 1.6582397003745317,
12403
+ "grad_norm": 0.0,
12404
+ "learning_rate": 3.1097920321234866e-06,
12405
+ "loss": 1.1375,
12406
+ "step": 1771
12407
+ },
12408
+ {
12409
+ "epoch": 1.6591760299625467,
12410
+ "grad_norm": 0.0,
12411
+ "learning_rate": 3.0932282939157133e-06,
12412
+ "loss": 1.1368,
12413
+ "step": 1772
12414
+ },
12415
+ {
12416
+ "epoch": 1.6601123595505618,
12417
+ "grad_norm": 0.0,
12418
+ "learning_rate": 3.0767050875417246e-06,
12419
+ "loss": 1.1765,
12420
+ "step": 1773
12421
+ },
12422
+ {
12423
+ "epoch": 1.6610486891385767,
12424
+ "grad_norm": 0.0,
12425
+ "learning_rate": 3.060222452613797e-06,
12426
+ "loss": 1.1724,
12427
+ "step": 1774
12428
+ },
12429
+ {
12430
+ "epoch": 1.6619850187265919,
12431
+ "grad_norm": 0.0,
12432
+ "learning_rate": 3.0437804286469474e-06,
12433
+ "loss": 1.101,
12434
+ "step": 1775
12435
+ },
12436
+ {
12437
+ "epoch": 1.6629213483146068,
12438
+ "grad_norm": 0.0,
12439
+ "learning_rate": 3.0273790550588412e-06,
12440
+ "loss": 1.177,
12441
+ "step": 1776
12442
+ },
12443
+ {
12444
+ "epoch": 1.6638576779026217,
12445
+ "grad_norm": 0.0,
12446
+ "learning_rate": 3.0110183711696894e-06,
12447
+ "loss": 1.1187,
12448
+ "step": 1777
12449
+ },
12450
+ {
12451
+ "epoch": 1.6647940074906367,
12452
+ "grad_norm": 0.0,
12453
+ "learning_rate": 2.9946984162021377e-06,
12454
+ "loss": 1.1256,
12455
+ "step": 1778
12456
+ },
12457
+ {
12458
+ "epoch": 1.6657303370786516,
12459
+ "grad_norm": 0.0,
12460
+ "learning_rate": 2.978419229281213e-06,
12461
+ "loss": 1.1114,
12462
+ "step": 1779
12463
+ },
12464
+ {
12465
+ "epoch": 1.6666666666666665,
12466
+ "grad_norm": 0.0,
12467
+ "learning_rate": 2.962180849434191e-06,
12468
+ "loss": 1.1562,
12469
+ "step": 1780
12470
+ },
12471
+ {
12472
+ "epoch": 1.6676029962546817,
12473
+ "grad_norm": 0.0,
12474
+ "learning_rate": 2.945983315590513e-06,
12475
+ "loss": 1.1561,
12476
+ "step": 1781
12477
+ },
12478
+ {
12479
+ "epoch": 1.6685393258426966,
12480
+ "grad_norm": 0.0,
12481
+ "learning_rate": 2.9298266665817167e-06,
12482
+ "loss": 1.101,
12483
+ "step": 1782
12484
+ },
12485
+ {
12486
+ "epoch": 1.6694756554307117,
12487
+ "grad_norm": 0.0,
12488
+ "learning_rate": 2.9137109411413058e-06,
12489
+ "loss": 1.1677,
12490
+ "step": 1783
12491
+ },
12492
+ {
12493
+ "epoch": 1.6704119850187267,
12494
+ "grad_norm": 0.0,
12495
+ "learning_rate": 2.8976361779046793e-06,
12496
+ "loss": 1.1426,
12497
+ "step": 1784
12498
+ },
12499
+ {
12500
+ "epoch": 1.6713483146067416,
12501
+ "grad_norm": 0.0,
12502
+ "learning_rate": 2.8816024154090437e-06,
12503
+ "loss": 1.1294,
12504
+ "step": 1785
12505
+ },
12506
+ {
12507
+ "epoch": 1.6722846441947565,
12508
+ "grad_norm": 0.0,
12509
+ "learning_rate": 2.865609692093296e-06,
12510
+ "loss": 1.1024,
12511
+ "step": 1786
12512
+ },
12513
+ {
12514
+ "epoch": 1.6732209737827715,
12515
+ "grad_norm": 0.0,
12516
+ "learning_rate": 2.849658046297965e-06,
12517
+ "loss": 1.1059,
12518
+ "step": 1787
12519
+ },
12520
+ {
12521
+ "epoch": 1.6741573033707864,
12522
+ "grad_norm": 0.0,
12523
+ "learning_rate": 2.833747516265082e-06,
12524
+ "loss": 1.1023,
12525
+ "step": 1788
12526
+ },
12527
+ {
12528
+ "epoch": 1.6750936329588015,
12529
+ "grad_norm": 0.0,
12530
+ "learning_rate": 2.8178781401381215e-06,
12531
+ "loss": 1.1259,
12532
+ "step": 1789
12533
+ },
12534
+ {
12535
+ "epoch": 1.6760299625468165,
12536
+ "grad_norm": 0.0,
12537
+ "learning_rate": 2.802049955961901e-06,
12538
+ "loss": 1.0863,
12539
+ "step": 1790
12540
+ },
12541
+ {
12542
+ "epoch": 1.6769662921348316,
12543
+ "grad_norm": 0.0,
12544
+ "learning_rate": 2.78626300168247e-06,
12545
+ "loss": 1.1555,
12546
+ "step": 1791
12547
+ },
12548
+ {
12549
+ "epoch": 1.6779026217228465,
12550
+ "grad_norm": 0.0,
12551
+ "learning_rate": 2.770517315147039e-06,
12552
+ "loss": 1.0907,
12553
+ "step": 1792
12554
+ },
12555
+ {
12556
+ "epoch": 1.6788389513108615,
12557
+ "grad_norm": 0.0,
12558
+ "learning_rate": 2.7548129341038966e-06,
12559
+ "loss": 1.0777,
12560
+ "step": 1793
12561
+ },
12562
+ {
12563
+ "epoch": 1.6797752808988764,
12564
+ "grad_norm": 0.0,
12565
+ "learning_rate": 2.7391498962022934e-06,
12566
+ "loss": 1.1522,
12567
+ "step": 1794
12568
+ },
12569
+ {
12570
+ "epoch": 1.6807116104868913,
12571
+ "grad_norm": 0.0,
12572
+ "learning_rate": 2.7235282389923677e-06,
12573
+ "loss": 1.1227,
12574
+ "step": 1795
12575
+ },
12576
+ {
12577
+ "epoch": 1.6816479400749063,
12578
+ "grad_norm": 0.0,
12579
+ "learning_rate": 2.70794799992506e-06,
12580
+ "loss": 1.1192,
12581
+ "step": 1796
12582
+ },
12583
+ {
12584
+ "epoch": 1.6825842696629212,
12585
+ "grad_norm": 0.0,
12586
+ "learning_rate": 2.6924092163520098e-06,
12587
+ "loss": 1.0938,
12588
+ "step": 1797
12589
+ },
12590
+ {
12591
+ "epoch": 1.6835205992509363,
12592
+ "grad_norm": 0.0,
12593
+ "learning_rate": 2.676911925525467e-06,
12594
+ "loss": 1.1367,
12595
+ "step": 1798
12596
+ },
12597
+ {
12598
+ "epoch": 1.6844569288389513,
12599
+ "grad_norm": 0.0,
12600
+ "learning_rate": 2.6614561645982196e-06,
12601
+ "loss": 1.0976,
12602
+ "step": 1799
12603
+ },
12604
+ {
12605
+ "epoch": 1.6853932584269664,
12606
+ "grad_norm": 0.0,
12607
+ "learning_rate": 2.6460419706234897e-06,
12608
+ "loss": 1.1064,
12609
+ "step": 1800
12610
  }
12611
  ],
12612
  "logging_steps": 1,
 
12626
  "attributes": {}
12627
  }
12628
  },
12629
+ "total_flos": 5.889731177333391e+18,
12630
  "train_batch_size": 8,
12631
  "trial_name": null,
12632
  "trial_params": null