error577 commited on
Commit
4fba743
·
verified ·
1 Parent(s): 29c4dc1

Training in progress, step 1000, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fce1e5e1e424135e074eb61cc26e9921827724b0a6799c8f915f3700eaf1e0ca
3
  size 100966336
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a34e1c3eefe67e3c3b7ca69b7bf2b61344d84bf7fcbffe4179a85113175b184
3
  size 100966336
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:de3dcf3fc76dc3a5c1d850370ba079703b233acb1f00dac8b16829079d2f090e
3
  size 51613668
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e32ec59747e1e82a1285705a0ea2dc4241c13f194910cbdadecdd9efc35bb19
3
  size 51613668
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:100f1276fdb73ef57a30a141cf72e284d1cb4904926d28d3dd939b0756f5dbad
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5ba63c0f98e0aaab10c7eb5cb1d2fe94362ee6fea2eb67e46f979e752587f0af
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:71d089c6fbd6e2dbaa5314c72dca256adc4f19ec34a0645ec7336fcfc096f5e2
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:15f8669faa402ee0cdd93395e0f0ae74d45b29ab3377a6deed5d79a02e86432c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.0015288225840777159,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
- "epoch": 0.14805218839640974,
5
  "eval_steps": 200,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5647,6 +5647,1414 @@
5647
  "eval_samples_per_second": 21.883,
5648
  "eval_steps_per_second": 10.941,
5649
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5650
  }
5651
  ],
5652
  "logging_steps": 1,
@@ -5661,7 +7069,7 @@
5661
  "early_stopping_threshold": 0.0
5662
  },
5663
  "attributes": {
5664
- "early_stopping_patience_counter": 2
5665
  }
5666
  },
5667
  "TrainerControl": {
@@ -5670,12 +7078,12 @@
5670
  "should_evaluate": false,
5671
  "should_log": false,
5672
  "should_save": true,
5673
- "should_training_stop": false
5674
  },
5675
  "attributes": {}
5676
  }
5677
  },
5678
- "total_flos": 2.4943892172374016e+16,
5679
  "train_batch_size": 2,
5680
  "trial_name": null,
5681
  "trial_params": null
 
1
  {
2
  "best_metric": 0.0015288225840777159,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
+ "epoch": 0.18506523549551218,
5
  "eval_steps": 200,
6
+ "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5647
  "eval_samples_per_second": 21.883,
5648
  "eval_steps_per_second": 10.941,
5649
  "step": 800
5650
+ },
5651
+ {
5652
+ "epoch": 0.14823725363190524,
5653
+ "grad_norm": 0.0027204654179513454,
5654
+ "learning_rate": 0.00019888142826480451,
5655
+ "loss": 0.0002,
5656
+ "step": 801
5657
+ },
5658
+ {
5659
+ "epoch": 0.14842231886740076,
5660
+ "grad_norm": 0.003083963645622134,
5661
+ "learning_rate": 0.00019887853020944678,
5662
+ "loss": 0.0002,
5663
+ "step": 802
5664
+ },
5665
+ {
5666
+ "epoch": 0.14860738410289628,
5667
+ "grad_norm": 0.00834161601960659,
5668
+ "learning_rate": 0.00019887562842589593,
5669
+ "loss": 0.0006,
5670
+ "step": 803
5671
+ },
5672
+ {
5673
+ "epoch": 0.14879244933839178,
5674
+ "grad_norm": 0.0013405329082161188,
5675
+ "learning_rate": 0.00019887272291426141,
5676
+ "loss": 0.0002,
5677
+ "step": 804
5678
+ },
5679
+ {
5680
+ "epoch": 0.1489775145738873,
5681
+ "grad_norm": 0.09376765787601471,
5682
+ "learning_rate": 0.0001988698136746528,
5683
+ "loss": 0.0045,
5684
+ "step": 805
5685
+ },
5686
+ {
5687
+ "epoch": 0.1491625798093828,
5688
+ "grad_norm": 0.01702548936009407,
5689
+ "learning_rate": 0.00019886690070717978,
5690
+ "loss": 0.0007,
5691
+ "step": 806
5692
+ },
5693
+ {
5694
+ "epoch": 0.14934764504487832,
5695
+ "grad_norm": 0.0030693926382809877,
5696
+ "learning_rate": 0.00019886398401195213,
5697
+ "loss": 0.0003,
5698
+ "step": 807
5699
+ },
5700
+ {
5701
+ "epoch": 0.14953271028037382,
5702
+ "grad_norm": 0.09932032227516174,
5703
+ "learning_rate": 0.00019886106358907982,
5704
+ "loss": 0.0028,
5705
+ "step": 808
5706
+ },
5707
+ {
5708
+ "epoch": 0.14971777551586934,
5709
+ "grad_norm": 0.10470867156982422,
5710
+ "learning_rate": 0.0001988581394386731,
5711
+ "loss": 0.0013,
5712
+ "step": 809
5713
+ },
5714
+ {
5715
+ "epoch": 0.14990284075136487,
5716
+ "grad_norm": 0.013230692595243454,
5717
+ "learning_rate": 0.00019885521156084207,
5718
+ "loss": 0.0005,
5719
+ "step": 810
5720
+ },
5721
+ {
5722
+ "epoch": 0.15008790598686036,
5723
+ "grad_norm": 0.0016286876052618027,
5724
+ "learning_rate": 0.00019885227995569715,
5725
+ "loss": 0.0002,
5726
+ "step": 811
5727
+ },
5728
+ {
5729
+ "epoch": 0.1502729712223559,
5730
+ "grad_norm": 0.03855406120419502,
5731
+ "learning_rate": 0.00019884934462334898,
5732
+ "loss": 0.0008,
5733
+ "step": 812
5734
+ },
5735
+ {
5736
+ "epoch": 0.15045803645785139,
5737
+ "grad_norm": 0.005248669069260359,
5738
+ "learning_rate": 0.0001988464055639081,
5739
+ "loss": 0.0003,
5740
+ "step": 813
5741
+ },
5742
+ {
5743
+ "epoch": 0.1506431016933469,
5744
+ "grad_norm": 0.0074467347003519535,
5745
+ "learning_rate": 0.00019884346277748545,
5746
+ "loss": 0.0004,
5747
+ "step": 814
5748
+ },
5749
+ {
5750
+ "epoch": 0.1508281669288424,
5751
+ "grad_norm": 0.4559827446937561,
5752
+ "learning_rate": 0.0001988405162641919,
5753
+ "loss": 0.0047,
5754
+ "step": 815
5755
+ },
5756
+ {
5757
+ "epoch": 0.15101323216433793,
5758
+ "grad_norm": 0.0009584883810020983,
5759
+ "learning_rate": 0.00019883756602413858,
5760
+ "loss": 0.0001,
5761
+ "step": 816
5762
+ },
5763
+ {
5764
+ "epoch": 0.15119829739983345,
5765
+ "grad_norm": 0.0027457585092633963,
5766
+ "learning_rate": 0.0001988346120574367,
5767
+ "loss": 0.0002,
5768
+ "step": 817
5769
+ },
5770
+ {
5771
+ "epoch": 0.15138336263532895,
5772
+ "grad_norm": 0.06770993024110794,
5773
+ "learning_rate": 0.0001988316543641977,
5774
+ "loss": 0.0042,
5775
+ "step": 818
5776
+ },
5777
+ {
5778
+ "epoch": 0.15156842787082447,
5779
+ "grad_norm": 0.08119744807481766,
5780
+ "learning_rate": 0.00019882869294453307,
5781
+ "loss": 0.0015,
5782
+ "step": 819
5783
+ },
5784
+ {
5785
+ "epoch": 0.15175349310631997,
5786
+ "grad_norm": 0.00217386893928051,
5787
+ "learning_rate": 0.00019882572779855438,
5788
+ "loss": 0.0002,
5789
+ "step": 820
5790
+ },
5791
+ {
5792
+ "epoch": 0.1519385583418155,
5793
+ "grad_norm": 0.00926368311047554,
5794
+ "learning_rate": 0.0001988227589263736,
5795
+ "loss": 0.0002,
5796
+ "step": 821
5797
+ },
5798
+ {
5799
+ "epoch": 0.152123623577311,
5800
+ "grad_norm": 0.0006100459722802043,
5801
+ "learning_rate": 0.00019881978632810255,
5802
+ "loss": 0.0001,
5803
+ "step": 822
5804
+ },
5805
+ {
5806
+ "epoch": 0.15230868881280651,
5807
+ "grad_norm": 0.003751414595171809,
5808
+ "learning_rate": 0.00019881681000385334,
5809
+ "loss": 0.0002,
5810
+ "step": 823
5811
+ },
5812
+ {
5813
+ "epoch": 0.15249375404830204,
5814
+ "grad_norm": 0.00555981183424592,
5815
+ "learning_rate": 0.00019881382995373822,
5816
+ "loss": 0.0004,
5817
+ "step": 824
5818
+ },
5819
+ {
5820
+ "epoch": 0.15267881928379753,
5821
+ "grad_norm": 0.0011659067822620273,
5822
+ "learning_rate": 0.0001988108461778695,
5823
+ "loss": 0.0001,
5824
+ "step": 825
5825
+ },
5826
+ {
5827
+ "epoch": 0.15286388451929306,
5828
+ "grad_norm": 0.0023037681821733713,
5829
+ "learning_rate": 0.0001988078586763597,
5830
+ "loss": 0.0003,
5831
+ "step": 826
5832
+ },
5833
+ {
5834
+ "epoch": 0.15304894975478855,
5835
+ "grad_norm": 0.001487642410211265,
5836
+ "learning_rate": 0.0001988048674493215,
5837
+ "loss": 0.0002,
5838
+ "step": 827
5839
+ },
5840
+ {
5841
+ "epoch": 0.15323401499028408,
5842
+ "grad_norm": 0.0758136436343193,
5843
+ "learning_rate": 0.00019880187249686766,
5844
+ "loss": 0.0055,
5845
+ "step": 828
5846
+ },
5847
+ {
5848
+ "epoch": 0.15341908022577957,
5849
+ "grad_norm": 0.0020462728571146727,
5850
+ "learning_rate": 0.0001987988738191111,
5851
+ "loss": 0.0002,
5852
+ "step": 829
5853
+ },
5854
+ {
5855
+ "epoch": 0.1536041454612751,
5856
+ "grad_norm": 0.0192215908318758,
5857
+ "learning_rate": 0.00019879587141616485,
5858
+ "loss": 0.0006,
5859
+ "step": 830
5860
+ },
5861
+ {
5862
+ "epoch": 0.15378921069677062,
5863
+ "grad_norm": 0.0020349507685750723,
5864
+ "learning_rate": 0.00019879286528814218,
5865
+ "loss": 0.0002,
5866
+ "step": 831
5867
+ },
5868
+ {
5869
+ "epoch": 0.15397427593226612,
5870
+ "grad_norm": 0.0010202473495155573,
5871
+ "learning_rate": 0.0001987898554351564,
5872
+ "loss": 0.0001,
5873
+ "step": 832
5874
+ },
5875
+ {
5876
+ "epoch": 0.15415934116776164,
5877
+ "grad_norm": 0.25521135330200195,
5878
+ "learning_rate": 0.00019878684185732103,
5879
+ "loss": 0.0027,
5880
+ "step": 833
5881
+ },
5882
+ {
5883
+ "epoch": 0.15434440640325714,
5884
+ "grad_norm": 0.02357971854507923,
5885
+ "learning_rate": 0.00019878382455474963,
5886
+ "loss": 0.0008,
5887
+ "step": 834
5888
+ },
5889
+ {
5890
+ "epoch": 0.15452947163875266,
5891
+ "grad_norm": 0.0028601621743291616,
5892
+ "learning_rate": 0.00019878080352755598,
5893
+ "loss": 0.0002,
5894
+ "step": 835
5895
+ },
5896
+ {
5897
+ "epoch": 0.15471453687424816,
5898
+ "grad_norm": 0.0013797554420307279,
5899
+ "learning_rate": 0.00019877777877585405,
5900
+ "loss": 0.0001,
5901
+ "step": 836
5902
+ },
5903
+ {
5904
+ "epoch": 0.15489960210974368,
5905
+ "grad_norm": 0.011994694359600544,
5906
+ "learning_rate": 0.00019877475029975785,
5907
+ "loss": 0.0006,
5908
+ "step": 837
5909
+ },
5910
+ {
5911
+ "epoch": 0.1550846673452392,
5912
+ "grad_norm": 0.2087889313697815,
5913
+ "learning_rate": 0.00019877171809938156,
5914
+ "loss": 0.0034,
5915
+ "step": 838
5916
+ },
5917
+ {
5918
+ "epoch": 0.1552697325807347,
5919
+ "grad_norm": 0.01124395802617073,
5920
+ "learning_rate": 0.0001987686821748395,
5921
+ "loss": 0.001,
5922
+ "step": 839
5923
+ },
5924
+ {
5925
+ "epoch": 0.15545479781623023,
5926
+ "grad_norm": 0.04885182902216911,
5927
+ "learning_rate": 0.00019876564252624616,
5928
+ "loss": 0.0004,
5929
+ "step": 840
5930
+ },
5931
+ {
5932
+ "epoch": 0.15563986305172572,
5933
+ "grad_norm": 0.0007935105240903795,
5934
+ "learning_rate": 0.00019876259915371618,
5935
+ "loss": 0.0001,
5936
+ "step": 841
5937
+ },
5938
+ {
5939
+ "epoch": 0.15582492828722125,
5940
+ "grad_norm": 0.04080585017800331,
5941
+ "learning_rate": 0.00019875955205736422,
5942
+ "loss": 0.0008,
5943
+ "step": 842
5944
+ },
5945
+ {
5946
+ "epoch": 0.15600999352271674,
5947
+ "grad_norm": 0.016090860590338707,
5948
+ "learning_rate": 0.00019875650123730526,
5949
+ "loss": 0.0003,
5950
+ "step": 843
5951
+ },
5952
+ {
5953
+ "epoch": 0.15619505875821227,
5954
+ "grad_norm": 0.001955505693331361,
5955
+ "learning_rate": 0.0001987534466936543,
5956
+ "loss": 0.0002,
5957
+ "step": 844
5958
+ },
5959
+ {
5960
+ "epoch": 0.1563801239937078,
5961
+ "grad_norm": 0.044548399746418,
5962
+ "learning_rate": 0.0001987503884265265,
5963
+ "loss": 0.0025,
5964
+ "step": 845
5965
+ },
5966
+ {
5967
+ "epoch": 0.1565651892292033,
5968
+ "grad_norm": 0.00806332565844059,
5969
+ "learning_rate": 0.00019874732643603715,
5970
+ "loss": 0.0005,
5971
+ "step": 846
5972
+ },
5973
+ {
5974
+ "epoch": 0.1567502544646988,
5975
+ "grad_norm": 0.1479962319135666,
5976
+ "learning_rate": 0.00019874426072230173,
5977
+ "loss": 0.0011,
5978
+ "step": 847
5979
+ },
5980
+ {
5981
+ "epoch": 0.1569353197001943,
5982
+ "grad_norm": 0.003856030525639653,
5983
+ "learning_rate": 0.00019874119128543584,
5984
+ "loss": 0.0002,
5985
+ "step": 848
5986
+ },
5987
+ {
5988
+ "epoch": 0.15712038493568983,
5989
+ "grad_norm": 0.0037897711154073477,
5990
+ "learning_rate": 0.00019873811812555522,
5991
+ "loss": 0.0003,
5992
+ "step": 849
5993
+ },
5994
+ {
5995
+ "epoch": 0.15730545017118533,
5996
+ "grad_norm": 0.0020272263791412115,
5997
+ "learning_rate": 0.0001987350412427757,
5998
+ "loss": 0.0002,
5999
+ "step": 850
6000
+ },
6001
+ {
6002
+ "epoch": 0.15749051540668085,
6003
+ "grad_norm": 0.001225305488333106,
6004
+ "learning_rate": 0.00019873196063721334,
6005
+ "loss": 0.0001,
6006
+ "step": 851
6007
+ },
6008
+ {
6009
+ "epoch": 0.15767558064217638,
6010
+ "grad_norm": 0.0012447525514289737,
6011
+ "learning_rate": 0.00019872887630898424,
6012
+ "loss": 0.0001,
6013
+ "step": 852
6014
+ },
6015
+ {
6016
+ "epoch": 0.15786064587767187,
6017
+ "grad_norm": 0.018615124747157097,
6018
+ "learning_rate": 0.00019872578825820477,
6019
+ "loss": 0.0004,
6020
+ "step": 853
6021
+ },
6022
+ {
6023
+ "epoch": 0.1580457111131674,
6024
+ "grad_norm": 0.01611863076686859,
6025
+ "learning_rate": 0.00019872269648499126,
6026
+ "loss": 0.0004,
6027
+ "step": 854
6028
+ },
6029
+ {
6030
+ "epoch": 0.1582307763486629,
6031
+ "grad_norm": 0.3293641209602356,
6032
+ "learning_rate": 0.00019871960098946038,
6033
+ "loss": 0.0155,
6034
+ "step": 855
6035
+ },
6036
+ {
6037
+ "epoch": 0.15841584158415842,
6038
+ "grad_norm": 0.0038168844766914845,
6039
+ "learning_rate": 0.00019871650177172883,
6040
+ "loss": 0.0002,
6041
+ "step": 856
6042
+ },
6043
+ {
6044
+ "epoch": 0.15860090681965394,
6045
+ "grad_norm": 0.04572943598031998,
6046
+ "learning_rate": 0.00019871339883191342,
6047
+ "loss": 0.0019,
6048
+ "step": 857
6049
+ },
6050
+ {
6051
+ "epoch": 0.15878597205514944,
6052
+ "grad_norm": 0.0027950333897024393,
6053
+ "learning_rate": 0.00019871029217013116,
6054
+ "loss": 0.0002,
6055
+ "step": 858
6056
+ },
6057
+ {
6058
+ "epoch": 0.15897103729064496,
6059
+ "grad_norm": 0.024270273745059967,
6060
+ "learning_rate": 0.00019870718178649922,
6061
+ "loss": 0.0008,
6062
+ "step": 859
6063
+ },
6064
+ {
6065
+ "epoch": 0.15915610252614046,
6066
+ "grad_norm": 0.0011921890545636415,
6067
+ "learning_rate": 0.00019870406768113485,
6068
+ "loss": 0.0001,
6069
+ "step": 860
6070
+ },
6071
+ {
6072
+ "epoch": 0.15934116776163598,
6073
+ "grad_norm": 0.1097538024187088,
6074
+ "learning_rate": 0.00019870094985415546,
6075
+ "loss": 0.0007,
6076
+ "step": 861
6077
+ },
6078
+ {
6079
+ "epoch": 0.15952623299713148,
6080
+ "grad_norm": 0.20224367082118988,
6081
+ "learning_rate": 0.00019869782830567862,
6082
+ "loss": 0.0064,
6083
+ "step": 862
6084
+ },
6085
+ {
6086
+ "epoch": 0.159711298232627,
6087
+ "grad_norm": 0.007074209861457348,
6088
+ "learning_rate": 0.00019869470303582201,
6089
+ "loss": 0.0002,
6090
+ "step": 863
6091
+ },
6092
+ {
6093
+ "epoch": 0.15989636346812253,
6094
+ "grad_norm": 0.004815272521227598,
6095
+ "learning_rate": 0.0001986915740447035,
6096
+ "loss": 0.0003,
6097
+ "step": 864
6098
+ },
6099
+ {
6100
+ "epoch": 0.16008142870361802,
6101
+ "grad_norm": 0.0019826674833893776,
6102
+ "learning_rate": 0.00019868844133244106,
6103
+ "loss": 0.0001,
6104
+ "step": 865
6105
+ },
6106
+ {
6107
+ "epoch": 0.16026649393911355,
6108
+ "grad_norm": 0.014026563614606857,
6109
+ "learning_rate": 0.00019868530489915279,
6110
+ "loss": 0.0004,
6111
+ "step": 866
6112
+ },
6113
+ {
6114
+ "epoch": 0.16045155917460904,
6115
+ "grad_norm": 0.006988345645368099,
6116
+ "learning_rate": 0.00019868216474495693,
6117
+ "loss": 0.0003,
6118
+ "step": 867
6119
+ },
6120
+ {
6121
+ "epoch": 0.16063662441010457,
6122
+ "grad_norm": 0.010466384701430798,
6123
+ "learning_rate": 0.00019867902086997196,
6124
+ "loss": 0.0003,
6125
+ "step": 868
6126
+ },
6127
+ {
6128
+ "epoch": 0.16082168964560006,
6129
+ "grad_norm": 0.0015272882301360369,
6130
+ "learning_rate": 0.0001986758732743163,
6131
+ "loss": 0.0002,
6132
+ "step": 869
6133
+ },
6134
+ {
6135
+ "epoch": 0.1610067548810956,
6136
+ "grad_norm": 0.030166354030370712,
6137
+ "learning_rate": 0.00019867272195810875,
6138
+ "loss": 0.0008,
6139
+ "step": 870
6140
+ },
6141
+ {
6142
+ "epoch": 0.1611918201165911,
6143
+ "grad_norm": 0.004422664642333984,
6144
+ "learning_rate": 0.000198669566921468,
6145
+ "loss": 0.0004,
6146
+ "step": 871
6147
+ },
6148
+ {
6149
+ "epoch": 0.1613768853520866,
6150
+ "grad_norm": 0.0035160244442522526,
6151
+ "learning_rate": 0.00019866640816451313,
6152
+ "loss": 0.0003,
6153
+ "step": 872
6154
+ },
6155
+ {
6156
+ "epoch": 0.16156195058758213,
6157
+ "grad_norm": 0.09532395750284195,
6158
+ "learning_rate": 0.00019866324568736321,
6159
+ "loss": 0.0018,
6160
+ "step": 873
6161
+ },
6162
+ {
6163
+ "epoch": 0.16174701582307763,
6164
+ "grad_norm": 0.0015503017930313945,
6165
+ "learning_rate": 0.00019866007949013743,
6166
+ "loss": 0.0002,
6167
+ "step": 874
6168
+ },
6169
+ {
6170
+ "epoch": 0.16193208105857315,
6171
+ "grad_norm": 0.03559022769331932,
6172
+ "learning_rate": 0.00019865690957295522,
6173
+ "loss": 0.0006,
6174
+ "step": 875
6175
+ },
6176
+ {
6177
+ "epoch": 0.16211714629406865,
6178
+ "grad_norm": 0.011263100430369377,
6179
+ "learning_rate": 0.00019865373593593608,
6180
+ "loss": 0.0003,
6181
+ "step": 876
6182
+ },
6183
+ {
6184
+ "epoch": 0.16230221152956417,
6185
+ "grad_norm": 0.0601922944188118,
6186
+ "learning_rate": 0.00019865055857919966,
6187
+ "loss": 0.0016,
6188
+ "step": 877
6189
+ },
6190
+ {
6191
+ "epoch": 0.1624872767650597,
6192
+ "grad_norm": 0.04134982451796532,
6193
+ "learning_rate": 0.0001986473775028658,
6194
+ "loss": 0.0003,
6195
+ "step": 878
6196
+ },
6197
+ {
6198
+ "epoch": 0.1626723420005552,
6199
+ "grad_norm": 0.26190969347953796,
6200
+ "learning_rate": 0.00019864419270705443,
6201
+ "loss": 0.0017,
6202
+ "step": 879
6203
+ },
6204
+ {
6205
+ "epoch": 0.16285740723605072,
6206
+ "grad_norm": 0.1426112949848175,
6207
+ "learning_rate": 0.00019864100419188563,
6208
+ "loss": 0.0007,
6209
+ "step": 880
6210
+ },
6211
+ {
6212
+ "epoch": 0.1630424724715462,
6213
+ "grad_norm": 0.002557241590693593,
6214
+ "learning_rate": 0.00019863781195747957,
6215
+ "loss": 0.0002,
6216
+ "step": 881
6217
+ },
6218
+ {
6219
+ "epoch": 0.16322753770704174,
6220
+ "grad_norm": 0.020958442240953445,
6221
+ "learning_rate": 0.0001986346160039567,
6222
+ "loss": 0.0006,
6223
+ "step": 882
6224
+ },
6225
+ {
6226
+ "epoch": 0.16341260294253723,
6227
+ "grad_norm": 0.08520295470952988,
6228
+ "learning_rate": 0.00019863141633143748,
6229
+ "loss": 0.0021,
6230
+ "step": 883
6231
+ },
6232
+ {
6233
+ "epoch": 0.16359766817803276,
6234
+ "grad_norm": 0.026120366528630257,
6235
+ "learning_rate": 0.00019862821294004253,
6236
+ "loss": 0.0003,
6237
+ "step": 884
6238
+ },
6239
+ {
6240
+ "epoch": 0.16378273341352828,
6241
+ "grad_norm": 0.08190575987100601,
6242
+ "learning_rate": 0.00019862500582989263,
6243
+ "loss": 0.0014,
6244
+ "step": 885
6245
+ },
6246
+ {
6247
+ "epoch": 0.16396779864902378,
6248
+ "grad_norm": 0.027544621378183365,
6249
+ "learning_rate": 0.00019862179500110876,
6250
+ "loss": 0.0008,
6251
+ "step": 886
6252
+ },
6253
+ {
6254
+ "epoch": 0.1641528638845193,
6255
+ "grad_norm": 0.004529684316366911,
6256
+ "learning_rate": 0.00019861858045381196,
6257
+ "loss": 0.0003,
6258
+ "step": 887
6259
+ },
6260
+ {
6261
+ "epoch": 0.1643379291200148,
6262
+ "grad_norm": 0.03812885656952858,
6263
+ "learning_rate": 0.00019861536218812343,
6264
+ "loss": 0.0017,
6265
+ "step": 888
6266
+ },
6267
+ {
6268
+ "epoch": 0.16452299435551032,
6269
+ "grad_norm": 0.005853751208633184,
6270
+ "learning_rate": 0.00019861214020416447,
6271
+ "loss": 0.0002,
6272
+ "step": 889
6273
+ },
6274
+ {
6275
+ "epoch": 0.16470805959100582,
6276
+ "grad_norm": 0.004154008813202381,
6277
+ "learning_rate": 0.00019860891450205665,
6278
+ "loss": 0.0003,
6279
+ "step": 890
6280
+ },
6281
+ {
6282
+ "epoch": 0.16489312482650134,
6283
+ "grad_norm": 0.0007245794404298067,
6284
+ "learning_rate": 0.00019860568508192153,
6285
+ "loss": 0.0001,
6286
+ "step": 891
6287
+ },
6288
+ {
6289
+ "epoch": 0.16507819006199687,
6290
+ "grad_norm": 0.00185197067912668,
6291
+ "learning_rate": 0.0001986024519438809,
6292
+ "loss": 0.0002,
6293
+ "step": 892
6294
+ },
6295
+ {
6296
+ "epoch": 0.16526325529749236,
6297
+ "grad_norm": 0.01505447831004858,
6298
+ "learning_rate": 0.00019859921508805665,
6299
+ "loss": 0.0004,
6300
+ "step": 893
6301
+ },
6302
+ {
6303
+ "epoch": 0.16544832053298789,
6304
+ "grad_norm": 0.016156723722815514,
6305
+ "learning_rate": 0.00019859597451457085,
6306
+ "loss": 0.0004,
6307
+ "step": 894
6308
+ },
6309
+ {
6310
+ "epoch": 0.16563338576848338,
6311
+ "grad_norm": 0.004411355126649141,
6312
+ "learning_rate": 0.00019859273022354565,
6313
+ "loss": 0.0003,
6314
+ "step": 895
6315
+ },
6316
+ {
6317
+ "epoch": 0.1658184510039789,
6318
+ "grad_norm": 0.0008460478275083005,
6319
+ "learning_rate": 0.0001985894822151034,
6320
+ "loss": 0.0001,
6321
+ "step": 896
6322
+ },
6323
+ {
6324
+ "epoch": 0.1660035162394744,
6325
+ "grad_norm": 0.0012289606966078281,
6326
+ "learning_rate": 0.00019858623048936655,
6327
+ "loss": 0.0001,
6328
+ "step": 897
6329
+ },
6330
+ {
6331
+ "epoch": 0.16618858147496993,
6332
+ "grad_norm": 0.004417366348206997,
6333
+ "learning_rate": 0.00019858297504645774,
6334
+ "loss": 0.0005,
6335
+ "step": 898
6336
+ },
6337
+ {
6338
+ "epoch": 0.16637364671046545,
6339
+ "grad_norm": 0.00527498684823513,
6340
+ "learning_rate": 0.00019857971588649965,
6341
+ "loss": 0.0002,
6342
+ "step": 899
6343
+ },
6344
+ {
6345
+ "epoch": 0.16655871194596095,
6346
+ "grad_norm": 1.9224200248718262,
6347
+ "learning_rate": 0.00019857645300961526,
6348
+ "loss": 0.0117,
6349
+ "step": 900
6350
+ },
6351
+ {
6352
+ "epoch": 0.16674377718145647,
6353
+ "grad_norm": 0.0036594411358237267,
6354
+ "learning_rate": 0.0001985731864159275,
6355
+ "loss": 0.0002,
6356
+ "step": 901
6357
+ },
6358
+ {
6359
+ "epoch": 0.16692884241695197,
6360
+ "grad_norm": 0.003251464106142521,
6361
+ "learning_rate": 0.0001985699161055596,
6362
+ "loss": 0.0001,
6363
+ "step": 902
6364
+ },
6365
+ {
6366
+ "epoch": 0.1671139076524475,
6367
+ "grad_norm": 0.13795721530914307,
6368
+ "learning_rate": 0.00019856664207863482,
6369
+ "loss": 0.0092,
6370
+ "step": 903
6371
+ },
6372
+ {
6373
+ "epoch": 0.167298972887943,
6374
+ "grad_norm": 0.3705841898918152,
6375
+ "learning_rate": 0.00019856336433527667,
6376
+ "loss": 0.0091,
6377
+ "step": 904
6378
+ },
6379
+ {
6380
+ "epoch": 0.1674840381234385,
6381
+ "grad_norm": 0.0026172541547566652,
6382
+ "learning_rate": 0.0001985600828756087,
6383
+ "loss": 0.0002,
6384
+ "step": 905
6385
+ },
6386
+ {
6387
+ "epoch": 0.16766910335893404,
6388
+ "grad_norm": 0.003219661535695195,
6389
+ "learning_rate": 0.00019855679769975457,
6390
+ "loss": 0.0001,
6391
+ "step": 906
6392
+ },
6393
+ {
6394
+ "epoch": 0.16785416859442953,
6395
+ "grad_norm": 0.001061516348272562,
6396
+ "learning_rate": 0.00019855350880783825,
6397
+ "loss": 0.0001,
6398
+ "step": 907
6399
+ },
6400
+ {
6401
+ "epoch": 0.16803923382992506,
6402
+ "grad_norm": 0.0020027856808155775,
6403
+ "learning_rate": 0.0001985502161999837,
6404
+ "loss": 0.0002,
6405
+ "step": 908
6406
+ },
6407
+ {
6408
+ "epoch": 0.16822429906542055,
6409
+ "grad_norm": 0.004068360198289156,
6410
+ "learning_rate": 0.0001985469198763151,
6411
+ "loss": 0.0002,
6412
+ "step": 909
6413
+ },
6414
+ {
6415
+ "epoch": 0.16840936430091608,
6416
+ "grad_norm": 0.013775911182165146,
6417
+ "learning_rate": 0.00019854361983695672,
6418
+ "loss": 0.0013,
6419
+ "step": 910
6420
+ },
6421
+ {
6422
+ "epoch": 0.16859442953641157,
6423
+ "grad_norm": 0.05193403735756874,
6424
+ "learning_rate": 0.00019854031608203295,
6425
+ "loss": 0.0007,
6426
+ "step": 911
6427
+ },
6428
+ {
6429
+ "epoch": 0.1687794947719071,
6430
+ "grad_norm": 0.07376479357481003,
6431
+ "learning_rate": 0.00019853700861166839,
6432
+ "loss": 0.0027,
6433
+ "step": 912
6434
+ },
6435
+ {
6436
+ "epoch": 0.16896456000740262,
6437
+ "grad_norm": 0.14925335347652435,
6438
+ "learning_rate": 0.00019853369742598776,
6439
+ "loss": 0.004,
6440
+ "step": 913
6441
+ },
6442
+ {
6443
+ "epoch": 0.16914962524289812,
6444
+ "grad_norm": 0.0016460709739476442,
6445
+ "learning_rate": 0.00019853038252511587,
6446
+ "loss": 0.0001,
6447
+ "step": 914
6448
+ },
6449
+ {
6450
+ "epoch": 0.16933469047839364,
6451
+ "grad_norm": 0.17655791342258453,
6452
+ "learning_rate": 0.00019852706390917775,
6453
+ "loss": 0.0047,
6454
+ "step": 915
6455
+ },
6456
+ {
6457
+ "epoch": 0.16951975571388914,
6458
+ "grad_norm": 0.07149423658847809,
6459
+ "learning_rate": 0.0001985237415782985,
6460
+ "loss": 0.0055,
6461
+ "step": 916
6462
+ },
6463
+ {
6464
+ "epoch": 0.16970482094938466,
6465
+ "grad_norm": 0.015162936411798,
6466
+ "learning_rate": 0.00019852041553260338,
6467
+ "loss": 0.0008,
6468
+ "step": 917
6469
+ },
6470
+ {
6471
+ "epoch": 0.16988988618488016,
6472
+ "grad_norm": 0.003818758763372898,
6473
+ "learning_rate": 0.00019851708577221783,
6474
+ "loss": 0.0002,
6475
+ "step": 918
6476
+ },
6477
+ {
6478
+ "epoch": 0.17007495142037568,
6479
+ "grad_norm": 0.04823250323534012,
6480
+ "learning_rate": 0.0001985137522972674,
6481
+ "loss": 0.0013,
6482
+ "step": 919
6483
+ },
6484
+ {
6485
+ "epoch": 0.1702600166558712,
6486
+ "grad_norm": 0.019358035176992416,
6487
+ "learning_rate": 0.00019851041510787773,
6488
+ "loss": 0.0009,
6489
+ "step": 920
6490
+ },
6491
+ {
6492
+ "epoch": 0.1704450818913667,
6493
+ "grad_norm": 0.006376199424266815,
6494
+ "learning_rate": 0.00019850707420417468,
6495
+ "loss": 0.0003,
6496
+ "step": 921
6497
+ },
6498
+ {
6499
+ "epoch": 0.17063014712686222,
6500
+ "grad_norm": 0.1438623070716858,
6501
+ "learning_rate": 0.00019850372958628423,
6502
+ "loss": 0.0008,
6503
+ "step": 922
6504
+ },
6505
+ {
6506
+ "epoch": 0.17081521236235772,
6507
+ "grad_norm": 0.005809268448501825,
6508
+ "learning_rate": 0.00019850038125433247,
6509
+ "loss": 0.0004,
6510
+ "step": 923
6511
+ },
6512
+ {
6513
+ "epoch": 0.17100027759785325,
6514
+ "grad_norm": 0.0019713384099304676,
6515
+ "learning_rate": 0.00019849702920844565,
6516
+ "loss": 0.0002,
6517
+ "step": 924
6518
+ },
6519
+ {
6520
+ "epoch": 0.17118534283334877,
6521
+ "grad_norm": 0.11557551473379135,
6522
+ "learning_rate": 0.00019849367344875013,
6523
+ "loss": 0.003,
6524
+ "step": 925
6525
+ },
6526
+ {
6527
+ "epoch": 0.17137040806884427,
6528
+ "grad_norm": 0.050921566784381866,
6529
+ "learning_rate": 0.0001984903139753725,
6530
+ "loss": 0.0039,
6531
+ "step": 926
6532
+ },
6533
+ {
6534
+ "epoch": 0.1715554733043398,
6535
+ "grad_norm": 0.031566072255373,
6536
+ "learning_rate": 0.0001984869507884394,
6537
+ "loss": 0.0011,
6538
+ "step": 927
6539
+ },
6540
+ {
6541
+ "epoch": 0.17174053853983529,
6542
+ "grad_norm": 0.19348770380020142,
6543
+ "learning_rate": 0.00019848358388807762,
6544
+ "loss": 0.0085,
6545
+ "step": 928
6546
+ },
6547
+ {
6548
+ "epoch": 0.1719256037753308,
6549
+ "grad_norm": 0.06429725885391235,
6550
+ "learning_rate": 0.00019848021327441412,
6551
+ "loss": 0.0028,
6552
+ "step": 929
6553
+ },
6554
+ {
6555
+ "epoch": 0.1721106690108263,
6556
+ "grad_norm": 0.06797130405902863,
6557
+ "learning_rate": 0.00019847683894757602,
6558
+ "loss": 0.0034,
6559
+ "step": 930
6560
+ },
6561
+ {
6562
+ "epoch": 0.17229573424632183,
6563
+ "grad_norm": 0.07783009111881256,
6564
+ "learning_rate": 0.00019847346090769047,
6565
+ "loss": 0.0113,
6566
+ "step": 931
6567
+ },
6568
+ {
6569
+ "epoch": 0.17248079948181735,
6570
+ "grad_norm": 0.01035092119127512,
6571
+ "learning_rate": 0.0001984700791548849,
6572
+ "loss": 0.0003,
6573
+ "step": 932
6574
+ },
6575
+ {
6576
+ "epoch": 0.17266586471731285,
6577
+ "grad_norm": 0.021911177784204483,
6578
+ "learning_rate": 0.00019846669368928682,
6579
+ "loss": 0.0004,
6580
+ "step": 933
6581
+ },
6582
+ {
6583
+ "epoch": 0.17285092995280837,
6584
+ "grad_norm": 0.0650099590420723,
6585
+ "learning_rate": 0.00019846330451102383,
6586
+ "loss": 0.0014,
6587
+ "step": 934
6588
+ },
6589
+ {
6590
+ "epoch": 0.17303599518830387,
6591
+ "grad_norm": 0.010482696816325188,
6592
+ "learning_rate": 0.00019845991162022379,
6593
+ "loss": 0.0002,
6594
+ "step": 935
6595
+ },
6596
+ {
6597
+ "epoch": 0.1732210604237994,
6598
+ "grad_norm": 0.0009689448052085936,
6599
+ "learning_rate": 0.0001984565150170146,
6600
+ "loss": 0.0001,
6601
+ "step": 936
6602
+ },
6603
+ {
6604
+ "epoch": 0.1734061256592949,
6605
+ "grad_norm": 0.0025378544814884663,
6606
+ "learning_rate": 0.00019845311470152429,
6607
+ "loss": 0.0002,
6608
+ "step": 937
6609
+ },
6610
+ {
6611
+ "epoch": 0.17359119089479041,
6612
+ "grad_norm": 0.029655590653419495,
6613
+ "learning_rate": 0.00019844971067388108,
6614
+ "loss": 0.0011,
6615
+ "step": 938
6616
+ },
6617
+ {
6618
+ "epoch": 0.17377625613028594,
6619
+ "grad_norm": 0.005666040349751711,
6620
+ "learning_rate": 0.00019844630293421338,
6621
+ "loss": 0.0002,
6622
+ "step": 939
6623
+ },
6624
+ {
6625
+ "epoch": 0.17396132136578144,
6626
+ "grad_norm": 0.0009374783257953823,
6627
+ "learning_rate": 0.00019844289148264962,
6628
+ "loss": 0.0001,
6629
+ "step": 940
6630
+ },
6631
+ {
6632
+ "epoch": 0.17414638660127696,
6633
+ "grad_norm": 0.005437355954200029,
6634
+ "learning_rate": 0.00019843947631931842,
6635
+ "loss": 0.0003,
6636
+ "step": 941
6637
+ },
6638
+ {
6639
+ "epoch": 0.17433145183677246,
6640
+ "grad_norm": 0.14348870515823364,
6641
+ "learning_rate": 0.0001984360574443486,
6642
+ "loss": 0.0043,
6643
+ "step": 942
6644
+ },
6645
+ {
6646
+ "epoch": 0.17451651707226798,
6647
+ "grad_norm": 0.19243773818016052,
6648
+ "learning_rate": 0.00019843263485786898,
6649
+ "loss": 0.0012,
6650
+ "step": 943
6651
+ },
6652
+ {
6653
+ "epoch": 0.17470158230776348,
6654
+ "grad_norm": 0.008438481949269772,
6655
+ "learning_rate": 0.0001984292085600087,
6656
+ "loss": 0.0003,
6657
+ "step": 944
6658
+ },
6659
+ {
6660
+ "epoch": 0.174886647543259,
6661
+ "grad_norm": 0.0023594368249177933,
6662
+ "learning_rate": 0.0001984257785508969,
6663
+ "loss": 0.0002,
6664
+ "step": 945
6665
+ },
6666
+ {
6667
+ "epoch": 0.17507171277875452,
6668
+ "grad_norm": 0.005180665757507086,
6669
+ "learning_rate": 0.00019842234483066293,
6670
+ "loss": 0.0003,
6671
+ "step": 946
6672
+ },
6673
+ {
6674
+ "epoch": 0.17525677801425002,
6675
+ "grad_norm": 0.0011170993093401194,
6676
+ "learning_rate": 0.00019841890739943625,
6677
+ "loss": 0.0001,
6678
+ "step": 947
6679
+ },
6680
+ {
6681
+ "epoch": 0.17544184324974554,
6682
+ "grad_norm": 0.0031029570382088423,
6683
+ "learning_rate": 0.00019841546625734647,
6684
+ "loss": 0.0002,
6685
+ "step": 948
6686
+ },
6687
+ {
6688
+ "epoch": 0.17562690848524104,
6689
+ "grad_norm": 0.001714157173410058,
6690
+ "learning_rate": 0.0001984120214045233,
6691
+ "loss": 0.0002,
6692
+ "step": 949
6693
+ },
6694
+ {
6695
+ "epoch": 0.17581197372073656,
6696
+ "grad_norm": 0.0033893748186528683,
6697
+ "learning_rate": 0.0001984085728410967,
6698
+ "loss": 0.0002,
6699
+ "step": 950
6700
+ },
6701
+ {
6702
+ "epoch": 0.17599703895623206,
6703
+ "grad_norm": 0.004998108372092247,
6704
+ "learning_rate": 0.00019840512056719666,
6705
+ "loss": 0.0003,
6706
+ "step": 951
6707
+ },
6708
+ {
6709
+ "epoch": 0.17618210419172758,
6710
+ "grad_norm": 0.0266425758600235,
6711
+ "learning_rate": 0.0001984016645829533,
6712
+ "loss": 0.0006,
6713
+ "step": 952
6714
+ },
6715
+ {
6716
+ "epoch": 0.1763671694272231,
6717
+ "grad_norm": 0.0037740166299045086,
6718
+ "learning_rate": 0.000198398204888497,
6719
+ "loss": 0.0002,
6720
+ "step": 953
6721
+ },
6722
+ {
6723
+ "epoch": 0.1765522346627186,
6724
+ "grad_norm": 0.0013826234498992562,
6725
+ "learning_rate": 0.00019839474148395818,
6726
+ "loss": 0.0002,
6727
+ "step": 954
6728
+ },
6729
+ {
6730
+ "epoch": 0.17673729989821413,
6731
+ "grad_norm": 0.0025008702650666237,
6732
+ "learning_rate": 0.0001983912743694674,
6733
+ "loss": 0.0002,
6734
+ "step": 955
6735
+ },
6736
+ {
6737
+ "epoch": 0.17692236513370962,
6738
+ "grad_norm": 0.006042696535587311,
6739
+ "learning_rate": 0.00019838780354515545,
6740
+ "loss": 0.0004,
6741
+ "step": 956
6742
+ },
6743
+ {
6744
+ "epoch": 0.17710743036920515,
6745
+ "grad_norm": 0.385301411151886,
6746
+ "learning_rate": 0.00019838432901115314,
6747
+ "loss": 0.0049,
6748
+ "step": 957
6749
+ },
6750
+ {
6751
+ "epoch": 0.17729249560470065,
6752
+ "grad_norm": 0.0020321677438914776,
6753
+ "learning_rate": 0.0001983808507675915,
6754
+ "loss": 0.0001,
6755
+ "step": 958
6756
+ },
6757
+ {
6758
+ "epoch": 0.17747756084019617,
6759
+ "grad_norm": 0.008854767307639122,
6760
+ "learning_rate": 0.00019837736881460165,
6761
+ "loss": 0.0002,
6762
+ "step": 959
6763
+ },
6764
+ {
6765
+ "epoch": 0.1776626260756917,
6766
+ "grad_norm": 0.0018682387890294194,
6767
+ "learning_rate": 0.00019837388315231493,
6768
+ "loss": 0.0002,
6769
+ "step": 960
6770
+ },
6771
+ {
6772
+ "epoch": 0.1778476913111872,
6773
+ "grad_norm": 0.001613518688827753,
6774
+ "learning_rate": 0.0001983703937808627,
6775
+ "loss": 0.0001,
6776
+ "step": 961
6777
+ },
6778
+ {
6779
+ "epoch": 0.1780327565466827,
6780
+ "grad_norm": 0.002380665624514222,
6781
+ "learning_rate": 0.0001983669007003766,
6782
+ "loss": 0.0002,
6783
+ "step": 962
6784
+ },
6785
+ {
6786
+ "epoch": 0.1782178217821782,
6787
+ "grad_norm": 0.004421447869390249,
6788
+ "learning_rate": 0.00019836340391098827,
6789
+ "loss": 0.0002,
6790
+ "step": 963
6791
+ },
6792
+ {
6793
+ "epoch": 0.17840288701767373,
6794
+ "grad_norm": 0.004585796967148781,
6795
+ "learning_rate": 0.00019835990341282957,
6796
+ "loss": 0.0002,
6797
+ "step": 964
6798
+ },
6799
+ {
6800
+ "epoch": 0.17858795225316923,
6801
+ "grad_norm": 0.016321241855621338,
6802
+ "learning_rate": 0.00019835639920603253,
6803
+ "loss": 0.0006,
6804
+ "step": 965
6805
+ },
6806
+ {
6807
+ "epoch": 0.17877301748866475,
6808
+ "grad_norm": 0.3031005859375,
6809
+ "learning_rate": 0.00019835289129072924,
6810
+ "loss": 0.0029,
6811
+ "step": 966
6812
+ },
6813
+ {
6814
+ "epoch": 0.17895808272416028,
6815
+ "grad_norm": 0.0025489667896181345,
6816
+ "learning_rate": 0.00019834937966705193,
6817
+ "loss": 0.0002,
6818
+ "step": 967
6819
+ },
6820
+ {
6821
+ "epoch": 0.17914314795965577,
6822
+ "grad_norm": 0.0011104342993348837,
6823
+ "learning_rate": 0.00019834586433513306,
6824
+ "loss": 0.0001,
6825
+ "step": 968
6826
+ },
6827
+ {
6828
+ "epoch": 0.1793282131951513,
6829
+ "grad_norm": 0.012867497280240059,
6830
+ "learning_rate": 0.00019834234529510518,
6831
+ "loss": 0.0002,
6832
+ "step": 969
6833
+ },
6834
+ {
6835
+ "epoch": 0.1795132784306468,
6836
+ "grad_norm": 0.09900082647800446,
6837
+ "learning_rate": 0.00019833882254710093,
6838
+ "loss": 0.0044,
6839
+ "step": 970
6840
+ },
6841
+ {
6842
+ "epoch": 0.17969834366614232,
6843
+ "grad_norm": 0.1001380980014801,
6844
+ "learning_rate": 0.00019833529609125316,
6845
+ "loss": 0.0024,
6846
+ "step": 971
6847
+ },
6848
+ {
6849
+ "epoch": 0.17988340890163781,
6850
+ "grad_norm": 0.005729401484131813,
6851
+ "learning_rate": 0.00019833176592769483,
6852
+ "loss": 0.0005,
6853
+ "step": 972
6854
+ },
6855
+ {
6856
+ "epoch": 0.18006847413713334,
6857
+ "grad_norm": 0.007758236024528742,
6858
+ "learning_rate": 0.00019832823205655906,
6859
+ "loss": 0.0004,
6860
+ "step": 973
6861
+ },
6862
+ {
6863
+ "epoch": 0.18025353937262886,
6864
+ "grad_norm": 0.0032970982138067484,
6865
+ "learning_rate": 0.00019832469447797905,
6866
+ "loss": 0.0002,
6867
+ "step": 974
6868
+ },
6869
+ {
6870
+ "epoch": 0.18043860460812436,
6871
+ "grad_norm": 0.0036083597224205732,
6872
+ "learning_rate": 0.00019832115319208825,
6873
+ "loss": 0.0003,
6874
+ "step": 975
6875
+ },
6876
+ {
6877
+ "epoch": 0.18062366984361988,
6878
+ "grad_norm": 0.13452349603176117,
6879
+ "learning_rate": 0.0001983176081990201,
6880
+ "loss": 0.0035,
6881
+ "step": 976
6882
+ },
6883
+ {
6884
+ "epoch": 0.18080873507911538,
6885
+ "grad_norm": 0.008456684648990631,
6886
+ "learning_rate": 0.00019831405949890832,
6887
+ "loss": 0.0004,
6888
+ "step": 977
6889
+ },
6890
+ {
6891
+ "epoch": 0.1809938003146109,
6892
+ "grad_norm": 0.0014329359401017427,
6893
+ "learning_rate": 0.00019831050709188675,
6894
+ "loss": 0.0002,
6895
+ "step": 978
6896
+ },
6897
+ {
6898
+ "epoch": 0.1811788655501064,
6899
+ "grad_norm": 0.008513165637850761,
6900
+ "learning_rate": 0.00019830695097808923,
6901
+ "loss": 0.0005,
6902
+ "step": 979
6903
+ },
6904
+ {
6905
+ "epoch": 0.18136393078560192,
6906
+ "grad_norm": 0.0037564258091151714,
6907
+ "learning_rate": 0.0001983033911576499,
6908
+ "loss": 0.0002,
6909
+ "step": 980
6910
+ },
6911
+ {
6912
+ "epoch": 0.18154899602109745,
6913
+ "grad_norm": 0.20619681477546692,
6914
+ "learning_rate": 0.00019829982763070302,
6915
+ "loss": 0.0119,
6916
+ "step": 981
6917
+ },
6918
+ {
6919
+ "epoch": 0.18173406125659294,
6920
+ "grad_norm": 0.09338407963514328,
6921
+ "learning_rate": 0.00019829626039738287,
6922
+ "loss": 0.0052,
6923
+ "step": 982
6924
+ },
6925
+ {
6926
+ "epoch": 0.18191912649208847,
6927
+ "grad_norm": 0.004537677392363548,
6928
+ "learning_rate": 0.000198292689457824,
6929
+ "loss": 0.0002,
6930
+ "step": 983
6931
+ },
6932
+ {
6933
+ "epoch": 0.18210419172758396,
6934
+ "grad_norm": 0.02287222072482109,
6935
+ "learning_rate": 0.00019828911481216107,
6936
+ "loss": 0.0006,
6937
+ "step": 984
6938
+ },
6939
+ {
6940
+ "epoch": 0.1822892569630795,
6941
+ "grad_norm": 0.10385712236166,
6942
+ "learning_rate": 0.0001982855364605288,
6943
+ "loss": 0.0028,
6944
+ "step": 985
6945
+ },
6946
+ {
6947
+ "epoch": 0.18247432219857498,
6948
+ "grad_norm": 0.0036787688732147217,
6949
+ "learning_rate": 0.00019828195440306216,
6950
+ "loss": 0.0002,
6951
+ "step": 986
6952
+ },
6953
+ {
6954
+ "epoch": 0.1826593874340705,
6955
+ "grad_norm": 0.1489401012659073,
6956
+ "learning_rate": 0.00019827836863989623,
6957
+ "loss": 0.006,
6958
+ "step": 987
6959
+ },
6960
+ {
6961
+ "epoch": 0.18284445266956603,
6962
+ "grad_norm": 0.005185346119105816,
6963
+ "learning_rate": 0.00019827477917116614,
6964
+ "loss": 0.0002,
6965
+ "step": 988
6966
+ },
6967
+ {
6968
+ "epoch": 0.18302951790506153,
6969
+ "grad_norm": 0.009372856467962265,
6970
+ "learning_rate": 0.00019827118599700726,
6971
+ "loss": 0.0003,
6972
+ "step": 989
6973
+ },
6974
+ {
6975
+ "epoch": 0.18321458314055705,
6976
+ "grad_norm": 0.006225073244422674,
6977
+ "learning_rate": 0.0001982675891175551,
6978
+ "loss": 0.0005,
6979
+ "step": 990
6980
+ },
6981
+ {
6982
+ "epoch": 0.18339964837605255,
6983
+ "grad_norm": 0.12533916532993317,
6984
+ "learning_rate": 0.00019826398853294526,
6985
+ "loss": 0.0037,
6986
+ "step": 991
6987
+ },
6988
+ {
6989
+ "epoch": 0.18358471361154807,
6990
+ "grad_norm": 0.002677407581359148,
6991
+ "learning_rate": 0.00019826038424331348,
6992
+ "loss": 0.0002,
6993
+ "step": 992
6994
+ },
6995
+ {
6996
+ "epoch": 0.1837697788470436,
6997
+ "grad_norm": 0.002158583840355277,
6998
+ "learning_rate": 0.0001982567762487957,
6999
+ "loss": 0.0002,
7000
+ "step": 993
7001
+ },
7002
+ {
7003
+ "epoch": 0.1839548440825391,
7004
+ "grad_norm": 0.0065282066352665424,
7005
+ "learning_rate": 0.00019825316454952788,
7006
+ "loss": 0.0005,
7007
+ "step": 994
7008
+ },
7009
+ {
7010
+ "epoch": 0.18413990931803462,
7011
+ "grad_norm": 0.012533469125628471,
7012
+ "learning_rate": 0.0001982495491456463,
7013
+ "loss": 0.0005,
7014
+ "step": 995
7015
+ },
7016
+ {
7017
+ "epoch": 0.1843249745535301,
7018
+ "grad_norm": 0.06735439598560333,
7019
+ "learning_rate": 0.00019824593003728722,
7020
+ "loss": 0.0007,
7021
+ "step": 996
7022
+ },
7023
+ {
7024
+ "epoch": 0.18451003978902564,
7025
+ "grad_norm": 1.4106947183609009,
7026
+ "learning_rate": 0.0001982423072245871,
7027
+ "loss": 0.0625,
7028
+ "step": 997
7029
+ },
7030
+ {
7031
+ "epoch": 0.18469510502452113,
7032
+ "grad_norm": 0.001669297693297267,
7033
+ "learning_rate": 0.00019823868070768257,
7034
+ "loss": 0.0002,
7035
+ "step": 998
7036
+ },
7037
+ {
7038
+ "epoch": 0.18488017026001666,
7039
+ "grad_norm": 0.009132337756454945,
7040
+ "learning_rate": 0.00019823505048671033,
7041
+ "loss": 0.0003,
7042
+ "step": 999
7043
+ },
7044
+ {
7045
+ "epoch": 0.18506523549551218,
7046
+ "grad_norm": 0.1724046766757965,
7047
+ "learning_rate": 0.00019823141656180723,
7048
+ "loss": 0.0089,
7049
+ "step": 1000
7050
+ },
7051
+ {
7052
+ "epoch": 0.18506523549551218,
7053
+ "eval_loss": 0.004897969774901867,
7054
+ "eval_runtime": 9.9751,
7055
+ "eval_samples_per_second": 21.854,
7056
+ "eval_steps_per_second": 10.927,
7057
+ "step": 1000
7058
  }
7059
  ],
7060
  "logging_steps": 1,
 
7069
  "early_stopping_threshold": 0.0
7070
  },
7071
  "attributes": {
7072
+ "early_stopping_patience_counter": 3
7073
  }
7074
  },
7075
  "TrainerControl": {
 
7078
  "should_evaluate": false,
7079
  "should_log": false,
7080
  "should_save": true,
7081
+ "should_training_stop": true
7082
  },
7083
  "attributes": {}
7084
  }
7085
  },
7086
+ "total_flos": 3.10903380639744e+16,
7087
  "train_batch_size": 2,
7088
  "trial_name": null,
7089
  "trial_params": null