{
  "best_metric": 0.964721423209796,
  "best_model_checkpoint": "models/smol-135-tq-closure-augment/checkpoint-14715",
  "epoch": 18.0,
  "eval_steps": 500,
  "global_step": 17658,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0010193679918450561,
      "grad_norm": 7.7541184425354,
      "learning_rate": 0.001,
      "loss": 1.6328,
      "step": 1
    },
    {
      "epoch": 0.0020387359836901123,
      "grad_norm": 6.619064807891846,
      "learning_rate": 0.001,
      "loss": 1.3447,
      "step": 2
    },
    {
      "epoch": 0.0030581039755351682,
      "grad_norm": 8.754834175109863,
      "learning_rate": 0.001,
      "loss": 1.4561,
      "step": 3
    },
    {
      "epoch": 0.004077471967380225,
      "grad_norm": 7.796144962310791,
      "learning_rate": 0.001,
      "loss": 1.5059,
      "step": 4
    },
    {
      "epoch": 0.0050968399592252805,
      "grad_norm": 8.884356498718262,
      "learning_rate": 0.001,
      "loss": 1.71,
      "step": 5
    },
    {
      "epoch": 0.0061162079510703364,
      "grad_norm": 5.443274021148682,
      "learning_rate": 0.001,
      "loss": 1.0371,
      "step": 6
    },
    {
      "epoch": 0.007135575942915392,
      "grad_norm": 7.588937282562256,
      "learning_rate": 0.001,
      "loss": 1.1714,
      "step": 7
    },
    {
      "epoch": 0.00815494393476045,
      "grad_norm": 5.980116844177246,
      "learning_rate": 0.001,
      "loss": 0.9976,
      "step": 8
    },
    {
      "epoch": 0.009174311926605505,
      "grad_norm": 0.9341081380844116,
      "learning_rate": 0.001,
      "loss": 0.8081,
      "step": 9
    },
    {
      "epoch": 0.010193679918450561,
      "grad_norm": 0.8391310572624207,
      "learning_rate": 0.001,
      "loss": 0.8052,
      "step": 10
    },
    {
      "epoch": 0.011213047910295617,
      "grad_norm": 1.5122662782669067,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 11
    },
    {
      "epoch": 0.012232415902140673,
      "grad_norm": 1.5595474243164062,
      "learning_rate": 0.001,
      "loss": 0.8252,
      "step": 12
    },
    {
      "epoch": 0.013251783893985729,
      "grad_norm": 1.2623823881149292,
      "learning_rate": 0.001,
      "loss": 0.8223,
      "step": 13
    },
    {
      "epoch": 0.014271151885830785,
      "grad_norm": 0.37562116980552673,
      "learning_rate": 0.001,
      "loss": 0.8262,
      "step": 14
    },
    {
      "epoch": 0.01529051987767584,
      "grad_norm": 1.332580804824829,
      "learning_rate": 0.001,
      "loss": 0.7979,
      "step": 15
    },
    {
      "epoch": 0.0163098878695209,
      "grad_norm": 0.4336860775947571,
      "learning_rate": 0.001,
      "loss": 0.7935,
      "step": 16
    },
    {
      "epoch": 0.017329255861365953,
      "grad_norm": 1.9983818531036377,
      "learning_rate": 0.001,
      "loss": 0.8335,
      "step": 17
    },
    {
      "epoch": 0.01834862385321101,
      "grad_norm": 0.6265323758125305,
      "learning_rate": 0.001,
      "loss": 0.8174,
      "step": 18
    },
    {
      "epoch": 0.019367991845056064,
      "grad_norm": 1.2015959024429321,
      "learning_rate": 0.001,
      "loss": 0.8027,
      "step": 19
    },
    {
      "epoch": 0.020387359836901122,
      "grad_norm": 0.36859703063964844,
      "learning_rate": 0.001,
      "loss": 0.8208,
      "step": 20
    },
    {
      "epoch": 0.021406727828746176,
      "grad_norm": 0.4995051324367523,
      "learning_rate": 0.001,
      "loss": 0.8267,
      "step": 21
    },
    {
      "epoch": 0.022426095820591234,
      "grad_norm": 1.1577636003494263,
      "learning_rate": 0.001,
      "loss": 0.7935,
      "step": 22
    },
    {
      "epoch": 0.023445463812436288,
      "grad_norm": 0.9383140802383423,
      "learning_rate": 0.001,
      "loss": 0.8135,
      "step": 23
    },
    {
      "epoch": 0.024464831804281346,
      "grad_norm": 0.9990345239639282,
      "learning_rate": 0.001,
      "loss": 0.8115,
      "step": 24
    },
    {
      "epoch": 0.0254841997961264,
      "grad_norm": 1.0258355140686035,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 25
    },
    {
      "epoch": 0.026503567787971458,
      "grad_norm": 1.593500018119812,
      "learning_rate": 0.001,
      "loss": 0.8105,
      "step": 26
    },
    {
      "epoch": 0.027522935779816515,
      "grad_norm": 0.9077115058898926,
      "learning_rate": 0.001,
      "loss": 0.8169,
      "step": 27
    },
    {
      "epoch": 0.02854230377166157,
      "grad_norm": 0.535672128200531,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 28
    },
    {
      "epoch": 0.029561671763506627,
      "grad_norm": 0.47787925601005554,
      "learning_rate": 0.001,
      "loss": 0.8208,
      "step": 29
    },
    {
      "epoch": 0.03058103975535168,
      "grad_norm": 0.2090602070093155,
      "learning_rate": 0.001,
      "loss": 0.8125,
      "step": 30
    },
    {
      "epoch": 0.03160040774719674,
      "grad_norm": 0.8240317702293396,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 31
    },
    {
      "epoch": 0.0326197757390418,
      "grad_norm": 0.9440686702728271,
      "learning_rate": 0.001,
      "loss": 0.8018,
      "step": 32
    },
    {
      "epoch": 0.03363914373088685,
      "grad_norm": 0.4478791654109955,
      "learning_rate": 0.001,
      "loss": 0.8091,
      "step": 33
    },
    {
      "epoch": 0.034658511722731905,
      "grad_norm": 0.4506727457046509,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 34
    },
    {
      "epoch": 0.03567787971457696,
      "grad_norm": 0.5394688248634338,
      "learning_rate": 0.001,
      "loss": 0.7905,
      "step": 35
    },
    {
      "epoch": 0.03669724770642202,
      "grad_norm": 1.0924681425094604,
      "learning_rate": 0.001,
      "loss": 0.8149,
      "step": 36
    },
    {
      "epoch": 0.03771661569826707,
      "grad_norm": 0.3388459384441376,
      "learning_rate": 0.001,
      "loss": 0.8335,
      "step": 37
    },
    {
      "epoch": 0.03873598369011213,
      "grad_norm": 0.9634829759597778,
      "learning_rate": 0.001,
      "loss": 0.8208,
      "step": 38
    },
    {
      "epoch": 0.039755351681957186,
      "grad_norm": 0.9039648771286011,
      "learning_rate": 0.001,
      "loss": 0.8208,
      "step": 39
    },
    {
      "epoch": 0.040774719673802244,
      "grad_norm": 0.4723862111568451,
      "learning_rate": 0.001,
      "loss": 0.8027,
      "step": 40
    },
    {
      "epoch": 0.0417940876656473,
      "grad_norm": 1.2766245603561401,
      "learning_rate": 0.001,
      "loss": 0.8188,
      "step": 41
    },
    {
      "epoch": 0.04281345565749235,
      "grad_norm": 0.4822762608528137,
      "learning_rate": 0.001,
      "loss": 0.7939,
      "step": 42
    },
    {
      "epoch": 0.04383282364933741,
      "grad_norm": 0.9992086291313171,
      "learning_rate": 0.001,
      "loss": 0.813,
      "step": 43
    },
    {
      "epoch": 0.04485219164118247,
      "grad_norm": 1.615243673324585,
      "learning_rate": 0.001,
      "loss": 0.8184,
      "step": 44
    },
    {
      "epoch": 0.045871559633027525,
      "grad_norm": 1.4921681880950928,
      "learning_rate": 0.001,
      "loss": 0.7969,
      "step": 45
    },
    {
      "epoch": 0.046890927624872576,
      "grad_norm": 0.892593264579773,
      "learning_rate": 0.001,
      "loss": 0.8071,
      "step": 46
    },
    {
      "epoch": 0.047910295616717634,
      "grad_norm": 0.4894700050354004,
      "learning_rate": 0.001,
      "loss": 0.8428,
      "step": 47
    },
    {
      "epoch": 0.04892966360856269,
      "grad_norm": 2.682608127593994,
      "learning_rate": 0.001,
      "loss": 0.8652,
      "step": 48
    },
    {
      "epoch": 0.04994903160040775,
      "grad_norm": 2.6023948192596436,
      "learning_rate": 0.001,
      "loss": 0.8418,
      "step": 49
    },
    {
      "epoch": 0.0509683995922528,
      "grad_norm": 2.864826202392578,
      "learning_rate": 0.001,
      "loss": 0.8506,
      "step": 50
    },
    {
      "epoch": 0.05198776758409786,
      "grad_norm": 0.7507917881011963,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 51
    },
    {
      "epoch": 0.053007135575942915,
      "grad_norm": 0.9996278285980225,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 52
    },
    {
      "epoch": 0.05402650356778797,
      "grad_norm": 1.6124099493026733,
      "learning_rate": 0.001,
      "loss": 0.8369,
      "step": 53
    },
    {
      "epoch": 0.05504587155963303,
      "grad_norm": 2.527723550796509,
      "learning_rate": 0.001,
      "loss": 0.8374,
      "step": 54
    },
    {
      "epoch": 0.05606523955147808,
      "grad_norm": 1.381243109703064,
      "learning_rate": 0.001,
      "loss": 0.832,
      "step": 55
    },
    {
      "epoch": 0.05708460754332314,
      "grad_norm": 0.5011205673217773,
      "learning_rate": 0.001,
      "loss": 0.7925,
      "step": 56
    },
    {
      "epoch": 0.0581039755351682,
      "grad_norm": 1.5591390132904053,
      "learning_rate": 0.001,
      "loss": 0.8037,
      "step": 57
    },
    {
      "epoch": 0.059123343527013254,
      "grad_norm": 1.9848393201828003,
      "learning_rate": 0.001,
      "loss": 0.8169,
      "step": 58
    },
    {
      "epoch": 0.060142711518858305,
      "grad_norm": 1.4579004049301147,
      "learning_rate": 0.001,
      "loss": 0.7979,
      "step": 59
    },
    {
      "epoch": 0.06116207951070336,
      "grad_norm": 0.4785442650318146,
      "learning_rate": 0.001,
      "loss": 0.8047,
      "step": 60
    },
    {
      "epoch": 0.06218144750254842,
      "grad_norm": 2.013972043991089,
      "learning_rate": 0.001,
      "loss": 0.8193,
      "step": 61
    },
    {
      "epoch": 0.06320081549439348,
      "grad_norm": 2.4417431354522705,
      "learning_rate": 0.001,
      "loss": 0.8447,
      "step": 62
    },
    {
      "epoch": 0.06422018348623854,
      "grad_norm": 3.3691885471343994,
      "learning_rate": 0.001,
      "loss": 0.8467,
      "step": 63
    },
    {
      "epoch": 0.0652395514780836,
      "grad_norm": 1.1217033863067627,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 64
    },
    {
      "epoch": 0.06625891946992865,
      "grad_norm": 1.513864278793335,
      "learning_rate": 0.001,
      "loss": 0.8271,
      "step": 65
    },
    {
      "epoch": 0.0672782874617737,
      "grad_norm": 1.897295355796814,
      "learning_rate": 0.001,
      "loss": 0.8364,
      "step": 66
    },
    {
      "epoch": 0.06829765545361875,
      "grad_norm": 1.2314752340316772,
      "learning_rate": 0.001,
      "loss": 0.8135,
      "step": 67
    },
    {
      "epoch": 0.06931702344546381,
      "grad_norm": 0.3215848207473755,
      "learning_rate": 0.001,
      "loss": 0.8081,
      "step": 68
    },
    {
      "epoch": 0.07033639143730887,
      "grad_norm": 0.5685788989067078,
      "learning_rate": 0.001,
      "loss": 0.8096,
      "step": 69
    },
    {
      "epoch": 0.07135575942915393,
      "grad_norm": 0.4062032699584961,
      "learning_rate": 0.001,
      "loss": 0.8066,
      "step": 70
    },
    {
      "epoch": 0.07237512742099898,
      "grad_norm": 0.2862195372581482,
      "learning_rate": 0.001,
      "loss": 0.8145,
      "step": 71
    },
    {
      "epoch": 0.07339449541284404,
      "grad_norm": 1.1017268896102905,
      "learning_rate": 0.001,
      "loss": 0.8179,
      "step": 72
    },
    {
      "epoch": 0.0744138634046891,
      "grad_norm": 0.4190366566181183,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 73
    },
    {
      "epoch": 0.07543323139653414,
      "grad_norm": 0.3570302724838257,
      "learning_rate": 0.001,
      "loss": 0.7827,
      "step": 74
    },
    {
      "epoch": 0.0764525993883792,
      "grad_norm": 0.7877461314201355,
      "learning_rate": 0.001,
      "loss": 0.8228,
      "step": 75
    },
    {
      "epoch": 0.07747196738022426,
      "grad_norm": 0.7472150325775146,
      "learning_rate": 0.001,
      "loss": 0.8115,
      "step": 76
    },
    {
      "epoch": 0.07849133537206932,
      "grad_norm": 0.8624945282936096,
      "learning_rate": 0.001,
      "loss": 0.8013,
      "step": 77
    },
    {
      "epoch": 0.07951070336391437,
      "grad_norm": 0.20214219391345978,
      "learning_rate": 0.001,
      "loss": 0.8071,
      "step": 78
    },
    {
      "epoch": 0.08053007135575943,
      "grad_norm": 0.8745236992835999,
      "learning_rate": 0.001,
      "loss": 0.8032,
      "step": 79
    },
    {
      "epoch": 0.08154943934760449,
      "grad_norm": 0.3083399832248688,
      "learning_rate": 0.001,
      "loss": 0.7905,
      "step": 80
    },
    {
      "epoch": 0.08256880733944955,
      "grad_norm": 0.38383203744888306,
      "learning_rate": 0.001,
      "loss": 0.8022,
      "step": 81
    },
    {
      "epoch": 0.0835881753312946,
      "grad_norm": 0.5937274694442749,
      "learning_rate": 0.001,
      "loss": 0.7822,
      "step": 82
    },
    {
      "epoch": 0.08460754332313965,
      "grad_norm": 0.2639831006526947,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 83
    },
    {
      "epoch": 0.0856269113149847,
      "grad_norm": 0.36707785725593567,
      "learning_rate": 0.001,
      "loss": 0.7939,
      "step": 84
    },
    {
      "epoch": 0.08664627930682976,
      "grad_norm": 0.6323625445365906,
      "learning_rate": 0.001,
      "loss": 0.7891,
      "step": 85
    },
    {
      "epoch": 0.08766564729867482,
      "grad_norm": 0.2758680582046509,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 86
    },
    {
      "epoch": 0.08868501529051988,
      "grad_norm": 1.1787811517715454,
      "learning_rate": 0.001,
      "loss": 0.8184,
      "step": 87
    },
    {
      "epoch": 0.08970438328236494,
      "grad_norm": 0.4863629937171936,
      "learning_rate": 0.001,
      "loss": 0.8076,
      "step": 88
    },
    {
      "epoch": 0.09072375127421,
      "grad_norm": 0.2324194759130478,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 89
    },
    {
      "epoch": 0.09174311926605505,
      "grad_norm": 0.9627401232719421,
      "learning_rate": 0.001,
      "loss": 0.8223,
      "step": 90
    },
    {
      "epoch": 0.09276248725790011,
      "grad_norm": 0.9595848917961121,
      "learning_rate": 0.001,
      "loss": 0.8096,
      "step": 91
    },
    {
      "epoch": 0.09378185524974515,
      "grad_norm": 0.9917060136795044,
      "learning_rate": 0.001,
      "loss": 0.7837,
      "step": 92
    },
    {
      "epoch": 0.09480122324159021,
      "grad_norm": 1.7753995656967163,
      "learning_rate": 0.001,
      "loss": 0.8286,
      "step": 93
    },
    {
      "epoch": 0.09582059123343527,
      "grad_norm": 0.5611097812652588,
      "learning_rate": 0.001,
      "loss": 0.7881,
      "step": 94
    },
    {
      "epoch": 0.09683995922528033,
      "grad_norm": 0.40279027819633484,
      "learning_rate": 0.001,
      "loss": 0.8047,
      "step": 95
    },
    {
      "epoch": 0.09785932721712538,
      "grad_norm": 0.6484598517417908,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 96
    },
    {
      "epoch": 0.09887869520897044,
      "grad_norm": 0.4745044410228729,
      "learning_rate": 0.001,
      "loss": 0.8071,
      "step": 97
    },
    {
      "epoch": 0.0998980632008155,
      "grad_norm": 0.5094083547592163,
      "learning_rate": 0.001,
      "loss": 0.7847,
      "step": 98
    },
    {
      "epoch": 0.10091743119266056,
      "grad_norm": 1.0334386825561523,
      "learning_rate": 0.001,
      "loss": 0.8315,
      "step": 99
    },
    {
      "epoch": 0.1019367991845056,
      "grad_norm": 1.0671201944351196,
      "learning_rate": 0.001,
      "loss": 0.8042,
      "step": 100
    },
    {
      "epoch": 0.10295616717635066,
      "grad_norm": 0.6320067048072815,
      "learning_rate": 0.001,
      "loss": 0.7983,
      "step": 101
    },
    {
      "epoch": 0.10397553516819572,
      "grad_norm": 0.40650659799575806,
      "learning_rate": 0.001,
      "loss": 0.7915,
      "step": 102
    },
    {
      "epoch": 0.10499490316004077,
      "grad_norm": 0.7900596857070923,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 103
    },
    {
      "epoch": 0.10601427115188583,
      "grad_norm": 0.932862401008606,
      "learning_rate": 0.001,
      "loss": 0.8184,
      "step": 104
    },
    {
      "epoch": 0.10703363914373089,
      "grad_norm": 1.0158876180648804,
      "learning_rate": 0.001,
      "loss": 0.7993,
      "step": 105
    },
    {
      "epoch": 0.10805300713557595,
      "grad_norm": 0.17743031680583954,
      "learning_rate": 0.001,
      "loss": 0.7944,
      "step": 106
    },
    {
      "epoch": 0.109072375127421,
      "grad_norm": 1.3081876039505005,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 107
    },
    {
      "epoch": 0.11009174311926606,
      "grad_norm": 0.9337728023529053,
      "learning_rate": 0.001,
      "loss": 0.8013,
      "step": 108
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 0.7687630653381348,
      "learning_rate": 0.001,
      "loss": 0.7832,
      "step": 109
    },
    {
      "epoch": 0.11213047910295616,
      "grad_norm": 0.5506975650787354,
      "learning_rate": 0.001,
      "loss": 0.8159,
      "step": 110
    },
    {
      "epoch": 0.11314984709480122,
      "grad_norm": 0.4107688367366791,
      "learning_rate": 0.001,
      "loss": 0.8066,
      "step": 111
    },
    {
      "epoch": 0.11416921508664628,
      "grad_norm": 0.44258588552474976,
      "learning_rate": 0.001,
      "loss": 0.7827,
      "step": 112
    },
    {
      "epoch": 0.11518858307849134,
      "grad_norm": 0.630885899066925,
      "learning_rate": 0.001,
      "loss": 0.7959,
      "step": 113
    },
    {
      "epoch": 0.1162079510703364,
      "grad_norm": 0.6662293672561646,
      "learning_rate": 0.001,
      "loss": 0.7876,
      "step": 114
    },
    {
      "epoch": 0.11722731906218145,
      "grad_norm": 0.4926871359348297,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 115
    },
    {
      "epoch": 0.11824668705402651,
      "grad_norm": 0.3474235236644745,
      "learning_rate": 0.001,
      "loss": 0.7822,
      "step": 116
    },
    {
      "epoch": 0.11926605504587157,
      "grad_norm": 0.3183443248271942,
      "learning_rate": 0.001,
      "loss": 0.8105,
      "step": 117
    },
    {
      "epoch": 0.12028542303771661,
      "grad_norm": 0.3317261338233948,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 118
    },
    {
      "epoch": 0.12130479102956167,
      "grad_norm": 1.224361538887024,
      "learning_rate": 0.001,
      "loss": 0.8008,
      "step": 119
    },
    {
      "epoch": 0.12232415902140673,
      "grad_norm": 1.4818834066390991,
      "learning_rate": 0.001,
      "loss": 0.832,
      "step": 120
    },
    {
      "epoch": 0.12334352701325178,
      "grad_norm": 0.7833993434906006,
      "learning_rate": 0.001,
      "loss": 0.7695,
      "step": 121
    },
    {
      "epoch": 0.12436289500509684,
      "grad_norm": 1.705887794494629,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 122
    },
    {
      "epoch": 0.12538226299694188,
      "grad_norm": 0.3621211349964142,
      "learning_rate": 0.001,
      "loss": 0.7651,
      "step": 123
    },
    {
      "epoch": 0.12640163098878696,
      "grad_norm": 0.5593816041946411,
      "learning_rate": 0.001,
      "loss": 0.7856,
      "step": 124
    },
    {
      "epoch": 0.127420998980632,
      "grad_norm": 0.9187027812004089,
      "learning_rate": 0.001,
      "loss": 0.7847,
      "step": 125
    },
    {
      "epoch": 0.12844036697247707,
      "grad_norm": 1.1921930313110352,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 126
    },
    {
      "epoch": 0.12945973496432212,
      "grad_norm": 0.5418238639831543,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 127
    },
    {
      "epoch": 0.1304791029561672,
      "grad_norm": 0.8602548241615295,
      "learning_rate": 0.001,
      "loss": 0.7896,
      "step": 128
    },
    {
      "epoch": 0.13149847094801223,
      "grad_norm": 0.6770103573799133,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 129
    },
    {
      "epoch": 0.1325178389398573,
      "grad_norm": 0.7335187196731567,
      "learning_rate": 0.001,
      "loss": 0.7822,
      "step": 130
    },
    {
      "epoch": 0.13353720693170235,
      "grad_norm": 0.8072130680084229,
      "learning_rate": 0.001,
      "loss": 0.7759,
      "step": 131
    },
    {
      "epoch": 0.1345565749235474,
      "grad_norm": 0.7528272271156311,
      "learning_rate": 0.001,
      "loss": 0.7954,
      "step": 132
    },
    {
      "epoch": 0.13557594291539246,
      "grad_norm": 4.878420829772949,
      "learning_rate": 0.001,
      "loss": 0.8511,
      "step": 133
    },
    {
      "epoch": 0.1365953109072375,
      "grad_norm": 19.370988845825195,
      "learning_rate": 0.001,
      "loss": 0.8232,
      "step": 134
    },
    {
      "epoch": 0.13761467889908258,
      "grad_norm": 2.9916749000549316,
      "learning_rate": 0.001,
      "loss": 0.8418,
      "step": 135
    },
    {
      "epoch": 0.13863404689092762,
      "grad_norm": 1.7679357528686523,
      "learning_rate": 0.001,
      "loss": 0.813,
      "step": 136
    },
    {
      "epoch": 0.1396534148827727,
      "grad_norm": 2.498039722442627,
      "learning_rate": 0.001,
      "loss": 0.9224,
      "step": 137
    },
    {
      "epoch": 0.14067278287461774,
      "grad_norm": 0.46540284156799316,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 138
    },
    {
      "epoch": 0.14169215086646278,
      "grad_norm": 3.4729561805725098,
      "learning_rate": 0.001,
      "loss": 0.8247,
      "step": 139
    },
    {
      "epoch": 0.14271151885830785,
      "grad_norm": 0.5553238391876221,
      "learning_rate": 0.001,
      "loss": 0.7949,
      "step": 140
    },
    {
      "epoch": 0.1437308868501529,
      "grad_norm": 0.47696781158447266,
      "learning_rate": 0.001,
      "loss": 0.8125,
      "step": 141
    },
    {
      "epoch": 0.14475025484199797,
      "grad_norm": 0.5817791223526001,
      "learning_rate": 0.001,
      "loss": 0.8008,
      "step": 142
    },
    {
      "epoch": 0.145769622833843,
      "grad_norm": 0.5288876295089722,
      "learning_rate": 0.001,
      "loss": 0.8066,
      "step": 143
    },
    {
      "epoch": 0.14678899082568808,
      "grad_norm": 5.756321430206299,
      "learning_rate": 0.001,
      "loss": 0.8032,
      "step": 144
    },
    {
      "epoch": 0.14780835881753313,
      "grad_norm": 0.7118014693260193,
      "learning_rate": 0.001,
      "loss": 0.8145,
      "step": 145
    },
    {
      "epoch": 0.1488277268093782,
      "grad_norm": 0.31622079014778137,
      "learning_rate": 0.001,
      "loss": 0.8218,
      "step": 146
    },
    {
      "epoch": 0.14984709480122324,
      "grad_norm": 0.46577122807502747,
      "learning_rate": 0.001,
      "loss": 0.7998,
      "step": 147
    },
    {
      "epoch": 0.15086646279306828,
      "grad_norm": 0.322033554315567,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 148
    },
    {
      "epoch": 0.15188583078491336,
      "grad_norm": 0.2819819748401642,
      "learning_rate": 0.001,
      "loss": 0.8018,
      "step": 149
    },
    {
      "epoch": 0.1529051987767584,
      "grad_norm": 0.2522961497306824,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 150
    },
    {
      "epoch": 0.15392456676860347,
      "grad_norm": 0.26272308826446533,
      "learning_rate": 0.001,
      "loss": 0.7886,
      "step": 151
    },
    {
      "epoch": 0.15494393476044852,
      "grad_norm": 2.993971586227417,
      "learning_rate": 0.001,
      "loss": 0.7949,
      "step": 152
    },
    {
      "epoch": 0.1559633027522936,
      "grad_norm": 0.4987430274486542,
      "learning_rate": 0.001,
      "loss": 0.7881,
      "step": 153
    },
    {
      "epoch": 0.15698267074413863,
      "grad_norm": 0.6184417009353638,
      "learning_rate": 0.001,
      "loss": 0.8013,
      "step": 154
    },
    {
      "epoch": 0.1580020387359837,
      "grad_norm": 0.3677385449409485,
      "learning_rate": 0.001,
      "loss": 0.8115,
      "step": 155
    },
    {
      "epoch": 0.15902140672782875,
      "grad_norm": 0.5585063695907593,
      "learning_rate": 0.001,
      "loss": 0.7871,
      "step": 156
    },
    {
      "epoch": 0.1600407747196738,
      "grad_norm": 0.7271122932434082,
      "learning_rate": 0.001,
      "loss": 0.7979,
      "step": 157
    },
    {
      "epoch": 0.16106014271151886,
      "grad_norm": 0.6480737924575806,
      "learning_rate": 0.001,
      "loss": 0.7871,
      "step": 158
    },
    {
      "epoch": 0.1620795107033639,
      "grad_norm": 0.7373719215393066,
      "learning_rate": 0.001,
      "loss": 0.8042,
      "step": 159
    },
    {
      "epoch": 0.16309887869520898,
      "grad_norm": 1.1129075288772583,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 160
    },
    {
      "epoch": 0.16411824668705402,
      "grad_norm": 0.3503193259239197,
      "learning_rate": 0.001,
      "loss": 0.7686,
      "step": 161
    },
    {
      "epoch": 0.1651376146788991,
      "grad_norm": 0.2414102703332901,
      "learning_rate": 0.001,
      "loss": 0.8022,
      "step": 162
    },
    {
      "epoch": 0.16615698267074414,
      "grad_norm": 0.8011330962181091,
      "learning_rate": 0.001,
      "loss": 0.8159,
      "step": 163
    },
    {
      "epoch": 0.1671763506625892,
      "grad_norm": 0.46882766485214233,
      "learning_rate": 0.001,
      "loss": 0.8413,
      "step": 164
    },
    {
      "epoch": 0.16819571865443425,
      "grad_norm": 0.9719983339309692,
      "learning_rate": 0.001,
      "loss": 0.7886,
      "step": 165
    },
    {
      "epoch": 0.1692150866462793,
      "grad_norm": 0.8565792441368103,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 166
    },
    {
      "epoch": 0.17023445463812437,
      "grad_norm": 0.7024244070053101,
      "learning_rate": 0.001,
      "loss": 0.8242,
      "step": 167
    },
    {
      "epoch": 0.1712538226299694,
      "grad_norm": 0.7403372526168823,
      "learning_rate": 0.001,
      "loss": 0.8188,
      "step": 168
    },
    {
      "epoch": 0.17227319062181448,
      "grad_norm": 0.44268155097961426,
      "learning_rate": 0.001,
      "loss": 0.793,
      "step": 169
    },
    {
      "epoch": 0.17329255861365953,
      "grad_norm": 0.2411574423313141,
      "learning_rate": 0.001,
      "loss": 0.8032,
      "step": 170
    },
    {
      "epoch": 0.1743119266055046,
      "grad_norm": 0.7264118194580078,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 171
    },
    {
      "epoch": 0.17533129459734964,
      "grad_norm": 0.7645184397697449,
      "learning_rate": 0.001,
      "loss": 0.814,
      "step": 172
    },
    {
      "epoch": 0.1763506625891947,
      "grad_norm": 0.3978902995586395,
      "learning_rate": 0.001,
      "loss": 0.7939,
      "step": 173
    },
    {
      "epoch": 0.17737003058103976,
      "grad_norm": 0.6539017558097839,
      "learning_rate": 0.001,
      "loss": 0.814,
      "step": 174
    },
    {
      "epoch": 0.1783893985728848,
      "grad_norm": 0.630952775478363,
      "learning_rate": 0.001,
      "loss": 0.8301,
      "step": 175
    },
    {
      "epoch": 0.17940876656472987,
      "grad_norm": 0.4144653081893921,
      "learning_rate": 0.001,
      "loss": 0.7832,
      "step": 176
    },
    {
      "epoch": 0.18042813455657492,
      "grad_norm": 0.24787604808807373,
      "learning_rate": 0.001,
      "loss": 0.7832,
      "step": 177
    },
    {
      "epoch": 0.18144750254842,
      "grad_norm": 0.3255755603313446,
      "learning_rate": 0.001,
      "loss": 0.7954,
      "step": 178
    },
    {
      "epoch": 0.18246687054026503,
      "grad_norm": 0.48590558767318726,
      "learning_rate": 0.001,
      "loss": 0.7847,
      "step": 179
    },
    {
      "epoch": 0.1834862385321101,
      "grad_norm": 0.6411375403404236,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 180
    },
    {
      "epoch": 0.18450560652395515,
      "grad_norm": 0.5857368111610413,
      "learning_rate": 0.001,
      "loss": 0.8018,
      "step": 181
    },
    {
      "epoch": 0.18552497451580022,
      "grad_norm": 0.42733460664749146,
      "learning_rate": 0.001,
      "loss": 0.8066,
      "step": 182
    },
    {
      "epoch": 0.18654434250764526,
      "grad_norm": 0.25343772768974304,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 183
    },
    {
      "epoch": 0.1875637104994903,
      "grad_norm": 0.3328772485256195,
      "learning_rate": 0.001,
      "loss": 0.8037,
      "step": 184
    },
    {
      "epoch": 0.18858307849133538,
      "grad_norm": 0.5246638059616089,
      "learning_rate": 0.001,
      "loss": 0.7856,
      "step": 185
    },
    {
      "epoch": 0.18960244648318042,
      "grad_norm": 1.0661052465438843,
      "learning_rate": 0.001,
      "loss": 0.8154,
      "step": 186
    },
    {
      "epoch": 0.1906218144750255,
      "grad_norm": 2.3471696376800537,
      "learning_rate": 0.001,
      "loss": 0.7915,
      "step": 187
    },
    {
      "epoch": 0.19164118246687054,
      "grad_norm": 0.20770534873008728,
      "learning_rate": 0.001,
      "loss": 0.8174,
      "step": 188
    },
    {
      "epoch": 0.1926605504587156,
      "grad_norm": 0.8378174304962158,
      "learning_rate": 0.001,
      "loss": 0.8149,
      "step": 189
    },
    {
      "epoch": 0.19367991845056065,
      "grad_norm": 0.29378217458724976,
      "learning_rate": 0.001,
      "loss": 0.7993,
      "step": 190
    },
    {
      "epoch": 0.1946992864424057,
      "grad_norm": 0.3402598798274994,
      "learning_rate": 0.001,
      "loss": 0.77,
      "step": 191
    },
    {
      "epoch": 0.19571865443425077,
      "grad_norm": 2.133986473083496,
      "learning_rate": 0.001,
      "loss": 0.8096,
      "step": 192
    },
    {
      "epoch": 0.1967380224260958,
      "grad_norm": 0.5198069214820862,
      "learning_rate": 0.001,
      "loss": 0.7949,
      "step": 193
    },
    {
      "epoch": 0.19775739041794088,
      "grad_norm": 0.5811632871627808,
      "learning_rate": 0.001,
      "loss": 0.8057,
      "step": 194
    },
    {
      "epoch": 0.19877675840978593,
      "grad_norm": 0.25342774391174316,
      "learning_rate": 0.001,
      "loss": 0.7949,
      "step": 195
    },
    {
      "epoch": 0.199796126401631,
      "grad_norm": 0.47887513041496277,
      "learning_rate": 0.001,
      "loss": 0.7998,
      "step": 196
    },
    {
      "epoch": 0.20081549439347604,
      "grad_norm": 0.583899736404419,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 197
    },
    {
      "epoch": 0.2018348623853211,
      "grad_norm": 0.47497832775115967,
      "learning_rate": 0.001,
      "loss": 0.7798,
      "step": 198
    },
    {
      "epoch": 0.20285423037716616,
      "grad_norm": 0.3175908029079437,
      "learning_rate": 0.001,
      "loss": 0.7803,
      "step": 199
    },
    {
      "epoch": 0.2038735983690112,
      "grad_norm": 0.2459663301706314,
      "learning_rate": 0.001,
      "loss": 0.7803,
      "step": 200
    },
    {
      "epoch": 0.20489296636085627,
      "grad_norm": 0.9950027465820312,
      "learning_rate": 0.001,
      "loss": 0.7812,
      "step": 201
    },
    {
      "epoch": 0.20591233435270132,
      "grad_norm": 0.3962779939174652,
      "learning_rate": 0.001,
      "loss": 0.8037,
      "step": 202
    },
    {
      "epoch": 0.2069317023445464,
      "grad_norm": 0.3847820460796356,
      "learning_rate": 0.001,
      "loss": 0.8052,
      "step": 203
    },
    {
      "epoch": 0.20795107033639143,
      "grad_norm": 0.17700333893299103,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 204
    },
    {
      "epoch": 0.2089704383282365,
      "grad_norm": 0.2855486273765564,
      "learning_rate": 0.001,
      "loss": 0.8052,
      "step": 205
    },
    {
      "epoch": 0.20998980632008155,
      "grad_norm": 0.33294954895973206,
      "learning_rate": 0.001,
      "loss": 0.7954,
      "step": 206
    },
    {
      "epoch": 0.21100917431192662,
      "grad_norm": 0.16887788474559784,
      "learning_rate": 0.001,
      "loss": 0.7983,
      "step": 207
    },
    {
      "epoch": 0.21202854230377166,
      "grad_norm": 0.1846080869436264,
      "learning_rate": 0.001,
      "loss": 0.7886,
      "step": 208
    },
    {
      "epoch": 0.2130479102956167,
      "grad_norm": 0.2511752247810364,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 209
    },
    {
      "epoch": 0.21406727828746178,
      "grad_norm": 0.6237114667892456,
      "learning_rate": 0.001,
      "loss": 0.8105,
      "step": 210
    },
    {
      "epoch": 0.21508664627930682,
      "grad_norm": 0.4124687910079956,
      "learning_rate": 0.001,
      "loss": 0.7788,
      "step": 211
    },
    {
      "epoch": 0.2161060142711519,
      "grad_norm": 0.44938966631889343,
      "learning_rate": 0.001,
      "loss": 0.7793,
      "step": 212
    },
    {
      "epoch": 0.21712538226299694,
      "grad_norm": 0.36364537477493286,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 213
    },
    {
      "epoch": 0.218144750254842,
      "grad_norm": 0.8173400163650513,
      "learning_rate": 0.001,
      "loss": 0.8027,
      "step": 214
    },
    {
      "epoch": 0.21916411824668705,
      "grad_norm": 0.3706076741218567,
      "learning_rate": 0.001,
      "loss": 0.7803,
      "step": 215
    },
    {
      "epoch": 0.22018348623853212,
      "grad_norm": 0.6666180491447449,
      "learning_rate": 0.001,
      "loss": 0.793,
      "step": 216
    },
    {
      "epoch": 0.22120285423037717,
      "grad_norm": 0.4009306728839874,
      "learning_rate": 0.001,
      "loss": 0.8013,
      "step": 217
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.6874666810035706,
      "learning_rate": 0.001,
      "loss": 0.8022,
      "step": 218
    },
    {
      "epoch": 0.22324159021406728,
      "grad_norm": 0.5480237603187561,
      "learning_rate": 0.001,
      "loss": 0.8037,
      "step": 219
    },
    {
      "epoch": 0.22426095820591233,
      "grad_norm": 0.37553876638412476,
      "learning_rate": 0.001,
      "loss": 0.8076,
      "step": 220
    },
    {
      "epoch": 0.2252803261977574,
      "grad_norm": 0.371417373418808,
      "learning_rate": 0.001,
      "loss": 0.8057,
      "step": 221
    },
    {
      "epoch": 0.22629969418960244,
      "grad_norm": 0.5241325497627258,
      "learning_rate": 0.001,
      "loss": 0.79,
      "step": 222
    },
    {
      "epoch": 0.2273190621814475,
      "grad_norm": 0.7686033248901367,
      "learning_rate": 0.001,
      "loss": 0.8115,
      "step": 223
    },
    {
      "epoch": 0.22833843017329256,
      "grad_norm": 0.4945392310619354,
      "learning_rate": 0.001,
      "loss": 0.7827,
      "step": 224
    },
    {
      "epoch": 0.22935779816513763,
      "grad_norm": 0.14543484151363373,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 225
    },
    {
      "epoch": 0.23037716615698267,
      "grad_norm": 0.10476656258106232,
      "learning_rate": 0.001,
      "loss": 0.7969,
      "step": 226
    },
    {
      "epoch": 0.23139653414882771,
      "grad_norm": 0.1825428605079651,
      "learning_rate": 0.001,
      "loss": 0.7876,
      "step": 227
    },
    {
      "epoch": 0.2324159021406728,
      "grad_norm": 0.3790678381919861,
      "learning_rate": 0.001,
      "loss": 0.7861,
      "step": 228
    },
    {
      "epoch": 0.23343527013251783,
      "grad_norm": 0.5159554481506348,
      "learning_rate": 0.001,
      "loss": 0.7979,
      "step": 229
    },
    {
      "epoch": 0.2344546381243629,
      "grad_norm": 1.2857006788253784,
      "learning_rate": 0.001,
      "loss": 0.7832,
      "step": 230
    },
    {
      "epoch": 0.23547400611620795,
      "grad_norm": 0.32433661818504333,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 231
    },
    {
      "epoch": 0.23649337410805302,
      "grad_norm": 0.40798142552375793,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 232
    },
    {
      "epoch": 0.23751274209989806,
      "grad_norm": 0.13180458545684814,
      "learning_rate": 0.001,
      "loss": 0.7773,
      "step": 233
    },
    {
      "epoch": 0.23853211009174313,
      "grad_norm": 0.2406935840845108,
      "learning_rate": 0.001,
      "loss": 0.8105,
      "step": 234
    },
    {
      "epoch": 0.23955147808358818,
      "grad_norm": 0.49873754382133484,
      "learning_rate": 0.001,
      "loss": 0.7959,
      "step": 235
    },
    {
      "epoch": 0.24057084607543322,
      "grad_norm": 0.37856927514076233,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 236
    },
    {
      "epoch": 0.2415902140672783,
      "grad_norm": 0.32744836807250977,
      "learning_rate": 0.001,
      "loss": 0.7915,
      "step": 237
    },
    {
      "epoch": 0.24260958205912334,
      "grad_norm": 0.2796790301799774,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 238
    },
    {
      "epoch": 0.2436289500509684,
      "grad_norm": 0.07292909175157547,
      "learning_rate": 0.001,
      "loss": 0.8057,
      "step": 239
    },
    {
      "epoch": 0.24464831804281345,
      "grad_norm": 3.441988229751587,
      "learning_rate": 0.001,
      "loss": 0.7876,
      "step": 240
    },
    {
      "epoch": 0.24566768603465852,
      "grad_norm": 0.2873019278049469,
      "learning_rate": 0.001,
      "loss": 0.7715,
      "step": 241
    },
    {
      "epoch": 0.24668705402650357,
      "grad_norm": 0.241742342710495,
      "learning_rate": 0.001,
      "loss": 0.7749,
      "step": 242
    },
    {
      "epoch": 0.24770642201834864,
      "grad_norm": 0.49572208523750305,
      "learning_rate": 0.001,
      "loss": 0.7827,
      "step": 243
    },
    {
      "epoch": 0.24872579001019368,
      "grad_norm": 0.3330715596675873,
      "learning_rate": 0.001,
      "loss": 0.7837,
      "step": 244
    },
    {
      "epoch": 0.24974515800203873,
      "grad_norm": 0.5376371741294861,
      "learning_rate": 0.001,
      "loss": 0.7935,
      "step": 245
    },
    {
      "epoch": 0.25076452599388377,
      "grad_norm": 0.2095116376876831,
      "learning_rate": 0.001,
      "loss": 0.7725,
      "step": 246
    },
    {
      "epoch": 0.25178389398572887,
      "grad_norm": 1.5375322103500366,
      "learning_rate": 0.001,
      "loss": 0.7935,
      "step": 247
    },
    {
      "epoch": 0.2528032619775739,
      "grad_norm": 0.537013590335846,
      "learning_rate": 0.001,
      "loss": 0.8057,
      "step": 248
    },
    {
      "epoch": 0.25382262996941896,
      "grad_norm": 0.2946222722530365,
      "learning_rate": 0.001,
      "loss": 0.7852,
      "step": 249
    },
    {
      "epoch": 0.254841997961264,
      "grad_norm": 0.3098390996456146,
      "learning_rate": 0.001,
      "loss": 0.7861,
      "step": 250
    },
    {
      "epoch": 0.2558613659531091,
      "grad_norm": 0.4405128061771393,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 251
    },
    {
      "epoch": 0.25688073394495414,
      "grad_norm": 0.3891802132129669,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 252
    },
    {
      "epoch": 0.2579001019367992,
      "grad_norm": 0.20332440733909607,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 253
    },
    {
      "epoch": 0.25891946992864423,
      "grad_norm": 0.30031925439834595,
      "learning_rate": 0.001,
      "loss": 0.7749,
      "step": 254
    },
    {
      "epoch": 0.2599388379204893,
      "grad_norm": 0.19388826191425323,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 255
    },
    {
      "epoch": 0.2609582059123344,
      "grad_norm": 0.14875192940235138,
      "learning_rate": 0.001,
      "loss": 0.7783,
      "step": 256
    },
    {
      "epoch": 0.2619775739041794,
      "grad_norm": 0.3156014084815979,
      "learning_rate": 0.001,
      "loss": 0.7798,
      "step": 257
    },
    {
      "epoch": 0.26299694189602446,
      "grad_norm": 0.47196751832962036,
      "learning_rate": 0.001,
      "loss": 0.7812,
      "step": 258
    },
    {
      "epoch": 0.2640163098878695,
      "grad_norm": 0.2645531892776489,
      "learning_rate": 0.001,
      "loss": 0.7803,
      "step": 259
    },
    {
      "epoch": 0.2650356778797146,
      "grad_norm": 0.2332438826560974,
      "learning_rate": 0.001,
      "loss": 0.793,
      "step": 260
    },
    {
      "epoch": 0.26605504587155965,
      "grad_norm": 0.2670213580131531,
      "learning_rate": 0.001,
      "loss": 0.79,
      "step": 261
    },
    {
      "epoch": 0.2670744138634047,
      "grad_norm": 0.4128943383693695,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 262
    },
    {
      "epoch": 0.26809378185524974,
      "grad_norm": 0.3269265294075012,
      "learning_rate": 0.001,
      "loss": 0.7979,
      "step": 263
    },
    {
      "epoch": 0.2691131498470948,
      "grad_norm": 0.6078907251358032,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 264
    },
    {
      "epoch": 0.2701325178389399,
      "grad_norm": 0.4872269630432129,
      "learning_rate": 0.001,
      "loss": 0.7876,
      "step": 265
    },
    {
      "epoch": 0.2711518858307849,
      "grad_norm": 0.32289862632751465,
      "learning_rate": 0.001,
      "loss": 0.8008,
      "step": 266
    },
    {
      "epoch": 0.27217125382262997,
      "grad_norm": 0.9739877581596375,
      "learning_rate": 0.001,
      "loss": 0.8032,
      "step": 267
    },
    {
      "epoch": 0.273190621814475,
      "grad_norm": 0.28121212124824524,
      "learning_rate": 0.001,
      "loss": 0.792,
      "step": 268
    },
    {
      "epoch": 0.2742099898063201,
      "grad_norm": 0.36057576537132263,
      "learning_rate": 0.001,
      "loss": 0.7793,
      "step": 269
    },
    {
      "epoch": 0.27522935779816515,
      "grad_norm": 0.6328666806221008,
      "learning_rate": 0.001,
      "loss": 0.7734,
      "step": 270
    },
    {
      "epoch": 0.2762487257900102,
      "grad_norm": 0.34104159474372864,
      "learning_rate": 0.001,
      "loss": 0.7842,
      "step": 271
    },
    {
      "epoch": 0.27726809378185524,
      "grad_norm": 0.1535949856042862,
      "learning_rate": 0.001,
      "loss": 0.7715,
      "step": 272
    },
    {
      "epoch": 0.2782874617737003,
      "grad_norm": 0.3369952440261841,
      "learning_rate": 0.001,
      "loss": 0.8027,
      "step": 273
    },
    {
      "epoch": 0.2793068297655454,
      "grad_norm": 1.1862237453460693,
      "learning_rate": 0.001,
      "loss": 0.8164,
      "step": 274
    },
    {
      "epoch": 0.2803261977573904,
      "grad_norm": 0.42979001998901367,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 275
    },
    {
      "epoch": 0.28134556574923547,
      "grad_norm": 0.20351308584213257,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 276
    },
    {
      "epoch": 0.2823649337410805,
      "grad_norm": 0.22863037884235382,
      "learning_rate": 0.001,
      "loss": 0.79,
      "step": 277
    },
    {
      "epoch": 0.28338430173292556,
      "grad_norm": 0.3159005641937256,
      "learning_rate": 0.001,
      "loss": 0.812,
      "step": 278
    },
    {
      "epoch": 0.28440366972477066,
      "grad_norm": 0.20812229812145233,
      "learning_rate": 0.001,
      "loss": 0.7954,
      "step": 279
    },
    {
      "epoch": 0.2854230377166157,
      "grad_norm": 0.43878793716430664,
      "learning_rate": 0.001,
      "loss": 0.77,
      "step": 280
    },
    {
      "epoch": 0.28644240570846075,
      "grad_norm": 0.3797699511051178,
      "learning_rate": 0.001,
      "loss": 0.7783,
      "step": 281
    },
    {
      "epoch": 0.2874617737003058,
      "grad_norm": 0.41564494371414185,
      "learning_rate": 0.001,
      "loss": 0.8086,
      "step": 282
    },
    {
      "epoch": 0.2884811416921509,
      "grad_norm": 0.4292455017566681,
      "learning_rate": 0.001,
      "loss": 0.7998,
      "step": 283
    },
    {
      "epoch": 0.28950050968399593,
      "grad_norm": 0.29996854066848755,
      "learning_rate": 0.001,
      "loss": 0.7837,
      "step": 284
    },
    {
      "epoch": 0.290519877675841,
      "grad_norm": 0.44356274604797363,
      "learning_rate": 0.001,
      "loss": 0.7856,
      "step": 285
    },
    {
      "epoch": 0.291539245667686,
      "grad_norm": 0.29310083389282227,
      "learning_rate": 0.001,
      "loss": 0.7798,
      "step": 286
    },
    {
      "epoch": 0.29255861365953106,
      "grad_norm": 0.28484290838241577,
      "learning_rate": 0.001,
      "loss": 0.7964,
      "step": 287
    },
    {
      "epoch": 0.29357798165137616,
      "grad_norm": 0.395402193069458,
      "learning_rate": 0.001,
      "loss": 0.7983,
      "step": 288
    },
    {
      "epoch": 0.2945973496432212,
      "grad_norm": 0.5646993517875671,
      "learning_rate": 0.001,
      "loss": 0.7837,
      "step": 289
    },
    {
      "epoch": 0.29561671763506625,
      "grad_norm": 0.29822614789009094,
      "learning_rate": 0.001,
      "loss": 0.7881,
      "step": 290
    },
    {
      "epoch": 0.2966360856269113,
      "grad_norm": 0.898771345615387,
      "learning_rate": 0.001,
      "loss": 0.8169,
      "step": 291
    },
    {
      "epoch": 0.2976554536187564,
      "grad_norm": 0.2787693738937378,
      "learning_rate": 0.001,
      "loss": 0.7886,
      "step": 292
    },
    {
      "epoch": 0.29867482161060144,
      "grad_norm": 0.407227098941803,
      "learning_rate": 0.001,
      "loss": 0.7832,
      "step": 293
    },
    {
      "epoch": 0.2996941896024465,
      "grad_norm": 0.3940170407295227,
      "learning_rate": 0.001,
      "loss": 0.7778,
      "step": 294
    },
    {
      "epoch": 0.3007135575942915,
      "grad_norm": 0.2787266671657562,
      "learning_rate": 0.001,
      "loss": 0.7881,
      "step": 295
    },
    {
      "epoch": 0.30173292558613657,
      "grad_norm": 0.4293944537639618,
      "learning_rate": 0.001,
      "loss": 0.7632,
      "step": 296
    },
    {
      "epoch": 0.30275229357798167,
      "grad_norm": 0.68604975938797,
      "learning_rate": 0.001,
      "loss": 0.8345,
      "step": 297
    },
    {
      "epoch": 0.3037716615698267,
      "grad_norm": 0.4678710699081421,
      "learning_rate": 0.001,
      "loss": 0.7817,
      "step": 298
    },
    {
      "epoch": 0.30479102956167176,
      "grad_norm": 0.7404395341873169,
      "learning_rate": 0.001,
      "loss": 0.7764,
      "step": 299
    },
    {
      "epoch": 0.3058103975535168,
      "grad_norm": 0.3270181715488434,
      "learning_rate": 0.001,
      "loss": 0.7725,
      "step": 300
    },
    {
      "epoch": 0.3068297655453619,
      "grad_norm": 0.3225812613964081,
      "learning_rate": 0.001,
      "loss": 0.7603,
      "step": 301
    },
    {
      "epoch": 0.30784913353720694,
      "grad_norm": 0.29518958926200867,
      "learning_rate": 0.001,
      "loss": 0.7974,
      "step": 302
    },
    {
      "epoch": 0.308868501529052,
      "grad_norm": 6.996394157409668,
      "learning_rate": 0.001,
      "loss": 0.7896,
      "step": 303
    },
    {
      "epoch": 0.30988786952089703,
      "grad_norm": 0.4512697160243988,
      "learning_rate": 0.001,
      "loss": 0.7847,
      "step": 304
    },
    {
      "epoch": 0.3109072375127421,
      "grad_norm": 0.24591542780399323,
      "learning_rate": 0.001,
      "loss": 0.772,
      "step": 305
    },
    {
      "epoch": 0.3119266055045872,
      "grad_norm": 0.43133896589279175,
      "learning_rate": 0.001,
      "loss": 0.79,
      "step": 306
    },
    {
      "epoch": 0.3129459734964322,
      "grad_norm": 2.2987594604492188,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 307
    },
    {
      "epoch": 0.31396534148827726,
      "grad_norm": 0.617796003818512,
      "learning_rate": 0.001,
      "loss": 0.8018,
      "step": 308
    },
    {
      "epoch": 0.3149847094801223,
      "grad_norm": 0.5017968416213989,
      "learning_rate": 0.001,
      "loss": 0.811,
      "step": 309
    },
    {
      "epoch": 0.3160040774719674,
      "grad_norm": 0.6071340441703796,
      "learning_rate": 0.001,
      "loss": 0.8169,
      "step": 310
    },
    {
      "epoch": 0.31702344546381245,
      "grad_norm": 0.30233946442604065,
      "learning_rate": 0.001,
      "loss": 0.7993,
      "step": 311
    },
    {
      "epoch": 0.3180428134556575,
      "grad_norm": 0.9434159398078918,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 312
    },
    {
      "epoch": 0.31906218144750254,
      "grad_norm": 0.49549925327301025,
      "learning_rate": 0.001,
      "loss": 0.7993,
      "step": 313
    },
    {
      "epoch": 0.3200815494393476,
      "grad_norm": 0.4220718443393707,
      "learning_rate": 0.001,
      "loss": 0.8027,
      "step": 314
    },
    {
      "epoch": 0.3211009174311927,
      "grad_norm": 0.25116631388664246,
      "learning_rate": 0.001,
      "loss": 0.7935,
      "step": 315
    },
    {
      "epoch": 0.3221202854230377,
      "grad_norm": 0.3547598421573639,
      "learning_rate": 0.001,
      "loss": 0.8062,
      "step": 316
    },
    {
      "epoch": 0.32313965341488277,
      "grad_norm": 0.48667111992836,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 317
    },
    {
      "epoch": 0.3241590214067278,
      "grad_norm": 0.7949332594871521,
      "learning_rate": 0.001,
      "loss": 0.8154,
      "step": 318
    },
    {
      "epoch": 0.3251783893985729,
      "grad_norm": 0.48468342423439026,
      "learning_rate": 0.001,
      "loss": 0.8091,
      "step": 319
    },
    {
      "epoch": 0.32619775739041795,
      "grad_norm": 0.21755187213420868,
      "learning_rate": 0.001,
      "loss": 0.7822,
      "step": 320
    },
    {
      "epoch": 0.327217125382263,
      "grad_norm": 0.18356537818908691,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 321
    },
    {
      "epoch": 0.32823649337410804,
      "grad_norm": 0.13659602403640747,
      "learning_rate": 0.001,
      "loss": 0.8169,
      "step": 322
    },
    {
      "epoch": 0.3292558613659531,
      "grad_norm": 0.2900362014770508,
      "learning_rate": 0.001,
      "loss": 0.8115,
      "step": 323
    },
    {
      "epoch": 0.3302752293577982,
      "grad_norm": 0.5838299989700317,
      "learning_rate": 0.001,
      "loss": 0.7769,
      "step": 324
    },
    {
      "epoch": 0.3312945973496432,
      "grad_norm": 0.3078111708164215,
      "learning_rate": 0.001,
      "loss": 0.7637,
      "step": 325
    },
    {
      "epoch": 0.33231396534148827,
      "grad_norm": 0.3113967478275299,
      "learning_rate": 0.001,
      "loss": 0.7715,
      "step": 326
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.21493490040302277,
      "learning_rate": 0.001,
      "loss": 0.7808,
      "step": 327
    },
    {
      "epoch": 0.3343527013251784,
      "grad_norm": 0.44616448879241943,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 328
    },
    {
      "epoch": 0.33537206931702346,
      "grad_norm": 0.2931728661060333,
      "learning_rate": 0.001,
      "loss": 0.7905,
      "step": 329
    },
    {
      "epoch": 0.3363914373088685,
      "grad_norm": 0.43922320008277893,
      "learning_rate": 0.001,
      "loss": 0.7866,
      "step": 330
    },
    {
      "epoch": 0.33741080530071355,
      "grad_norm": 0.733113706111908,
      "learning_rate": 0.001,
      "loss": 0.8203,
      "step": 331
    },
    {
      "epoch": 0.3384301732925586,
      "grad_norm": 0.2901950478553772,
      "learning_rate": 0.001,
      "loss": 0.7671,
      "step": 332
    },
    {
      "epoch": 0.3394495412844037,
      "grad_norm": 0.35268253087997437,
      "learning_rate": 0.001,
      "loss": 0.7817,
      "step": 333
    },
    {
      "epoch": 0.34046890927624873,
      "grad_norm": 0.29378607869148254,
      "learning_rate": 0.001,
      "loss": 0.7754,
      "step": 334
    },
    {
      "epoch": 0.3414882772680938,
      "grad_norm": 0.40989890694618225,
      "learning_rate": 0.001,
      "loss": 0.7744,
      "step": 335
    },
    {
      "epoch": 0.3425076452599388,
      "grad_norm": 0.4164649546146393,
      "learning_rate": 0.001,
      "loss": 0.7891,
      "step": 336
    },
    {
      "epoch": 0.3435270132517839,
      "grad_norm": 0.1703968644142151,
      "learning_rate": 0.001,
      "loss": 0.7842,
      "step": 337
    },
    {
      "epoch": 0.34454638124362896,
      "grad_norm": 0.4365912973880768,
      "learning_rate": 0.001,
      "loss": 0.8252,
      "step": 338
    },
    {
      "epoch": 0.345565749235474,
      "grad_norm": 0.6640399694442749,
      "learning_rate": 0.001,
      "loss": 0.7578,
      "step": 339
    },
    {
      "epoch": 0.34658511722731905,
      "grad_norm": 0.2988424599170685,
      "learning_rate": 0.001,
      "loss": 0.7705,
      "step": 340
    },
    {
      "epoch": 0.3476044852191641,
      "grad_norm": 0.2928354740142822,
      "learning_rate": 0.001,
      "loss": 0.7661,
      "step": 341
    },
    {
      "epoch": 0.3486238532110092,
      "grad_norm": 0.32711178064346313,
      "learning_rate": 0.001,
      "loss": 0.7856,
      "step": 342
    },
    {
      "epoch": 0.34964322120285424,
      "grad_norm": 0.17458733916282654,
      "learning_rate": 0.001,
      "loss": 0.7739,
      "step": 343
    },
    {
      "epoch": 0.3506625891946993,
      "grad_norm": 0.35884687304496765,
      "learning_rate": 0.001,
      "loss": 0.7773,
      "step": 344
    },
    {
      "epoch": 0.3516819571865443,
      "grad_norm": 0.38381174206733704,
      "learning_rate": 0.001,
      "loss": 0.7612,
      "step": 345
    },
    {
      "epoch": 0.3527013251783894,
      "grad_norm": 0.6110262870788574,
      "learning_rate": 0.001,
      "loss": 0.7793,
      "step": 346
    },
    {
      "epoch": 0.35372069317023447,
      "grad_norm": 0.9141976237297058,
      "learning_rate": 0.001,
      "loss": 0.7788,
      "step": 347
    },
    {
      "epoch": 0.3547400611620795,
      "grad_norm": 0.2345302850008011,
      "learning_rate": 0.001,
      "loss": 0.7905,
      "step": 348
    },
    {
      "epoch": 0.35575942915392456,
      "grad_norm": 0.39199450612068176,
      "learning_rate": 0.001,
      "loss": 0.8125,
      "step": 349
    },
    {
      "epoch": 0.3567787971457696,
      "grad_norm": 0.41963088512420654,
      "learning_rate": 0.001,
      "loss": 0.7847,
      "step": 350
    },
    {
      "epoch": 0.3577981651376147,
      "grad_norm": 0.4309016764163971,
      "learning_rate": 0.001,
      "loss": 0.7896,
      "step": 351
    },
    {
      "epoch": 0.35881753312945974,
      "grad_norm": 0.7945659160614014,
      "learning_rate": 0.001,
      "loss": 0.7993,
      "step": 352
    },
    {
      "epoch": 0.3598369011213048,
      "grad_norm": 0.6834628582000732,
      "learning_rate": 0.001,
      "loss": 0.79,
      "step": 353
    },
    {
      "epoch": 0.36085626911314983,
      "grad_norm": 0.26153337955474854,
      "learning_rate": 0.001,
      "loss": 0.7998,
      "step": 354
    },
    {
      "epoch": 0.36187563710499493,
      "grad_norm": 0.6644276976585388,
      "learning_rate": 0.001,
      "loss": 0.7939,
      "step": 355
    },
    {
      "epoch": 0.36289500509684,
      "grad_norm": 0.22913900017738342,
      "learning_rate": 0.001,
      "loss": 0.7544,
      "step": 356
    },
    {
      "epoch": 0.363914373088685,
      "grad_norm": 0.7329829335212708,
      "learning_rate": 0.001,
      "loss": 0.7891,
      "step": 357
    },
    {
      "epoch": 0.36493374108053006,
      "grad_norm": 0.5302987694740295,
      "learning_rate": 0.001,
      "loss": 0.791,
      "step": 358
    },
    {
      "epoch": 0.3659531090723751,
      "grad_norm": 0.5462544560432434,
      "learning_rate": 0.001,
      "loss": 0.7617,
      "step": 359
    },
    {
      "epoch": 0.3669724770642202,
      "grad_norm": 0.31745702028274536,
      "learning_rate": 0.001,
      "loss": 0.752,
      "step": 360
    },
    {
      "epoch": 0.36799184505606525,
      "grad_norm": 0.43837374448776245,
      "learning_rate": 0.001,
      "loss": 0.7607,
      "step": 361
    },
    {
      "epoch": 0.3690112130479103,
      "grad_norm": 0.37453389167785645,
      "learning_rate": 0.001,
      "loss": 0.7349,
      "step": 362
    },
    {
      "epoch": 0.37003058103975534,
      "grad_norm": 0.23447345197200775,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 363
    },
    {
      "epoch": 0.37104994903160043,
      "grad_norm": 0.4442002773284912,
      "learning_rate": 0.001,
      "loss": 0.771,
      "step": 364
    },
    {
      "epoch": 0.3720693170234455,
      "grad_norm": 0.2991695702075958,
      "learning_rate": 0.001,
      "loss": 0.7593,
      "step": 365
    },
    {
      "epoch": 0.3730886850152905,
      "grad_norm": 0.39876553416252136,
      "learning_rate": 0.001,
      "loss": 0.7739,
      "step": 366
    },
    {
      "epoch": 0.37410805300713557,
      "grad_norm": 0.9605749845504761,
      "learning_rate": 0.001,
      "loss": 0.7705,
      "step": 367
    },
    {
      "epoch": 0.3751274209989806,
      "grad_norm": 0.5273054838180542,
      "learning_rate": 0.001,
      "loss": 0.7417,
      "step": 368
    },
    {
      "epoch": 0.3761467889908257,
      "grad_norm": 0.32096028327941895,
      "learning_rate": 0.001,
      "loss": 0.7822,
      "step": 369
    },
    {
      "epoch": 0.37716615698267075,
      "grad_norm": 0.5360224843025208,
      "learning_rate": 0.001,
      "loss": 0.7852,
      "step": 370
    },
    {
      "epoch": 0.3781855249745158,
      "grad_norm": 0.3522157669067383,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 371
    },
    {
      "epoch": 0.37920489296636084,
      "grad_norm": 0.3285824656486511,
      "learning_rate": 0.001,
      "loss": 0.7778,
      "step": 372
    },
    {
      "epoch": 0.38022426095820594,
      "grad_norm": 0.5235963463783264,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 373
    },
    {
      "epoch": 0.381243628950051,
      "grad_norm": 0.6789032220840454,
      "learning_rate": 0.001,
      "loss": 0.7959,
      "step": 374
    },
    {
      "epoch": 0.382262996941896,
      "grad_norm": 0.45590952038764954,
      "learning_rate": 0.001,
      "loss": 0.77,
      "step": 375
    },
    {
      "epoch": 0.38328236493374107,
      "grad_norm": 0.22445109486579895,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 376
    },
    {
      "epoch": 0.3843017329255861,
      "grad_norm": 0.7287806272506714,
      "learning_rate": 0.001,
      "loss": 0.8003,
      "step": 377
    },
    {
      "epoch": 0.3853211009174312,
      "grad_norm": 0.7634919881820679,
      "learning_rate": 0.001,
      "loss": 0.7891,
      "step": 378
    },
    {
      "epoch": 0.38634046890927626,
      "grad_norm": 0.5441727042198181,
      "learning_rate": 0.001,
      "loss": 0.7734,
      "step": 379
    },
    {
      "epoch": 0.3873598369011213,
      "grad_norm": 0.3181997239589691,
      "learning_rate": 0.001,
      "loss": 0.7651,
      "step": 380
    },
    {
      "epoch": 0.38837920489296635,
      "grad_norm": 0.46771833300590515,
      "learning_rate": 0.001,
      "loss": 0.7793,
      "step": 381
    },
    {
      "epoch": 0.3893985728848114,
      "grad_norm": 0.7206214666366577,
      "learning_rate": 0.001,
      "loss": 0.7983,
      "step": 382
    },
    {
      "epoch": 0.3904179408766565,
      "grad_norm": 0.4531390368938446,
      "learning_rate": 0.001,
      "loss": 0.7788,
      "step": 383
    },
    {
      "epoch": 0.39143730886850153,
      "grad_norm": 0.3929049074649811,
      "learning_rate": 0.001,
      "loss": 0.7671,
      "step": 384
    },
    {
      "epoch": 0.3924566768603466,
      "grad_norm": 0.22924566268920898,
      "learning_rate": 0.001,
      "loss": 0.8101,
      "step": 385
    },
    {
      "epoch": 0.3934760448521916,
      "grad_norm": 0.22450019419193268,
      "learning_rate": 0.001,
      "loss": 0.7505,
      "step": 386
    },
    {
      "epoch": 0.3944954128440367,
      "grad_norm": 0.5623263716697693,
      "learning_rate": 0.001,
      "loss": 0.7705,
      "step": 387
    },
    {
      "epoch": 0.39551478083588176,
      "grad_norm": 0.2709827423095703,
      "learning_rate": 0.001,
      "loss": 0.7651,
      "step": 388
    },
    {
      "epoch": 0.3965341488277268,
      "grad_norm": 0.4722920358181,
      "learning_rate": 0.001,
      "loss": 0.8008,
      "step": 389
    },
    {
      "epoch": 0.39755351681957185,
      "grad_norm": 0.2980770766735077,
      "learning_rate": 0.001,
      "loss": 0.7534,
      "step": 390
    },
    {
      "epoch": 0.3985728848114169,
      "grad_norm": 0.20603637397289276,
      "learning_rate": 0.001,
      "loss": 0.7329,
      "step": 391
    },
    {
      "epoch": 0.399592252803262,
      "grad_norm": 0.633711040019989,
      "learning_rate": 0.001,
      "loss": 0.7666,
      "step": 392
    },
    {
      "epoch": 0.40061162079510704,
      "grad_norm": 0.33556950092315674,
      "learning_rate": 0.001,
      "loss": 0.7441,
      "step": 393
    },
    {
      "epoch": 0.4016309887869521,
      "grad_norm": 0.3604326844215393,
      "learning_rate": 0.001,
      "loss": 0.7734,
      "step": 394
    },
    {
      "epoch": 0.4026503567787971,
      "grad_norm": 0.32493311166763306,
      "learning_rate": 0.001,
      "loss": 0.7871,
      "step": 395
    },
    {
      "epoch": 0.4036697247706422,
      "grad_norm": 0.36030951142311096,
      "learning_rate": 0.001,
      "loss": 0.8022,
      "step": 396
    },
    {
      "epoch": 0.40468909276248727,
      "grad_norm": 0.3852256238460541,
      "learning_rate": 0.001,
      "loss": 0.7803,
      "step": 397
    },
    {
      "epoch": 0.4057084607543323,
      "grad_norm": 0.42393240332603455,
      "learning_rate": 0.001,
      "loss": 0.7559,
      "step": 398
    },
    {
      "epoch": 0.40672782874617736,
      "grad_norm": 0.32619935274124146,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 399
    },
    {
      "epoch": 0.4077471967380224,
      "grad_norm": 0.27919822931289673,
      "learning_rate": 0.001,
      "loss": 0.7705,
      "step": 400
    },
    {
      "epoch": 0.4087665647298675,
      "grad_norm": 0.23573963344097137,
      "learning_rate": 0.001,
      "loss": 0.7681,
      "step": 401
    },
    {
      "epoch": 0.40978593272171254,
      "grad_norm": 0.29086336493492126,
      "learning_rate": 0.001,
      "loss": 0.7695,
      "step": 402
    },
    {
      "epoch": 0.4108053007135576,
      "grad_norm": 0.5056636929512024,
      "learning_rate": 0.001,
      "loss": 0.7529,
      "step": 403
    },
    {
      "epoch": 0.41182466870540263,
      "grad_norm": 0.2755386531352997,
      "learning_rate": 0.001,
      "loss": 0.7349,
      "step": 404
    },
    {
      "epoch": 0.41284403669724773,
      "grad_norm": 0.23774324357509613,
      "learning_rate": 0.001,
      "loss": 0.7295,
      "step": 405
    },
    {
      "epoch": 0.4138634046890928,
      "grad_norm": 0.384284645318985,
      "learning_rate": 0.001,
      "loss": 0.7798,
      "step": 406
    },
    {
      "epoch": 0.4148827726809378,
      "grad_norm": 0.45413050055503845,
      "learning_rate": 0.001,
      "loss": 0.7583,
      "step": 407
    },
    {
      "epoch": 0.41590214067278286,
      "grad_norm": 0.3334329426288605,
      "learning_rate": 0.001,
      "loss": 0.7222,
      "step": 408
    },
    {
      "epoch": 0.4169215086646279,
      "grad_norm": 0.5281793475151062,
      "learning_rate": 0.001,
      "loss": 0.771,
      "step": 409
    },
    {
      "epoch": 0.417940876656473,
      "grad_norm": 0.4074098765850067,
      "learning_rate": 0.001,
      "loss": 0.7334,
      "step": 410
    },
    {
      "epoch": 0.41896024464831805,
      "grad_norm": 0.20437011122703552,
      "learning_rate": 0.001,
      "loss": 0.7427,
      "step": 411
    },
    {
      "epoch": 0.4199796126401631,
      "grad_norm": 0.29896658658981323,
      "learning_rate": 0.001,
      "loss": 0.7397,
      "step": 412
    },
    {
      "epoch": 0.42099898063200814,
      "grad_norm": 0.3609769344329834,
      "learning_rate": 0.001,
      "loss": 0.7358,
      "step": 413
    },
    {
      "epoch": 0.42201834862385323,
      "grad_norm": 0.2950097620487213,
      "learning_rate": 0.001,
      "loss": 0.7632,
      "step": 414
    },
    {
      "epoch": 0.4230377166156983,
      "grad_norm": 0.36145344376564026,
      "learning_rate": 0.001,
      "loss": 0.7056,
      "step": 415
    },
    {
      "epoch": 0.4240570846075433,
      "grad_norm": 0.7353180646896362,
      "learning_rate": 0.001,
      "loss": 0.7539,
      "step": 416
    },
    {
      "epoch": 0.42507645259938837,
      "grad_norm": 0.31922486424446106,
      "learning_rate": 0.001,
      "loss": 0.7412,
      "step": 417
    },
    {
      "epoch": 0.4260958205912334,
      "grad_norm": 0.2804597318172455,
      "learning_rate": 0.001,
      "loss": 0.7314,
      "step": 418
    },
    {
      "epoch": 0.4271151885830785,
      "grad_norm": 0.4567462205886841,
      "learning_rate": 0.001,
      "loss": 0.7764,
      "step": 419
    },
    {
      "epoch": 0.42813455657492355,
      "grad_norm": 0.5402238368988037,
      "learning_rate": 0.001,
      "loss": 0.7681,
      "step": 420
    },
    {
      "epoch": 0.4291539245667686,
      "grad_norm": 0.37557223439216614,
      "learning_rate": 0.001,
      "loss": 0.7305,
      "step": 421
    },
    {
      "epoch": 0.43017329255861364,
      "grad_norm": 0.30537331104278564,
      "learning_rate": 0.001,
      "loss": 0.7383,
      "step": 422
    },
    {
      "epoch": 0.43119266055045874,
      "grad_norm": 0.17614926397800446,
      "learning_rate": 0.001,
      "loss": 0.7671,
      "step": 423
    },
    {
      "epoch": 0.4322120285423038,
      "grad_norm": 0.2353646159172058,
      "learning_rate": 0.001,
      "loss": 0.7349,
      "step": 424
    },
    {
      "epoch": 0.4332313965341488,
      "grad_norm": 0.512384295463562,
      "learning_rate": 0.001,
      "loss": 0.7324,
      "step": 425
    },
    {
      "epoch": 0.43425076452599387,
      "grad_norm": 0.43801653385162354,
      "learning_rate": 0.001,
      "loss": 0.7397,
      "step": 426
    },
    {
      "epoch": 0.4352701325178389,
      "grad_norm": 0.45524317026138306,
      "learning_rate": 0.001,
      "loss": 0.7725,
      "step": 427
    },
    {
      "epoch": 0.436289500509684,
      "grad_norm": 0.6489166021347046,
      "learning_rate": 0.001,
      "loss": 0.7632,
      "step": 428
    },
    {
      "epoch": 0.43730886850152906,
      "grad_norm": 0.4805312156677246,
      "learning_rate": 0.001,
      "loss": 0.7407,
      "step": 429
    },
    {
      "epoch": 0.4383282364933741,
      "grad_norm": 0.4858768880367279,
      "learning_rate": 0.001,
      "loss": 0.75,
      "step": 430
    },
    {
      "epoch": 0.43934760448521915,
      "grad_norm": 0.7139818668365479,
      "learning_rate": 0.001,
      "loss": 0.7368,
      "step": 431
    },
    {
      "epoch": 0.44036697247706424,
      "grad_norm": 0.3784852921962738,
      "learning_rate": 0.001,
      "loss": 0.7588,
      "step": 432
    },
    {
      "epoch": 0.4413863404689093,
      "grad_norm": 0.35923853516578674,
      "learning_rate": 0.001,
      "loss": 0.7686,
      "step": 433
    },
    {
      "epoch": 0.44240570846075433,
      "grad_norm": 0.764096200466156,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 434
    },
    {
      "epoch": 0.4434250764525994,
      "grad_norm": 0.4615626633167267,
      "learning_rate": 0.001,
      "loss": 0.7256,
      "step": 435
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.4230719804763794,
      "learning_rate": 0.001,
      "loss": 0.7393,
      "step": 436
    },
    {
      "epoch": 0.4454638124362895,
      "grad_norm": 0.529179573059082,
      "learning_rate": 0.001,
      "loss": 0.7773,
      "step": 437
    },
    {
      "epoch": 0.44648318042813456,
      "grad_norm": 0.8159134984016418,
      "learning_rate": 0.001,
      "loss": 0.7397,
      "step": 438
    },
    {
      "epoch": 0.4475025484199796,
      "grad_norm": 0.30225029587745667,
      "learning_rate": 0.001,
      "loss": 0.7275,
      "step": 439
    },
    {
      "epoch": 0.44852191641182465,
      "grad_norm": 0.41770055890083313,
      "learning_rate": 0.001,
      "loss": 0.7627,
      "step": 440
    },
    {
      "epoch": 0.44954128440366975,
      "grad_norm": 0.8892589211463928,
      "learning_rate": 0.001,
      "loss": 0.7437,
      "step": 441
    },
    {
      "epoch": 0.4505606523955148,
      "grad_norm": 0.2574721574783325,
      "learning_rate": 0.001,
      "loss": 0.7305,
      "step": 442
    },
    {
      "epoch": 0.45158002038735984,
      "grad_norm": 0.3112282454967499,
      "learning_rate": 0.001,
      "loss": 0.7354,
      "step": 443
    },
    {
      "epoch": 0.4525993883792049,
      "grad_norm": 0.4580211639404297,
      "learning_rate": 0.001,
      "loss": 0.7261,
      "step": 444
    },
    {
      "epoch": 0.4536187563710499,
      "grad_norm": 0.18668822944164276,
      "learning_rate": 0.001,
      "loss": 0.7432,
      "step": 445
    },
    {
      "epoch": 0.454638124362895,
      "grad_norm": 0.36946162581443787,
      "learning_rate": 0.001,
      "loss": 0.7354,
      "step": 446
    },
    {
      "epoch": 0.45565749235474007,
      "grad_norm": 0.4815911054611206,
      "learning_rate": 0.001,
      "loss": 0.7446,
      "step": 447
    },
    {
      "epoch": 0.4566768603465851,
      "grad_norm": 0.37573930621147156,
      "learning_rate": 0.001,
      "loss": 0.7798,
      "step": 448
    },
    {
      "epoch": 0.45769622833843016,
      "grad_norm": 0.23955634236335754,
      "learning_rate": 0.001,
      "loss": 0.7632,
      "step": 449
    },
    {
      "epoch": 0.45871559633027525,
      "grad_norm": 0.5748059749603271,
      "learning_rate": 0.001,
      "loss": 0.7485,
      "step": 450
    },
    {
      "epoch": 0.4597349643221203,
      "grad_norm": 0.5910900235176086,
      "learning_rate": 0.001,
      "loss": 0.7461,
      "step": 451
    },
    {
      "epoch": 0.46075433231396534,
      "grad_norm": 0.27892443537712097,
      "learning_rate": 0.001,
      "loss": 0.7051,
      "step": 452
    },
    {
      "epoch": 0.4617737003058104,
      "grad_norm": 0.341487318277359,
      "learning_rate": 0.001,
      "loss": 0.6948,
      "step": 453
    },
    {
      "epoch": 0.46279306829765543,
      "grad_norm": 0.16074952483177185,
      "learning_rate": 0.001,
      "loss": 0.7266,
      "step": 454
    },
    {
      "epoch": 0.46381243628950053,
      "grad_norm": 0.43150612711906433,
      "learning_rate": 0.001,
      "loss": 0.7603,
      "step": 455
    },
    {
      "epoch": 0.4648318042813456,
      "grad_norm": 0.9670988321304321,
      "learning_rate": 0.001,
      "loss": 0.6855,
      "step": 456
    },
    {
      "epoch": 0.4658511722731906,
      "grad_norm": 0.27370500564575195,
      "learning_rate": 0.001,
      "loss": 0.709,
      "step": 457
    },
    {
      "epoch": 0.46687054026503566,
      "grad_norm": 0.6621681451797485,
      "learning_rate": 0.001,
      "loss": 0.7344,
      "step": 458
    },
    {
      "epoch": 0.46788990825688076,
      "grad_norm": 0.45001325011253357,
      "learning_rate": 0.001,
      "loss": 0.7715,
      "step": 459
    },
    {
      "epoch": 0.4689092762487258,
      "grad_norm": 0.6565059423446655,
      "learning_rate": 0.001,
      "loss": 0.7544,
      "step": 460
    },
    {
      "epoch": 0.46992864424057085,
      "grad_norm": 0.34059298038482666,
      "learning_rate": 0.001,
      "loss": 0.6973,
      "step": 461
    },
    {
      "epoch": 0.4709480122324159,
      "grad_norm": 0.4558942914009094,
      "learning_rate": 0.001,
      "loss": 0.6899,
      "step": 462
    },
    {
      "epoch": 0.47196738022426094,
      "grad_norm": 0.37707892060279846,
      "learning_rate": 0.001,
      "loss": 0.7402,
      "step": 463
    },
    {
      "epoch": 0.47298674821610603,
      "grad_norm": 0.4068678617477417,
      "learning_rate": 0.001,
      "loss": 0.7329,
      "step": 464
    },
    {
      "epoch": 0.4740061162079511,
      "grad_norm": 0.32844293117523193,
      "learning_rate": 0.001,
      "loss": 0.7275,
      "step": 465
    },
    {
      "epoch": 0.4750254841997961,
      "grad_norm": 0.5078410506248474,
      "learning_rate": 0.001,
      "loss": 0.7017,
      "step": 466
    },
    {
      "epoch": 0.47604485219164117,
      "grad_norm": 0.9996429681777954,
      "learning_rate": 0.001,
      "loss": 0.7515,
      "step": 467
    },
    {
      "epoch": 0.47706422018348627,
      "grad_norm": 0.3845408856868744,
      "learning_rate": 0.001,
      "loss": 0.689,
      "step": 468
    },
    {
      "epoch": 0.4780835881753313,
      "grad_norm": 1.0823990106582642,
      "learning_rate": 0.001,
      "loss": 0.7759,
      "step": 469
    },
    {
      "epoch": 0.47910295616717635,
      "grad_norm": 0.48146936297416687,
      "learning_rate": 0.001,
      "loss": 0.7227,
      "step": 470
    },
    {
      "epoch": 0.4801223241590214,
      "grad_norm": 0.48928090929985046,
      "learning_rate": 0.001,
      "loss": 0.7583,
      "step": 471
    },
    {
      "epoch": 0.48114169215086644,
      "grad_norm": 0.3291054666042328,
      "learning_rate": 0.001,
      "loss": 0.6855,
      "step": 472
    },
    {
      "epoch": 0.48216106014271154,
      "grad_norm": 0.5955843925476074,
      "learning_rate": 0.001,
      "loss": 0.7729,
      "step": 473
    },
    {
      "epoch": 0.4831804281345566,
      "grad_norm": 0.419416606426239,
      "learning_rate": 0.001,
      "loss": 0.7559,
      "step": 474
    },
    {
      "epoch": 0.4841997961264016,
      "grad_norm": 0.42605727910995483,
      "learning_rate": 0.001,
      "loss": 0.7583,
      "step": 475
    },
    {
      "epoch": 0.48521916411824667,
      "grad_norm": 0.29140299558639526,
      "learning_rate": 0.001,
      "loss": 0.7383,
      "step": 476
    },
    {
      "epoch": 0.48623853211009177,
      "grad_norm": 0.3082279562950134,
      "learning_rate": 0.001,
      "loss": 0.7007,
      "step": 477
    },
    {
      "epoch": 0.4872579001019368,
      "grad_norm": 0.43084532022476196,
      "learning_rate": 0.001,
      "loss": 0.7368,
      "step": 478
    },
    {
      "epoch": 0.48827726809378186,
      "grad_norm": 0.921538770198822,
      "learning_rate": 0.001,
      "loss": 0.709,
      "step": 479
    },
    {
      "epoch": 0.4892966360856269,
      "grad_norm": 0.3640359342098236,
      "learning_rate": 0.001,
      "loss": 0.71,
      "step": 480
    },
    {
      "epoch": 0.49031600407747195,
      "grad_norm": 0.9957022666931152,
      "learning_rate": 0.001,
      "loss": 0.7446,
      "step": 481
    },
    {
      "epoch": 0.49133537206931704,
      "grad_norm": 0.2655935287475586,
      "learning_rate": 0.001,
      "loss": 0.7051,
      "step": 482
    },
    {
      "epoch": 0.4923547400611621,
      "grad_norm": 0.39115411043167114,
      "learning_rate": 0.001,
      "loss": 0.6792,
      "step": 483
    },
    {
      "epoch": 0.49337410805300713,
      "grad_norm": 0.7413020133972168,
      "learning_rate": 0.001,
      "loss": 0.7031,
      "step": 484
    },
    {
      "epoch": 0.4943934760448522,
      "grad_norm": 0.4737586975097656,
      "learning_rate": 0.001,
      "loss": 0.7085,
      "step": 485
    },
    {
      "epoch": 0.4954128440366973,
      "grad_norm": 0.38297349214553833,
      "learning_rate": 0.001,
      "loss": 0.7231,
      "step": 486
    },
    {
      "epoch": 0.4964322120285423,
      "grad_norm": 0.6501132845878601,
      "learning_rate": 0.001,
      "loss": 0.7402,
      "step": 487
    },
    {
      "epoch": 0.49745158002038736,
      "grad_norm": 0.5448786616325378,
      "learning_rate": 0.001,
      "loss": 0.7163,
      "step": 488
    },
    {
      "epoch": 0.4984709480122324,
      "grad_norm": 0.459025502204895,
      "learning_rate": 0.001,
      "loss": 0.6997,
      "step": 489
    },
    {
      "epoch": 0.49949031600407745,
      "grad_norm": 0.41242992877960205,
      "learning_rate": 0.001,
      "loss": 0.6919,
      "step": 490
    },
    {
      "epoch": 0.5005096839959225,
      "grad_norm": 0.6832708120346069,
      "learning_rate": 0.001,
      "loss": 0.7441,
      "step": 491
    },
    {
      "epoch": 0.5015290519877675,
      "grad_norm": 0.4201900362968445,
      "learning_rate": 0.001,
      "loss": 0.7305,
      "step": 492
    },
    {
      "epoch": 0.5025484199796126,
      "grad_norm": 0.4718579053878784,
      "learning_rate": 0.001,
      "loss": 0.7593,
      "step": 493
    },
    {
      "epoch": 0.5035677879714577,
      "grad_norm": 0.36592897772789,
      "learning_rate": 0.001,
      "loss": 0.7065,
      "step": 494
    },
    {
      "epoch": 0.5045871559633027,
      "grad_norm": 0.13412433862686157,
      "learning_rate": 0.001,
      "loss": 0.7012,
      "step": 495
    },
    {
      "epoch": 0.5056065239551478,
      "grad_norm": 0.4743984043598175,
      "learning_rate": 0.001,
      "loss": 0.7109,
      "step": 496
    },
    {
      "epoch": 0.5066258919469928,
      "grad_norm": 0.42023414373397827,
      "learning_rate": 0.001,
      "loss": 0.6904,
      "step": 497
    },
    {
      "epoch": 0.5076452599388379,
      "grad_norm": 0.26561540365219116,
      "learning_rate": 0.001,
      "loss": 0.7148,
      "step": 498
    },
    {
      "epoch": 0.508664627930683,
      "grad_norm": 0.25626540184020996,
      "learning_rate": 0.001,
      "loss": 0.7368,
      "step": 499
    },
    {
      "epoch": 0.509683995922528,
      "grad_norm": 0.6595795154571533,
      "learning_rate": 0.001,
      "loss": 0.7178,
      "step": 500
    },
    {
      "epoch": 0.5107033639143731,
      "grad_norm": 0.3487003743648529,
      "learning_rate": 0.001,
      "loss": 0.7261,
      "step": 501
    },
    {
      "epoch": 0.5117227319062182,
      "grad_norm": 0.29360872507095337,
      "learning_rate": 0.001,
      "loss": 0.7065,
      "step": 502
    },
    {
      "epoch": 0.5127420998980632,
      "grad_norm": 0.45224207639694214,
      "learning_rate": 0.001,
      "loss": 0.7139,
      "step": 503
    },
    {
      "epoch": 0.5137614678899083,
      "grad_norm": 0.12124510854482651,
      "learning_rate": 0.001,
      "loss": 0.6768,
      "step": 504
    },
    {
      "epoch": 0.5147808358817533,
      "grad_norm": 0.35743391513824463,
      "learning_rate": 0.001,
      "loss": 0.6953,
      "step": 505
    },
    {
      "epoch": 0.5158002038735984,
      "grad_norm": 0.29023823142051697,
      "learning_rate": 0.001,
      "loss": 0.7217,
      "step": 506
    },
    {
      "epoch": 0.5168195718654435,
      "grad_norm": 0.57048100233078,
      "learning_rate": 0.001,
      "loss": 0.73,
      "step": 507
    },
    {
      "epoch": 0.5178389398572885,
      "grad_norm": 0.3201759457588196,
      "learning_rate": 0.001,
      "loss": 0.7148,
      "step": 508
    },
    {
      "epoch": 0.5188583078491336,
      "grad_norm": 0.33506596088409424,
      "learning_rate": 0.001,
      "loss": 0.707,
      "step": 509
    },
    {
      "epoch": 0.5198776758409785,
      "grad_norm": 0.5757346749305725,
      "learning_rate": 0.001,
      "loss": 0.6895,
      "step": 510
    },
    {
      "epoch": 0.5208970438328236,
      "grad_norm": 0.3598989248275757,
      "learning_rate": 0.001,
      "loss": 0.7002,
      "step": 511
    },
    {
      "epoch": 0.5219164118246687,
      "grad_norm": 0.3596895635128021,
      "learning_rate": 0.001,
      "loss": 0.7168,
      "step": 512
    },
    {
      "epoch": 0.5229357798165137,
      "grad_norm": 0.24821993708610535,
      "learning_rate": 0.001,
      "loss": 0.6543,
      "step": 513
    },
    {
      "epoch": 0.5239551478083588,
      "grad_norm": 0.2387179434299469,
      "learning_rate": 0.001,
      "loss": 0.7212,
      "step": 514
    },
    {
      "epoch": 0.5249745158002038,
      "grad_norm": 0.48444509506225586,
      "learning_rate": 0.001,
      "loss": 0.7051,
      "step": 515
    },
    {
      "epoch": 0.5259938837920489,
      "grad_norm": 0.2949191927909851,
      "learning_rate": 0.001,
      "loss": 0.6973,
      "step": 516
    },
    {
      "epoch": 0.527013251783894,
      "grad_norm": 0.5329990983009338,
      "learning_rate": 0.001,
      "loss": 0.7017,
      "step": 517
    },
    {
      "epoch": 0.528032619775739,
      "grad_norm": 0.5735001564025879,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 518
    },
    {
      "epoch": 0.5290519877675841,
      "grad_norm": 0.3701542317867279,
      "learning_rate": 0.001,
      "loss": 0.6733,
      "step": 519
    },
    {
      "epoch": 0.5300713557594292,
      "grad_norm": 0.3338331878185272,
      "learning_rate": 0.001,
      "loss": 0.7056,
      "step": 520
    },
    {
      "epoch": 0.5310907237512742,
      "grad_norm": 0.28697875142097473,
      "learning_rate": 0.001,
      "loss": 0.6968,
      "step": 521
    },
    {
      "epoch": 0.5321100917431193,
      "grad_norm": 0.3870578706264496,
      "learning_rate": 0.001,
      "loss": 0.707,
      "step": 522
    },
    {
      "epoch": 0.5331294597349643,
      "grad_norm": 0.32309770584106445,
      "learning_rate": 0.001,
      "loss": 0.6782,
      "step": 523
    },
    {
      "epoch": 0.5341488277268094,
      "grad_norm": 0.8628008961677551,
      "learning_rate": 0.001,
      "loss": 0.6743,
      "step": 524
    },
    {
      "epoch": 0.5351681957186545,
      "grad_norm": 0.3870018720626831,
      "learning_rate": 0.001,
      "loss": 0.709,
      "step": 525
    },
    {
      "epoch": 0.5361875637104995,
      "grad_norm": 0.3568989336490631,
      "learning_rate": 0.001,
      "loss": 0.7061,
      "step": 526
    },
    {
      "epoch": 0.5372069317023446,
      "grad_norm": 0.6442956924438477,
      "learning_rate": 0.001,
      "loss": 0.7114,
      "step": 527
    },
    {
      "epoch": 0.5382262996941896,
      "grad_norm": 0.3215978145599365,
      "learning_rate": 0.001,
      "loss": 0.7124,
      "step": 528
    },
    {
      "epoch": 0.5392456676860347,
      "grad_norm": 0.2696748971939087,
      "learning_rate": 0.001,
      "loss": 0.6772,
      "step": 529
    },
    {
      "epoch": 0.5402650356778798,
      "grad_norm": 0.7495520114898682,
      "learning_rate": 0.001,
      "loss": 0.7266,
      "step": 530
    },
    {
      "epoch": 0.5412844036697247,
      "grad_norm": 0.36379313468933105,
      "learning_rate": 0.001,
      "loss": 0.7144,
      "step": 531
    },
    {
      "epoch": 0.5423037716615698,
      "grad_norm": 0.19985100626945496,
      "learning_rate": 0.001,
      "loss": 0.7002,
      "step": 532
    },
    {
      "epoch": 0.5433231396534148,
      "grad_norm": 0.5263487100601196,
      "learning_rate": 0.001,
      "loss": 0.7275,
      "step": 533
    },
    {
      "epoch": 0.5443425076452599,
      "grad_norm": 0.5851738452911377,
      "learning_rate": 0.001,
      "loss": 0.708,
      "step": 534
    },
    {
      "epoch": 0.545361875637105,
      "grad_norm": 0.6364158987998962,
      "learning_rate": 0.001,
      "loss": 0.7139,
      "step": 535
    },
    {
      "epoch": 0.54638124362895,
      "grad_norm": 0.534204363822937,
      "learning_rate": 0.001,
      "loss": 0.7383,
      "step": 536
    },
    {
      "epoch": 0.5474006116207951,
      "grad_norm": 0.15330781042575836,
      "learning_rate": 0.001,
      "loss": 0.6909,
      "step": 537
    },
    {
      "epoch": 0.5484199796126402,
      "grad_norm": 0.689775288105011,
      "learning_rate": 0.001,
      "loss": 0.7378,
      "step": 538
    },
    {
      "epoch": 0.5494393476044852,
      "grad_norm": 0.7668951153755188,
      "learning_rate": 0.001,
      "loss": 0.6704,
      "step": 539
    },
    {
      "epoch": 0.5504587155963303,
      "grad_norm": 0.1996852457523346,
      "learning_rate": 0.001,
      "loss": 0.7227,
      "step": 540
    },
    {
      "epoch": 0.5514780835881753,
      "grad_norm": 0.24640682339668274,
      "learning_rate": 0.001,
      "loss": 0.7236,
      "step": 541
    },
    {
      "epoch": 0.5524974515800204,
      "grad_norm": 0.4916730225086212,
      "learning_rate": 0.001,
      "loss": 0.708,
      "step": 542
    },
    {
      "epoch": 0.5535168195718655,
      "grad_norm": 1.093686580657959,
      "learning_rate": 0.001,
      "loss": 0.7012,
      "step": 543
    },
    {
      "epoch": 0.5545361875637105,
      "grad_norm": 0.6517883539199829,
      "learning_rate": 0.001,
      "loss": 0.7056,
      "step": 544
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.5103853940963745,
      "learning_rate": 0.001,
      "loss": 0.6489,
      "step": 545
    },
    {
      "epoch": 0.5565749235474006,
      "grad_norm": 0.37423521280288696,
      "learning_rate": 0.001,
      "loss": 0.6895,
      "step": 546
    },
    {
      "epoch": 0.5575942915392457,
      "grad_norm": 0.4197140336036682,
      "learning_rate": 0.001,
      "loss": 0.7339,
      "step": 547
    },
    {
      "epoch": 0.5586136595310908,
      "grad_norm": 0.3442586362361908,
      "learning_rate": 0.001,
      "loss": 0.7051,
      "step": 548
    },
    {
      "epoch": 0.5596330275229358,
      "grad_norm": 0.6060834527015686,
      "learning_rate": 0.001,
      "loss": 0.6733,
      "step": 549
    },
    {
      "epoch": 0.5606523955147809,
      "grad_norm": 0.4350300133228302,
      "learning_rate": 0.001,
      "loss": 0.6924,
      "step": 550
    },
    {
      "epoch": 0.5616717635066258,
      "grad_norm": 0.5763595700263977,
      "learning_rate": 0.001,
      "loss": 0.6836,
      "step": 551
    },
    {
      "epoch": 0.5626911314984709,
      "grad_norm": 1.4876652956008911,
      "learning_rate": 0.001,
      "loss": 0.7373,
      "step": 552
    },
    {
      "epoch": 0.563710499490316,
      "grad_norm": 0.6174142956733704,
      "learning_rate": 0.001,
      "loss": 0.6646,
      "step": 553
    },
    {
      "epoch": 0.564729867482161,
      "grad_norm": 0.6524213552474976,
      "learning_rate": 0.001,
      "loss": 0.7041,
      "step": 554
    },
    {
      "epoch": 0.5657492354740061,
      "grad_norm": 0.8731322288513184,
      "learning_rate": 0.001,
      "loss": 0.6729,
      "step": 555
    },
    {
      "epoch": 0.5667686034658511,
      "grad_norm": 0.5526031851768494,
      "learning_rate": 0.001,
      "loss": 0.6626,
      "step": 556
    },
    {
      "epoch": 0.5677879714576962,
      "grad_norm": 0.5477393865585327,
      "learning_rate": 0.001,
      "loss": 0.688,
      "step": 557
    },
    {
      "epoch": 0.5688073394495413,
      "grad_norm": 0.7533407807350159,
      "learning_rate": 0.001,
      "loss": 0.6826,
      "step": 558
    },
    {
      "epoch": 0.5698267074413863,
      "grad_norm": 0.8186854720115662,
      "learning_rate": 0.001,
      "loss": 0.7402,
      "step": 559
    },
    {
      "epoch": 0.5708460754332314,
      "grad_norm": 0.7959415912628174,
      "learning_rate": 0.001,
      "loss": 0.6997,
      "step": 560
    },
    {
      "epoch": 0.5718654434250765,
      "grad_norm": 0.9020032286643982,
      "learning_rate": 0.001,
      "loss": 0.686,
      "step": 561
    },
    {
      "epoch": 0.5728848114169215,
      "grad_norm": 0.8533923625946045,
      "learning_rate": 0.001,
      "loss": 0.6875,
      "step": 562
    },
    {
      "epoch": 0.5739041794087666,
      "grad_norm": 0.9002045392990112,
      "learning_rate": 0.001,
      "loss": 0.6978,
      "step": 563
    },
    {
      "epoch": 0.5749235474006116,
      "grad_norm": 0.5777868628501892,
      "learning_rate": 0.001,
      "loss": 0.6914,
      "step": 564
    },
    {
      "epoch": 0.5759429153924567,
      "grad_norm": 0.8001537322998047,
      "learning_rate": 0.001,
      "loss": 0.7168,
      "step": 565
    },
    {
      "epoch": 0.5769622833843018,
      "grad_norm": 0.7408202886581421,
      "learning_rate": 0.001,
      "loss": 0.6792,
      "step": 566
    },
    {
      "epoch": 0.5779816513761468,
      "grad_norm": 0.9964362382888794,
      "learning_rate": 0.001,
      "loss": 0.6968,
      "step": 567
    },
    {
      "epoch": 0.5790010193679919,
      "grad_norm": 0.6980926990509033,
      "learning_rate": 0.001,
      "loss": 0.7075,
      "step": 568
    },
    {
      "epoch": 0.5800203873598369,
      "grad_norm": 0.6255483627319336,
      "learning_rate": 0.001,
      "loss": 0.6494,
      "step": 569
    },
    {
      "epoch": 0.581039755351682,
      "grad_norm": 0.7125304937362671,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 570
    },
    {
      "epoch": 0.582059123343527,
      "grad_norm": 1.1188722848892212,
      "learning_rate": 0.001,
      "loss": 0.7354,
      "step": 571
    },
    {
      "epoch": 0.583078491335372,
      "grad_norm": 0.4448655843734741,
      "learning_rate": 0.001,
      "loss": 0.7012,
      "step": 572
    },
    {
      "epoch": 0.5840978593272171,
      "grad_norm": 0.9254118204116821,
      "learning_rate": 0.001,
      "loss": 0.7207,
      "step": 573
    },
    {
      "epoch": 0.5851172273190621,
      "grad_norm": 0.6562027335166931,
      "learning_rate": 0.001,
      "loss": 0.6836,
      "step": 574
    },
    {
      "epoch": 0.5861365953109072,
      "grad_norm": 1.7351487874984741,
      "learning_rate": 0.001,
      "loss": 0.6812,
      "step": 575
    },
    {
      "epoch": 0.5871559633027523,
      "grad_norm": 1.3391963243484497,
      "learning_rate": 0.001,
      "loss": 0.7842,
      "step": 576
    },
    {
      "epoch": 0.5881753312945973,
      "grad_norm": 1.0633647441864014,
      "learning_rate": 0.001,
      "loss": 0.7295,
      "step": 577
    },
    {
      "epoch": 0.5891946992864424,
      "grad_norm": 0.6838231682777405,
      "learning_rate": 0.001,
      "loss": 0.7446,
      "step": 578
    },
    {
      "epoch": 0.5902140672782875,
      "grad_norm": 0.7718529105186462,
      "learning_rate": 0.001,
      "loss": 0.7373,
      "step": 579
    },
    {
      "epoch": 0.5912334352701325,
      "grad_norm": 0.8138420581817627,
      "learning_rate": 0.001,
      "loss": 0.7383,
      "step": 580
    },
    {
      "epoch": 0.5922528032619776,
      "grad_norm": 0.6986174583435059,
      "learning_rate": 0.001,
      "loss": 0.7261,
      "step": 581
    },
    {
      "epoch": 0.5932721712538226,
      "grad_norm": 0.6754951477050781,
      "learning_rate": 0.001,
      "loss": 0.7168,
      "step": 582
    },
    {
      "epoch": 0.5942915392456677,
      "grad_norm": 1.0154846906661987,
      "learning_rate": 0.001,
      "loss": 0.7036,
      "step": 583
    },
    {
      "epoch": 0.5953109072375128,
      "grad_norm": 0.4115074872970581,
      "learning_rate": 0.001,
      "loss": 0.7324,
      "step": 584
    },
    {
      "epoch": 0.5963302752293578,
      "grad_norm": 0.8640227317810059,
      "learning_rate": 0.001,
      "loss": 0.71,
      "step": 585
    },
    {
      "epoch": 0.5973496432212029,
      "grad_norm": 0.7511873245239258,
      "learning_rate": 0.001,
      "loss": 0.7505,
      "step": 586
    },
    {
      "epoch": 0.5983690112130479,
      "grad_norm": 0.5955333113670349,
      "learning_rate": 0.001,
      "loss": 0.7153,
      "step": 587
    },
    {
      "epoch": 0.599388379204893,
      "grad_norm": 0.7094430923461914,
      "learning_rate": 0.001,
      "loss": 0.6885,
      "step": 588
    },
    {
      "epoch": 0.6004077471967381,
      "grad_norm": 1.3872454166412354,
      "learning_rate": 0.001,
      "loss": 0.7134,
      "step": 589
    },
    {
      "epoch": 0.601427115188583,
      "grad_norm": 0.5679612755775452,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 590
    },
    {
      "epoch": 0.6024464831804281,
      "grad_norm": 0.5180107951164246,
      "learning_rate": 0.001,
      "loss": 0.686,
      "step": 591
    },
    {
      "epoch": 0.6034658511722731,
      "grad_norm": 2.5346548557281494,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 592
    },
    {
      "epoch": 0.6044852191641182,
      "grad_norm": 0.5611739158630371,
      "learning_rate": 0.001,
      "loss": 0.6948,
      "step": 593
    },
    {
      "epoch": 0.6055045871559633,
      "grad_norm": 0.4091540575027466,
      "learning_rate": 0.001,
      "loss": 0.6587,
      "step": 594
    },
    {
      "epoch": 0.6065239551478083,
      "grad_norm": 0.7106680870056152,
      "learning_rate": 0.001,
      "loss": 0.6938,
      "step": 595
    },
    {
      "epoch": 0.6075433231396534,
      "grad_norm": 0.3980126678943634,
      "learning_rate": 0.001,
      "loss": 0.7178,
      "step": 596
    },
    {
      "epoch": 0.6085626911314985,
      "grad_norm": 0.27400508522987366,
      "learning_rate": 0.001,
      "loss": 0.644,
      "step": 597
    },
    {
      "epoch": 0.6095820591233435,
      "grad_norm": 0.32104042172431946,
      "learning_rate": 0.001,
      "loss": 0.6729,
      "step": 598
    },
    {
      "epoch": 0.6106014271151886,
      "grad_norm": 0.9647945761680603,
      "learning_rate": 0.001,
      "loss": 0.6621,
      "step": 599
    },
    {
      "epoch": 0.6116207951070336,
      "grad_norm": 0.47564932703971863,
      "learning_rate": 0.001,
      "loss": 0.6338,
      "step": 600
    },
    {
      "epoch": 0.6126401630988787,
      "grad_norm": 0.7098261713981628,
      "learning_rate": 0.001,
      "loss": 0.6924,
      "step": 601
    },
    {
      "epoch": 0.6136595310907238,
      "grad_norm": 0.38445454835891724,
      "learning_rate": 0.001,
      "loss": 0.7261,
      "step": 602
    },
    {
      "epoch": 0.6146788990825688,
      "grad_norm": 0.9596614241600037,
      "learning_rate": 0.001,
      "loss": 0.7471,
      "step": 603
    },
    {
      "epoch": 0.6156982670744139,
      "grad_norm": 0.3652978837490082,
      "learning_rate": 0.001,
      "loss": 0.6958,
      "step": 604
    },
    {
      "epoch": 0.6167176350662589,
      "grad_norm": 0.33493292331695557,
      "learning_rate": 0.001,
      "loss": 0.6694,
      "step": 605
    },
    {
      "epoch": 0.617737003058104,
      "grad_norm": 0.324921578168869,
      "learning_rate": 0.001,
      "loss": 0.6816,
      "step": 606
    },
    {
      "epoch": 0.6187563710499491,
      "grad_norm": 0.4961387813091278,
      "learning_rate": 0.001,
      "loss": 0.71,
      "step": 607
    },
    {
      "epoch": 0.6197757390417941,
      "grad_norm": 0.26956528425216675,
      "learning_rate": 0.001,
      "loss": 0.6909,
      "step": 608
    },
    {
      "epoch": 0.6207951070336392,
      "grad_norm": 0.4767972528934479,
      "learning_rate": 0.001,
      "loss": 0.6621,
      "step": 609
    },
    {
      "epoch": 0.6218144750254841,
      "grad_norm": 0.2566700279712677,
      "learning_rate": 0.001,
      "loss": 0.6768,
      "step": 610
    },
    {
      "epoch": 0.6228338430173292,
      "grad_norm": 0.7305027842521667,
      "learning_rate": 0.001,
      "loss": 0.6631,
      "step": 611
    },
    {
      "epoch": 0.6238532110091743,
      "grad_norm": 0.24221712350845337,
      "learning_rate": 0.001,
      "loss": 0.6675,
      "step": 612
    },
    {
      "epoch": 0.6248725790010193,
      "grad_norm": 0.526776909828186,
      "learning_rate": 0.001,
      "loss": 0.6479,
      "step": 613
    },
    {
      "epoch": 0.6258919469928644,
      "grad_norm": 0.5034619569778442,
      "learning_rate": 0.001,
      "loss": 0.6914,
      "step": 614
    },
    {
      "epoch": 0.6269113149847095,
      "grad_norm": 0.5575202703475952,
      "learning_rate": 0.001,
      "loss": 0.6992,
      "step": 615
    },
    {
      "epoch": 0.6279306829765545,
      "grad_norm": 0.41205960512161255,
      "learning_rate": 0.001,
      "loss": 0.6592,
      "step": 616
    },
    {
      "epoch": 0.6289500509683996,
      "grad_norm": 0.43746358156204224,
      "learning_rate": 0.001,
      "loss": 0.6899,
      "step": 617
    },
    {
      "epoch": 0.6299694189602446,
      "grad_norm": 0.26373717188835144,
      "learning_rate": 0.001,
      "loss": 0.6943,
      "step": 618
    },
    {
      "epoch": 0.6309887869520897,
      "grad_norm": 0.24124383926391602,
      "learning_rate": 0.001,
      "loss": 0.6387,
      "step": 619
    },
    {
      "epoch": 0.6320081549439348,
      "grad_norm": 2.4154562950134277,
      "learning_rate": 0.001,
      "loss": 0.6753,
      "step": 620
    },
    {
      "epoch": 0.6330275229357798,
      "grad_norm": 0.20345596969127655,
      "learning_rate": 0.001,
      "loss": 0.6621,
      "step": 621
    },
    {
      "epoch": 0.6340468909276249,
      "grad_norm": 0.6048974990844727,
      "learning_rate": 0.001,
      "loss": 0.7583,
      "step": 622
    },
    {
      "epoch": 0.6350662589194699,
      "grad_norm": 0.45832058787345886,
      "learning_rate": 0.001,
      "loss": 0.6758,
      "step": 623
    },
    {
      "epoch": 0.636085626911315,
      "grad_norm": 0.316296249628067,
      "learning_rate": 0.001,
      "loss": 0.6816,
      "step": 624
    },
    {
      "epoch": 0.6371049949031601,
      "grad_norm": 0.43589457869529724,
      "learning_rate": 0.001,
      "loss": 0.6904,
      "step": 625
    },
    {
      "epoch": 0.6381243628950051,
      "grad_norm": 0.744437038898468,
      "learning_rate": 0.001,
      "loss": 0.6938,
      "step": 626
    },
    {
      "epoch": 0.6391437308868502,
      "grad_norm": 0.34419241547584534,
      "learning_rate": 0.001,
      "loss": 0.6782,
      "step": 627
    },
    {
      "epoch": 0.6401630988786952,
      "grad_norm": 0.5542130470275879,
      "learning_rate": 0.001,
      "loss": 0.6655,
      "step": 628
    },
    {
      "epoch": 0.6411824668705403,
      "grad_norm": 0.6862201690673828,
      "learning_rate": 0.001,
      "loss": 0.7031,
      "step": 629
    },
    {
      "epoch": 0.6422018348623854,
      "grad_norm": 1.2657362222671509,
      "learning_rate": 0.001,
      "loss": 0.7119,
      "step": 630
    },
    {
      "epoch": 0.6432212028542303,
      "grad_norm": 0.7590400576591492,
      "learning_rate": 0.001,
      "loss": 0.6821,
      "step": 631
    },
    {
      "epoch": 0.6442405708460754,
      "grad_norm": 1.3747676610946655,
      "learning_rate": 0.001,
      "loss": 0.6782,
      "step": 632
    },
    {
      "epoch": 0.6452599388379205,
      "grad_norm": 0.6924837827682495,
      "learning_rate": 0.001,
      "loss": 0.6982,
      "step": 633
    },
    {
      "epoch": 0.6462793068297655,
      "grad_norm": 0.8142154812812805,
      "learning_rate": 0.001,
      "loss": 0.6631,
      "step": 634
    },
    {
      "epoch": 0.6472986748216106,
      "grad_norm": 0.6798468828201294,
      "learning_rate": 0.001,
      "loss": 0.6611,
      "step": 635
    },
    {
      "epoch": 0.6483180428134556,
      "grad_norm": 0.6058226823806763,
      "learning_rate": 0.001,
      "loss": 0.6572,
      "step": 636
    },
    {
      "epoch": 0.6493374108053007,
      "grad_norm": 0.7423324584960938,
      "learning_rate": 0.001,
      "loss": 0.7061,
      "step": 637
    },
    {
      "epoch": 0.6503567787971458,
      "grad_norm": 0.5838301181793213,
      "learning_rate": 0.001,
      "loss": 0.71,
      "step": 638
    },
    {
      "epoch": 0.6513761467889908,
      "grad_norm": 0.48234492540359497,
      "learning_rate": 0.001,
      "loss": 0.6724,
      "step": 639
    },
    {
      "epoch": 0.6523955147808359,
      "grad_norm": 0.5899515151977539,
      "learning_rate": 0.001,
      "loss": 0.6768,
      "step": 640
    },
    {
      "epoch": 0.6534148827726809,
      "grad_norm": 0.3091524839401245,
      "learning_rate": 0.001,
      "loss": 0.6978,
      "step": 641
    },
    {
      "epoch": 0.654434250764526,
      "grad_norm": 0.4601669907569885,
      "learning_rate": 0.001,
      "loss": 0.6997,
      "step": 642
    },
    {
      "epoch": 0.6554536187563711,
      "grad_norm": 0.5464401841163635,
      "learning_rate": 0.001,
      "loss": 0.6465,
      "step": 643
    },
    {
      "epoch": 0.6564729867482161,
      "grad_norm": 0.713779091835022,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 644
    },
    {
      "epoch": 0.6574923547400612,
      "grad_norm": 0.7859066724777222,
      "learning_rate": 0.001,
      "loss": 0.6655,
      "step": 645
    },
    {
      "epoch": 0.6585117227319062,
      "grad_norm": 0.34397536516189575,
      "learning_rate": 0.001,
      "loss": 0.6733,
      "step": 646
    },
    {
      "epoch": 0.6595310907237513,
      "grad_norm": 0.2418230175971985,
      "learning_rate": 0.001,
      "loss": 0.6724,
      "step": 647
    },
    {
      "epoch": 0.6605504587155964,
      "grad_norm": 0.4682077467441559,
      "learning_rate": 0.001,
      "loss": 0.6807,
      "step": 648
    },
    {
      "epoch": 0.6615698267074414,
      "grad_norm": 0.4630146324634552,
      "learning_rate": 0.001,
      "loss": 0.6816,
      "step": 649
    },
    {
      "epoch": 0.6625891946992865,
      "grad_norm": 0.5807396173477173,
      "learning_rate": 0.001,
      "loss": 0.6992,
      "step": 650
    },
    {
      "epoch": 0.6636085626911316,
      "grad_norm": 0.3659757077693939,
      "learning_rate": 0.001,
      "loss": 0.6851,
      "step": 651
    },
    {
      "epoch": 0.6646279306829765,
      "grad_norm": 0.5183510780334473,
      "learning_rate": 0.001,
      "loss": 0.6748,
      "step": 652
    },
    {
      "epoch": 0.6656472986748216,
      "grad_norm": 0.5195315480232239,
      "learning_rate": 0.001,
      "loss": 0.6582,
      "step": 653
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.48459288477897644,
      "learning_rate": 0.001,
      "loss": 0.6738,
      "step": 654
    },
    {
      "epoch": 0.6676860346585117,
      "grad_norm": 0.29380717873573303,
      "learning_rate": 0.001,
      "loss": 0.6436,
      "step": 655
    },
    {
      "epoch": 0.6687054026503568,
      "grad_norm": 0.9608097076416016,
      "learning_rate": 0.001,
      "loss": 0.6733,
      "step": 656
    },
    {
      "epoch": 0.6697247706422018,
      "grad_norm": 0.7298572659492493,
      "learning_rate": 0.001,
      "loss": 0.6392,
      "step": 657
    },
    {
      "epoch": 0.6707441386340469,
      "grad_norm": 0.6242117881774902,
      "learning_rate": 0.001,
      "loss": 0.647,
      "step": 658
    },
    {
      "epoch": 0.6717635066258919,
      "grad_norm": 0.5344266295433044,
      "learning_rate": 0.001,
      "loss": 0.7139,
      "step": 659
    },
    {
      "epoch": 0.672782874617737,
      "grad_norm": 1.163465976715088,
      "learning_rate": 0.001,
      "loss": 0.7236,
      "step": 660
    },
    {
      "epoch": 0.6738022426095821,
      "grad_norm": 1.2036073207855225,
      "learning_rate": 0.001,
      "loss": 0.6958,
      "step": 661
    },
    {
      "epoch": 0.6748216106014271,
      "grad_norm": 0.296450674533844,
      "learning_rate": 0.001,
      "loss": 0.7046,
      "step": 662
    },
    {
      "epoch": 0.6758409785932722,
      "grad_norm": 0.2984800636768341,
      "learning_rate": 0.001,
      "loss": 0.6748,
      "step": 663
    },
    {
      "epoch": 0.6768603465851172,
      "grad_norm": 0.7201023101806641,
      "learning_rate": 0.001,
      "loss": 0.6953,
      "step": 664
    },
    {
      "epoch": 0.6778797145769623,
      "grad_norm": 0.7231013178825378,
      "learning_rate": 0.001,
      "loss": 0.6909,
      "step": 665
    },
    {
      "epoch": 0.6788990825688074,
      "grad_norm": 0.3011246621608734,
      "learning_rate": 0.001,
      "loss": 0.6606,
      "step": 666
    },
    {
      "epoch": 0.6799184505606524,
      "grad_norm": 0.4998309314250946,
      "learning_rate": 0.001,
      "loss": 0.6606,
      "step": 667
    },
    {
      "epoch": 0.6809378185524975,
      "grad_norm": 0.4473484456539154,
      "learning_rate": 0.001,
      "loss": 0.6699,
      "step": 668
    },
    {
      "epoch": 0.6819571865443425,
      "grad_norm": 0.3553158640861511,
      "learning_rate": 0.001,
      "loss": 0.6899,
      "step": 669
    },
    {
      "epoch": 0.6829765545361876,
      "grad_norm": 0.33754804730415344,
      "learning_rate": 0.001,
      "loss": 0.6553,
      "step": 670
    },
    {
      "epoch": 0.6839959225280327,
      "grad_norm": 0.3557702600955963,
      "learning_rate": 0.001,
      "loss": 0.6772,
      "step": 671
    },
    {
      "epoch": 0.6850152905198776,
      "grad_norm": 0.41170069575309753,
      "learning_rate": 0.001,
      "loss": 0.6587,
      "step": 672
    },
    {
      "epoch": 0.6860346585117227,
      "grad_norm": 0.27351516485214233,
      "learning_rate": 0.001,
      "loss": 0.6475,
      "step": 673
    },
    {
      "epoch": 0.6870540265035678,
      "grad_norm": 0.39001691341400146,
      "learning_rate": 0.001,
      "loss": 0.6953,
      "step": 674
    },
    {
      "epoch": 0.6880733944954128,
      "grad_norm": 0.27872031927108765,
      "learning_rate": 0.001,
      "loss": 0.6279,
      "step": 675
    },
    {
      "epoch": 0.6890927624872579,
      "grad_norm": 0.2285115122795105,
      "learning_rate": 0.001,
      "loss": 0.6797,
      "step": 676
    },
    {
      "epoch": 0.6901121304791029,
      "grad_norm": 0.30964601039886475,
      "learning_rate": 0.001,
      "loss": 0.6577,
      "step": 677
    },
    {
      "epoch": 0.691131498470948,
      "grad_norm": 0.2856111526489258,
      "learning_rate": 0.001,
      "loss": 0.6382,
      "step": 678
    },
    {
      "epoch": 0.6921508664627931,
      "grad_norm": 0.35003334283828735,
      "learning_rate": 0.001,
      "loss": 0.623,
      "step": 679
    },
    {
      "epoch": 0.6931702344546381,
      "grad_norm": 0.5335362553596497,
      "learning_rate": 0.001,
      "loss": 0.6729,
      "step": 680
    },
    {
      "epoch": 0.6941896024464832,
      "grad_norm": 0.30691200494766235,
      "learning_rate": 0.001,
      "loss": 0.6421,
      "step": 681
    },
    {
      "epoch": 0.6952089704383282,
      "grad_norm": 0.3177829682826996,
      "learning_rate": 0.001,
      "loss": 0.6567,
      "step": 682
    },
    {
      "epoch": 0.6962283384301733,
      "grad_norm": 0.42762163281440735,
      "learning_rate": 0.001,
      "loss": 0.6426,
      "step": 683
    },
    {
      "epoch": 0.6972477064220184,
      "grad_norm": 0.34363898634910583,
      "learning_rate": 0.001,
      "loss": 0.6592,
      "step": 684
    },
    {
      "epoch": 0.6982670744138634,
      "grad_norm": 0.46456044912338257,
      "learning_rate": 0.001,
      "loss": 0.6411,
      "step": 685
    },
    {
      "epoch": 0.6992864424057085,
      "grad_norm": 0.19661860167980194,
      "learning_rate": 0.001,
      "loss": 0.6421,
      "step": 686
    },
    {
      "epoch": 0.7003058103975535,
      "grad_norm": 1.3777415752410889,
      "learning_rate": 0.001,
      "loss": 0.6836,
      "step": 687
    },
    {
      "epoch": 0.7013251783893986,
      "grad_norm": 0.2174331098794937,
      "learning_rate": 0.001,
      "loss": 0.6523,
      "step": 688
    },
    {
      "epoch": 0.7023445463812437,
      "grad_norm": 0.25994712114334106,
      "learning_rate": 0.001,
      "loss": 0.6538,
      "step": 689
    },
    {
      "epoch": 0.7033639143730887,
      "grad_norm": 0.28884124755859375,
      "learning_rate": 0.001,
      "loss": 0.6465,
      "step": 690
    },
    {
      "epoch": 0.7043832823649337,
      "grad_norm": 0.2131364941596985,
      "learning_rate": 0.001,
      "loss": 0.6382,
      "step": 691
    },
    {
      "epoch": 0.7054026503567788,
      "grad_norm": 0.23628802597522736,
      "learning_rate": 0.001,
      "loss": 0.6299,
      "step": 692
    },
    {
      "epoch": 0.7064220183486238,
      "grad_norm": 0.3683570623397827,
      "learning_rate": 0.001,
      "loss": 0.6309,
      "step": 693
    },
    {
      "epoch": 0.7074413863404689,
      "grad_norm": 0.22981923818588257,
      "learning_rate": 0.001,
      "loss": 0.6416,
      "step": 694
    },
    {
      "epoch": 0.7084607543323139,
      "grad_norm": 0.21543532609939575,
      "learning_rate": 0.001,
      "loss": 0.6626,
      "step": 695
    },
    {
      "epoch": 0.709480122324159,
      "grad_norm": 0.21324627101421356,
      "learning_rate": 0.001,
      "loss": 0.6514,
      "step": 696
    },
    {
      "epoch": 0.7104994903160041,
      "grad_norm": 0.28972989320755005,
      "learning_rate": 0.001,
      "loss": 0.6909,
      "step": 697
    },
    {
      "epoch": 0.7115188583078491,
      "grad_norm": 0.490504652261734,
      "learning_rate": 0.001,
      "loss": 0.6611,
      "step": 698
    },
    {
      "epoch": 0.7125382262996942,
      "grad_norm": 0.2854010760784149,
      "learning_rate": 0.001,
      "loss": 0.6802,
      "step": 699
    },
    {
      "epoch": 0.7135575942915392,
      "grad_norm": 0.24558840692043304,
      "learning_rate": 0.001,
      "loss": 0.6245,
      "step": 700
    },
    {
      "epoch": 0.7145769622833843,
      "grad_norm": 0.43326717615127563,
      "learning_rate": 0.001,
      "loss": 0.6631,
      "step": 701
    },
    {
      "epoch": 0.7155963302752294,
      "grad_norm": 0.19433215260505676,
      "learning_rate": 0.001,
      "loss": 0.6206,
      "step": 702
    },
    {
      "epoch": 0.7166156982670744,
      "grad_norm": 0.5138407349586487,
      "learning_rate": 0.001,
      "loss": 0.6597,
      "step": 703
    },
    {
      "epoch": 0.7176350662589195,
      "grad_norm": 0.2502927780151367,
      "learning_rate": 0.001,
      "loss": 0.5879,
      "step": 704
    },
    {
      "epoch": 0.7186544342507645,
      "grad_norm": 0.3130328357219696,
      "learning_rate": 0.001,
      "loss": 0.6543,
      "step": 705
    },
    {
      "epoch": 0.7196738022426096,
      "grad_norm": 0.2594761550426483,
      "learning_rate": 0.001,
      "loss": 0.6338,
      "step": 706
    },
    {
      "epoch": 0.7206931702344547,
      "grad_norm": 0.23541925847530365,
      "learning_rate": 0.001,
      "loss": 0.626,
      "step": 707
    },
    {
      "epoch": 0.7217125382262997,
      "grad_norm": 0.3119550347328186,
      "learning_rate": 0.001,
      "loss": 0.6494,
      "step": 708
    },
    {
      "epoch": 0.7227319062181448,
      "grad_norm": 0.3136981427669525,
      "learning_rate": 0.001,
      "loss": 0.6118,
      "step": 709
    },
    {
      "epoch": 0.7237512742099899,
      "grad_norm": 0.2550690472126007,
      "learning_rate": 0.001,
      "loss": 0.687,
      "step": 710
    },
    {
      "epoch": 0.7247706422018348,
      "grad_norm": 0.42090731859207153,
      "learning_rate": 0.001,
      "loss": 0.6421,
      "step": 711
    },
    {
      "epoch": 0.72579001019368,
      "grad_norm": 0.19136817753314972,
      "learning_rate": 0.001,
      "loss": 0.6475,
      "step": 712
    },
    {
      "epoch": 0.7268093781855249,
      "grad_norm": 0.4941461682319641,
      "learning_rate": 0.001,
      "loss": 0.6152,
      "step": 713
    },
    {
      "epoch": 0.72782874617737,
      "grad_norm": 0.1865939199924469,
      "learning_rate": 0.001,
      "loss": 0.6582,
      "step": 714
    },
    {
      "epoch": 0.7288481141692151,
      "grad_norm": 0.39937764406204224,
      "learning_rate": 0.001,
      "loss": 0.6167,
      "step": 715
    },
    {
      "epoch": 0.7298674821610601,
      "grad_norm": 0.2440742701292038,
      "learning_rate": 0.001,
      "loss": 0.6489,
      "step": 716
    },
    {
      "epoch": 0.7308868501529052,
      "grad_norm": 0.25599682331085205,
      "learning_rate": 0.001,
      "loss": 0.6382,
      "step": 717
    },
    {
      "epoch": 0.7319062181447502,
      "grad_norm": 0.2864598035812378,
      "learning_rate": 0.001,
      "loss": 0.6646,
      "step": 718
    },
    {
      "epoch": 0.7329255861365953,
      "grad_norm": 0.3077907860279083,
      "learning_rate": 0.001,
      "loss": 0.6626,
      "step": 719
    },
    {
      "epoch": 0.7339449541284404,
      "grad_norm": 0.3268769681453705,
      "learning_rate": 0.001,
      "loss": 0.6602,
      "step": 720
    },
    {
      "epoch": 0.7349643221202854,
      "grad_norm": 0.37353241443634033,
      "learning_rate": 0.001,
      "loss": 0.623,
      "step": 721
    },
    {
      "epoch": 0.7359836901121305,
      "grad_norm": 0.2955395579338074,
      "learning_rate": 0.001,
      "loss": 0.6128,
      "step": 722
    },
    {
      "epoch": 0.7370030581039755,
      "grad_norm": 0.910105288028717,
      "learning_rate": 0.001,
      "loss": 0.6729,
      "step": 723
    },
    {
      "epoch": 0.7380224260958206,
      "grad_norm": 0.3230229616165161,
      "learning_rate": 0.001,
      "loss": 0.6387,
      "step": 724
    },
    {
      "epoch": 0.7390417940876657,
      "grad_norm": 0.3745088279247284,
      "learning_rate": 0.001,
      "loss": 0.6475,
      "step": 725
    },
    {
      "epoch": 0.7400611620795107,
      "grad_norm": 0.2899716794490814,
      "learning_rate": 0.001,
      "loss": 0.6553,
      "step": 726
    },
    {
      "epoch": 0.7410805300713558,
      "grad_norm": 0.36477336287498474,
      "learning_rate": 0.001,
      "loss": 0.6152,
      "step": 727
    },
    {
      "epoch": 0.7420998980632009,
      "grad_norm": 0.3567102253437042,
      "learning_rate": 0.001,
      "loss": 0.6392,
      "step": 728
    },
    {
      "epoch": 0.7431192660550459,
      "grad_norm": 0.4729137718677521,
      "learning_rate": 0.001,
      "loss": 0.5837,
      "step": 729
    },
    {
      "epoch": 0.744138634046891,
      "grad_norm": 0.7813751697540283,
      "learning_rate": 0.001,
      "loss": 0.6436,
      "step": 730
    },
    {
      "epoch": 0.745158002038736,
      "grad_norm": 0.7939459681510925,
      "learning_rate": 0.001,
      "loss": 0.6797,
      "step": 731
    },
    {
      "epoch": 0.746177370030581,
      "grad_norm": 0.42086103558540344,
      "learning_rate": 0.001,
      "loss": 0.647,
      "step": 732
    },
    {
      "epoch": 0.7471967380224261,
      "grad_norm": 1.4445610046386719,
      "learning_rate": 0.001,
      "loss": 0.6738,
      "step": 733
    },
    {
      "epoch": 0.7482161060142711,
      "grad_norm": 0.7918270826339722,
      "learning_rate": 0.001,
      "loss": 0.6548,
      "step": 734
    },
    {
      "epoch": 0.7492354740061162,
      "grad_norm": 0.3779679834842682,
      "learning_rate": 0.001,
      "loss": 0.6274,
      "step": 735
    },
    {
      "epoch": 0.7502548419979612,
      "grad_norm": 0.2955230474472046,
      "learning_rate": 0.001,
      "loss": 0.6538,
      "step": 736
    },
    {
      "epoch": 0.7512742099898063,
      "grad_norm": 0.6203406453132629,
      "learning_rate": 0.001,
      "loss": 0.623,
      "step": 737
    },
    {
      "epoch": 0.7522935779816514,
      "grad_norm": 0.4772067368030548,
      "learning_rate": 0.001,
      "loss": 0.6572,
      "step": 738
    },
    {
      "epoch": 0.7533129459734964,
      "grad_norm": 0.4666346609592438,
      "learning_rate": 0.001,
      "loss": 0.6592,
      "step": 739
    },
    {
      "epoch": 0.7543323139653415,
      "grad_norm": 0.5649834871292114,
      "learning_rate": 0.001,
      "loss": 0.6763,
      "step": 740
    },
    {
      "epoch": 0.7553516819571865,
      "grad_norm": 0.4770605266094208,
      "learning_rate": 0.001,
      "loss": 0.5923,
      "step": 741
    },
    {
      "epoch": 0.7563710499490316,
      "grad_norm": 4.1456618309021,
      "learning_rate": 0.001,
      "loss": 0.6377,
      "step": 742
    },
    {
      "epoch": 0.7573904179408767,
      "grad_norm": 1.0428483486175537,
      "learning_rate": 0.001,
      "loss": 0.585,
      "step": 743
    },
    {
      "epoch": 0.7584097859327217,
      "grad_norm": 0.5275211334228516,
      "learning_rate": 0.001,
      "loss": 0.6431,
      "step": 744
    },
    {
      "epoch": 0.7594291539245668,
      "grad_norm": 0.4809887111186981,
      "learning_rate": 0.001,
      "loss": 0.6353,
      "step": 745
    },
    {
      "epoch": 0.7604485219164119,
      "grad_norm": 0.3822823464870453,
      "learning_rate": 0.001,
      "loss": 0.6162,
      "step": 746
    },
    {
      "epoch": 0.7614678899082569,
      "grad_norm": 0.4624873101711273,
      "learning_rate": 0.001,
      "loss": 0.5835,
      "step": 747
    },
    {
      "epoch": 0.762487257900102,
      "grad_norm": 0.39730304479599,
      "learning_rate": 0.001,
      "loss": 0.5613,
      "step": 748
    },
    {
      "epoch": 0.763506625891947,
      "grad_norm": 1.1003036499023438,
      "learning_rate": 0.001,
      "loss": 0.6606,
      "step": 749
    },
    {
      "epoch": 0.764525993883792,
      "grad_norm": 0.3752444088459015,
      "learning_rate": 0.001,
      "loss": 0.6018,
      "step": 750
    },
    {
      "epoch": 0.7655453618756372,
      "grad_norm": 0.6047735214233398,
      "learning_rate": 0.001,
      "loss": 0.6174,
      "step": 751
    },
    {
      "epoch": 0.7665647298674821,
      "grad_norm": 0.6797285676002502,
      "learning_rate": 0.001,
      "loss": 0.6353,
      "step": 752
    },
    {
      "epoch": 0.7675840978593272,
      "grad_norm": 0.3714821934700012,
      "learning_rate": 0.001,
      "loss": 0.604,
      "step": 753
    },
    {
      "epoch": 0.7686034658511722,
      "grad_norm": 0.7976692318916321,
      "learning_rate": 0.001,
      "loss": 0.5986,
      "step": 754
    },
    {
      "epoch": 0.7696228338430173,
      "grad_norm": 0.45702388882637024,
      "learning_rate": 0.001,
      "loss": 0.5627,
      "step": 755
    },
    {
      "epoch": 0.7706422018348624,
      "grad_norm": 0.47889184951782227,
      "learning_rate": 0.001,
      "loss": 0.6494,
      "step": 756
    },
    {
      "epoch": 0.7716615698267074,
      "grad_norm": 0.7146897912025452,
      "learning_rate": 0.001,
      "loss": 0.6104,
      "step": 757
    },
    {
      "epoch": 0.7726809378185525,
      "grad_norm": 0.6252388954162598,
      "learning_rate": 0.001,
      "loss": 0.5854,
      "step": 758
    },
    {
      "epoch": 0.7737003058103975,
      "grad_norm": 0.6431871652603149,
      "learning_rate": 0.001,
      "loss": 0.5833,
      "step": 759
    },
    {
      "epoch": 0.7747196738022426,
      "grad_norm": 0.3391045928001404,
      "learning_rate": 0.001,
      "loss": 0.6133,
      "step": 760
    },
    {
      "epoch": 0.7757390417940877,
      "grad_norm": 0.5954017043113708,
      "learning_rate": 0.001,
      "loss": 0.5713,
      "step": 761
    },
    {
      "epoch": 0.7767584097859327,
      "grad_norm": 0.322626531124115,
      "learning_rate": 0.001,
      "loss": 0.5791,
      "step": 762
    },
    {
      "epoch": 0.7777777777777778,
      "grad_norm": 0.387333482503891,
      "learning_rate": 0.001,
      "loss": 0.6035,
      "step": 763
    },
    {
      "epoch": 0.7787971457696228,
      "grad_norm": 0.5617883205413818,
      "learning_rate": 0.001,
      "loss": 0.5957,
      "step": 764
    },
    {
      "epoch": 0.7798165137614679,
      "grad_norm": 0.29846280813217163,
      "learning_rate": 0.001,
      "loss": 0.5811,
      "step": 765
    },
    {
      "epoch": 0.780835881753313,
      "grad_norm": 0.32480934262275696,
      "learning_rate": 0.001,
      "loss": 0.6016,
      "step": 766
    },
    {
      "epoch": 0.781855249745158,
      "grad_norm": 0.3017808198928833,
      "learning_rate": 0.001,
      "loss": 0.5801,
      "step": 767
    },
    {
      "epoch": 0.7828746177370031,
      "grad_norm": 0.39040064811706543,
      "learning_rate": 0.001,
      "loss": 0.6226,
      "step": 768
    },
    {
      "epoch": 0.7838939857288482,
      "grad_norm": 0.4939924478530884,
      "learning_rate": 0.001,
      "loss": 0.5962,
      "step": 769
    },
    {
      "epoch": 0.7849133537206932,
      "grad_norm": 0.38075903058052063,
      "learning_rate": 0.001,
      "loss": 0.574,
      "step": 770
    },
    {
      "epoch": 0.7859327217125383,
      "grad_norm": 0.542787492275238,
      "learning_rate": 0.001,
      "loss": 0.5894,
      "step": 771
    },
    {
      "epoch": 0.7869520897043832,
      "grad_norm": 0.531806468963623,
      "learning_rate": 0.001,
      "loss": 0.6064,
      "step": 772
    },
    {
      "epoch": 0.7879714576962283,
      "grad_norm": 0.39752721786499023,
      "learning_rate": 0.001,
      "loss": 0.5737,
      "step": 773
    },
    {
      "epoch": 0.7889908256880734,
      "grad_norm": 0.28705471754074097,
      "learning_rate": 0.001,
      "loss": 0.563,
      "step": 774
    },
    {
      "epoch": 0.7900101936799184,
      "grad_norm": 0.6253343820571899,
      "learning_rate": 0.001,
      "loss": 0.5825,
      "step": 775
    },
    {
      "epoch": 0.7910295616717635,
      "grad_norm": 0.3456830680370331,
      "learning_rate": 0.001,
      "loss": 0.5366,
      "step": 776
    },
    {
      "epoch": 0.7920489296636085,
      "grad_norm": 0.965185821056366,
      "learning_rate": 0.001,
      "loss": 0.5618,
      "step": 777
    },
    {
      "epoch": 0.7930682976554536,
      "grad_norm": 0.3561039865016937,
      "learning_rate": 0.001,
      "loss": 0.5552,
      "step": 778
    },
    {
      "epoch": 0.7940876656472987,
      "grad_norm": 0.5417430996894836,
      "learning_rate": 0.001,
      "loss": 0.584,
      "step": 779
    },
    {
      "epoch": 0.7951070336391437,
      "grad_norm": 0.3471434414386749,
      "learning_rate": 0.001,
      "loss": 0.5378,
      "step": 780
    },
    {
      "epoch": 0.7961264016309888,
      "grad_norm": 0.3479912281036377,
      "learning_rate": 0.001,
      "loss": 0.5405,
      "step": 781
    },
    {
      "epoch": 0.7971457696228338,
      "grad_norm": 0.45749470591545105,
      "learning_rate": 0.001,
      "loss": 0.5559,
      "step": 782
    },
    {
      "epoch": 0.7981651376146789,
      "grad_norm": 0.6084389686584473,
      "learning_rate": 0.001,
      "loss": 0.5674,
      "step": 783
    },
    {
      "epoch": 0.799184505606524,
      "grad_norm": 0.3850792646408081,
      "learning_rate": 0.001,
      "loss": 0.5483,
      "step": 784
    },
    {
      "epoch": 0.800203873598369,
      "grad_norm": 0.3332115411758423,
      "learning_rate": 0.001,
      "loss": 0.5642,
      "step": 785
    },
    {
      "epoch": 0.8012232415902141,
      "grad_norm": 0.29785266518592834,
      "learning_rate": 0.001,
      "loss": 0.5452,
      "step": 786
    },
    {
      "epoch": 0.8022426095820592,
      "grad_norm": 0.287911981344223,
      "learning_rate": 0.001,
      "loss": 0.5139,
      "step": 787
    },
    {
      "epoch": 0.8032619775739042,
      "grad_norm": 0.3639684021472931,
      "learning_rate": 0.001,
      "loss": 0.5151,
      "step": 788
    },
    {
      "epoch": 0.8042813455657493,
      "grad_norm": 0.3145482540130615,
      "learning_rate": 0.001,
      "loss": 0.5242,
      "step": 789
    },
    {
      "epoch": 0.8053007135575942,
      "grad_norm": 0.6071112751960754,
      "learning_rate": 0.001,
      "loss": 0.5103,
      "step": 790
    },
    {
      "epoch": 0.8063200815494393,
      "grad_norm": 0.5830947756767273,
      "learning_rate": 0.001,
      "loss": 0.5884,
      "step": 791
    },
    {
      "epoch": 0.8073394495412844,
      "grad_norm": 0.5172148942947388,
      "learning_rate": 0.001,
      "loss": 0.5278,
      "step": 792
    },
    {
      "epoch": 0.8083588175331294,
      "grad_norm": 0.47862812876701355,
      "learning_rate": 0.001,
      "loss": 0.5398,
      "step": 793
    },
    {
      "epoch": 0.8093781855249745,
      "grad_norm": 0.46775832772254944,
      "learning_rate": 0.001,
      "loss": 0.571,
      "step": 794
    },
    {
      "epoch": 0.8103975535168195,
      "grad_norm": 0.38212668895721436,
      "learning_rate": 0.001,
      "loss": 0.5178,
      "step": 795
    },
    {
      "epoch": 0.8114169215086646,
      "grad_norm": 0.6390314102172852,
      "learning_rate": 0.001,
      "loss": 0.5061,
      "step": 796
    },
    {
      "epoch": 0.8124362895005097,
      "grad_norm": 0.2751126289367676,
      "learning_rate": 0.001,
      "loss": 0.5413,
      "step": 797
    },
    {
      "epoch": 0.8134556574923547,
      "grad_norm": 0.3039000928401947,
      "learning_rate": 0.001,
      "loss": 0.5347,
      "step": 798
    },
    {
      "epoch": 0.8144750254841998,
      "grad_norm": 0.519160270690918,
      "learning_rate": 0.001,
      "loss": 0.6003,
      "step": 799
    },
    {
      "epoch": 0.8154943934760448,
      "grad_norm": 0.34171047806739807,
      "learning_rate": 0.001,
      "loss": 0.563,
      "step": 800
    },
    {
      "epoch": 0.8165137614678899,
      "grad_norm": 0.5591936707496643,
      "learning_rate": 0.001,
      "loss": 0.5774,
      "step": 801
    },
    {
      "epoch": 0.817533129459735,
      "grad_norm": 2.514770030975342,
      "learning_rate": 0.001,
      "loss": 0.5544,
      "step": 802
    },
    {
      "epoch": 0.81855249745158,
      "grad_norm": 0.2992073893547058,
      "learning_rate": 0.001,
      "loss": 0.5337,
      "step": 803
    },
    {
      "epoch": 0.8195718654434251,
      "grad_norm": 0.858386218547821,
      "learning_rate": 0.001,
      "loss": 0.5469,
      "step": 804
    },
    {
      "epoch": 0.8205912334352702,
      "grad_norm": 0.581258237361908,
      "learning_rate": 0.001,
      "loss": 0.5457,
      "step": 805
    },
    {
      "epoch": 0.8216106014271152,
      "grad_norm": 0.3787574768066406,
      "learning_rate": 0.001,
      "loss": 0.5037,
      "step": 806
    },
    {
      "epoch": 0.8226299694189603,
      "grad_norm": 0.4826294779777527,
      "learning_rate": 0.001,
      "loss": 0.5488,
      "step": 807
    },
    {
      "epoch": 0.8236493374108053,
      "grad_norm": 0.8272612690925598,
      "learning_rate": 0.001,
      "loss": 0.5674,
      "step": 808
    },
    {
      "epoch": 0.8246687054026504,
      "grad_norm": 0.5839717984199524,
      "learning_rate": 0.001,
      "loss": 0.5459,
      "step": 809
    },
    {
      "epoch": 0.8256880733944955,
      "grad_norm": 0.5618568062782288,
      "learning_rate": 0.001,
      "loss": 0.5713,
      "step": 810
    },
    {
      "epoch": 0.8267074413863404,
      "grad_norm": 0.32818758487701416,
      "learning_rate": 0.001,
      "loss": 0.5483,
      "step": 811
    },
    {
      "epoch": 0.8277268093781855,
      "grad_norm": 0.9413501024246216,
      "learning_rate": 0.001,
      "loss": 0.5488,
      "step": 812
    },
    {
      "epoch": 0.8287461773700305,
      "grad_norm": 0.359317809343338,
      "learning_rate": 0.001,
      "loss": 0.5261,
      "step": 813
    },
    {
      "epoch": 0.8297655453618756,
      "grad_norm": 0.3680131733417511,
      "learning_rate": 0.001,
      "loss": 0.5486,
      "step": 814
    },
    {
      "epoch": 0.8307849133537207,
      "grad_norm": 0.2537948191165924,
      "learning_rate": 0.001,
      "loss": 0.5352,
      "step": 815
    },
    {
      "epoch": 0.8318042813455657,
      "grad_norm": 0.358569473028183,
      "learning_rate": 0.001,
      "loss": 0.5415,
      "step": 816
    },
    {
      "epoch": 0.8328236493374108,
      "grad_norm": 0.690570056438446,
      "learning_rate": 0.001,
      "loss": 0.5356,
      "step": 817
    },
    {
      "epoch": 0.8338430173292558,
      "grad_norm": 0.43574947118759155,
      "learning_rate": 0.001,
      "loss": 0.5098,
      "step": 818
    },
    {
      "epoch": 0.8348623853211009,
      "grad_norm": 0.706826388835907,
      "learning_rate": 0.001,
      "loss": 0.5767,
      "step": 819
    },
    {
      "epoch": 0.835881753312946,
      "grad_norm": 0.4295505881309509,
      "learning_rate": 0.001,
      "loss": 0.5076,
      "step": 820
    },
    {
      "epoch": 0.836901121304791,
      "grad_norm": 0.30401185154914856,
      "learning_rate": 0.001,
      "loss": 0.5427,
      "step": 821
    },
    {
      "epoch": 0.8379204892966361,
      "grad_norm": 0.6331131458282471,
      "learning_rate": 0.001,
      "loss": 0.5344,
      "step": 822
    },
    {
      "epoch": 0.8389398572884812,
      "grad_norm": 0.3978610038757324,
      "learning_rate": 0.001,
      "loss": 0.5879,
      "step": 823
    },
    {
      "epoch": 0.8399592252803262,
      "grad_norm": 0.27844616770744324,
      "learning_rate": 0.001,
      "loss": 0.5269,
      "step": 824
    },
    {
      "epoch": 0.8409785932721713,
      "grad_norm": 0.5867791771888733,
      "learning_rate": 0.001,
      "loss": 0.5522,
      "step": 825
    },
    {
      "epoch": 0.8419979612640163,
      "grad_norm": 0.4568655788898468,
      "learning_rate": 0.001,
      "loss": 0.5349,
      "step": 826
    },
    {
      "epoch": 0.8430173292558614,
      "grad_norm": 0.30518147349357605,
      "learning_rate": 0.001,
      "loss": 0.5078,
      "step": 827
    },
    {
      "epoch": 0.8440366972477065,
      "grad_norm": 0.6254779696464539,
      "learning_rate": 0.001,
      "loss": 0.5276,
      "step": 828
    },
    {
      "epoch": 0.8450560652395515,
      "grad_norm": 0.4610297977924347,
      "learning_rate": 0.001,
      "loss": 0.5298,
      "step": 829
    },
    {
      "epoch": 0.8460754332313966,
      "grad_norm": 0.37871772050857544,
      "learning_rate": 0.001,
      "loss": 0.5474,
      "step": 830
    },
    {
      "epoch": 0.8470948012232415,
      "grad_norm": 0.6806412935256958,
      "learning_rate": 0.001,
      "loss": 0.5229,
      "step": 831
    },
    {
      "epoch": 0.8481141692150866,
      "grad_norm": 0.5062223076820374,
      "learning_rate": 0.001,
      "loss": 0.5737,
      "step": 832
    },
    {
      "epoch": 0.8491335372069317,
      "grad_norm": 1.2290592193603516,
      "learning_rate": 0.001,
      "loss": 0.5686,
      "step": 833
    },
    {
      "epoch": 0.8501529051987767,
      "grad_norm": 0.7817277312278748,
      "learning_rate": 0.001,
      "loss": 0.5129,
      "step": 834
    },
    {
      "epoch": 0.8511722731906218,
      "grad_norm": 0.3822422921657562,
      "learning_rate": 0.001,
      "loss": 0.5339,
      "step": 835
    },
    {
      "epoch": 0.8521916411824668,
      "grad_norm": 0.5729561448097229,
      "learning_rate": 0.001,
      "loss": 0.5447,
      "step": 836
    },
    {
      "epoch": 0.8532110091743119,
      "grad_norm": 0.743932843208313,
      "learning_rate": 0.001,
      "loss": 0.5366,
      "step": 837
    },
    {
      "epoch": 0.854230377166157,
      "grad_norm": 0.41998594999313354,
      "learning_rate": 0.001,
      "loss": 0.5125,
      "step": 838
    },
    {
      "epoch": 0.855249745158002,
      "grad_norm": 0.36463260650634766,
      "learning_rate": 0.001,
      "loss": 0.4861,
      "step": 839
    },
    {
      "epoch": 0.8562691131498471,
      "grad_norm": 0.5610719919204712,
      "learning_rate": 0.001,
      "loss": 0.5083,
      "step": 840
    },
    {
      "epoch": 0.8572884811416922,
      "grad_norm": 0.61468106508255,
      "learning_rate": 0.001,
      "loss": 0.5312,
      "step": 841
    },
    {
      "epoch": 0.8583078491335372,
      "grad_norm": 0.2575308382511139,
      "learning_rate": 0.001,
      "loss": 0.4966,
      "step": 842
    },
    {
      "epoch": 0.8593272171253823,
      "grad_norm": 0.4192734956741333,
      "learning_rate": 0.001,
      "loss": 0.5073,
      "step": 843
    },
    {
      "epoch": 0.8603465851172273,
      "grad_norm": 0.6575401425361633,
      "learning_rate": 0.001,
      "loss": 0.5771,
      "step": 844
    },
    {
      "epoch": 0.8613659531090724,
      "grad_norm": 0.322265088558197,
      "learning_rate": 0.001,
      "loss": 0.5229,
      "step": 845
    },
    {
      "epoch": 0.8623853211009175,
      "grad_norm": 0.327558696269989,
      "learning_rate": 0.001,
      "loss": 0.4883,
      "step": 846
    },
    {
      "epoch": 0.8634046890927625,
      "grad_norm": 0.2613082528114319,
      "learning_rate": 0.001,
      "loss": 0.5408,
      "step": 847
    },
    {
      "epoch": 0.8644240570846076,
      "grad_norm": 0.2711898982524872,
      "learning_rate": 0.001,
      "loss": 0.5168,
      "step": 848
    },
    {
      "epoch": 0.8654434250764526,
      "grad_norm": 0.29145488142967224,
      "learning_rate": 0.001,
      "loss": 0.5151,
      "step": 849
    },
    {
      "epoch": 0.8664627930682977,
      "grad_norm": 0.24947796761989594,
      "learning_rate": 0.001,
      "loss": 0.5283,
      "step": 850
    },
    {
      "epoch": 0.8674821610601428,
      "grad_norm": 0.32255905866622925,
      "learning_rate": 0.001,
      "loss": 0.5386,
      "step": 851
    },
    {
      "epoch": 0.8685015290519877,
      "grad_norm": 0.34904050827026367,
      "learning_rate": 0.001,
      "loss": 0.5076,
      "step": 852
    },
    {
      "epoch": 0.8695208970438328,
      "grad_norm": 0.5051873922348022,
      "learning_rate": 0.001,
      "loss": 0.5369,
      "step": 853
    },
    {
      "epoch": 0.8705402650356778,
      "grad_norm": 0.8803642392158508,
      "learning_rate": 0.001,
      "loss": 0.4841,
      "step": 854
    },
    {
      "epoch": 0.8715596330275229,
      "grad_norm": 0.24783262610435486,
      "learning_rate": 0.001,
      "loss": 0.512,
      "step": 855
    },
    {
      "epoch": 0.872579001019368,
      "grad_norm": 0.2932031452655792,
      "learning_rate": 0.001,
      "loss": 0.5288,
      "step": 856
    },
    {
      "epoch": 0.873598369011213,
      "grad_norm": 0.35080820322036743,
      "learning_rate": 0.001,
      "loss": 0.5049,
      "step": 857
    },
    {
      "epoch": 0.8746177370030581,
      "grad_norm": 0.21965403854846954,
      "learning_rate": 0.001,
      "loss": 0.4961,
      "step": 858
    },
    {
      "epoch": 0.8756371049949032,
      "grad_norm": 0.2690715193748474,
      "learning_rate": 0.001,
      "loss": 0.5366,
      "step": 859
    },
    {
      "epoch": 0.8766564729867482,
      "grad_norm": 0.4430384933948517,
      "learning_rate": 0.001,
      "loss": 0.4902,
      "step": 860
    },
    {
      "epoch": 0.8776758409785933,
      "grad_norm": 0.3124351501464844,
      "learning_rate": 0.001,
      "loss": 0.5305,
      "step": 861
    },
    {
      "epoch": 0.8786952089704383,
      "grad_norm": 0.39176589250564575,
      "learning_rate": 0.001,
      "loss": 0.4912,
      "step": 862
    },
    {
      "epoch": 0.8797145769622834,
      "grad_norm": 0.320524662733078,
      "learning_rate": 0.001,
      "loss": 0.4863,
      "step": 863
    },
    {
      "epoch": 0.8807339449541285,
      "grad_norm": 0.31719186902046204,
      "learning_rate": 0.001,
      "loss": 0.5227,
      "step": 864
    },
    {
      "epoch": 0.8817533129459735,
      "grad_norm": 0.3075438439846039,
      "learning_rate": 0.001,
      "loss": 0.4524,
      "step": 865
    },
    {
      "epoch": 0.8827726809378186,
      "grad_norm": 0.473732054233551,
      "learning_rate": 0.001,
      "loss": 0.532,
      "step": 866
    },
    {
      "epoch": 0.8837920489296636,
      "grad_norm": 0.301537424325943,
      "learning_rate": 0.001,
      "loss": 0.4756,
      "step": 867
    },
    {
      "epoch": 0.8848114169215087,
      "grad_norm": 0.2901269495487213,
      "learning_rate": 0.001,
      "loss": 0.5188,
      "step": 868
    },
    {
      "epoch": 0.8858307849133538,
      "grad_norm": 0.47015857696533203,
      "learning_rate": 0.001,
      "loss": 0.5229,
      "step": 869
    },
    {
      "epoch": 0.8868501529051988,
      "grad_norm": 0.5186257362365723,
      "learning_rate": 0.001,
      "loss": 0.5117,
      "step": 870
    },
    {
      "epoch": 0.8878695208970439,
      "grad_norm": 0.3208060562610626,
      "learning_rate": 0.001,
      "loss": 0.5007,
      "step": 871
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.46675384044647217,
      "learning_rate": 0.001,
      "loss": 0.54,
      "step": 872
    },
    {
      "epoch": 0.8899082568807339,
      "grad_norm": 0.4630459249019623,
      "learning_rate": 0.001,
      "loss": 0.5493,
      "step": 873
    },
    {
      "epoch": 0.890927624872579,
      "grad_norm": 0.5907748341560364,
      "learning_rate": 0.001,
      "loss": 0.5024,
      "step": 874
    },
    {
      "epoch": 0.891946992864424,
      "grad_norm": 0.5072471499443054,
      "learning_rate": 0.001,
      "loss": 0.4978,
      "step": 875
    },
    {
      "epoch": 0.8929663608562691,
      "grad_norm": 0.27503424882888794,
      "learning_rate": 0.001,
      "loss": 0.4795,
      "step": 876
    },
    {
      "epoch": 0.8939857288481141,
      "grad_norm": 0.3864554762840271,
      "learning_rate": 0.001,
      "loss": 0.4888,
      "step": 877
    },
    {
      "epoch": 0.8950050968399592,
      "grad_norm": 0.42563074827194214,
      "learning_rate": 0.001,
      "loss": 0.4685,
      "step": 878
    },
    {
      "epoch": 0.8960244648318043,
      "grad_norm": 0.4810798466205597,
      "learning_rate": 0.001,
      "loss": 0.5122,
      "step": 879
    },
    {
      "epoch": 0.8970438328236493,
      "grad_norm": 0.21726778149604797,
      "learning_rate": 0.001,
      "loss": 0.4788,
      "step": 880
    },
    {
      "epoch": 0.8980632008154944,
      "grad_norm": 0.3260672986507416,
      "learning_rate": 0.001,
      "loss": 0.5034,
      "step": 881
    },
    {
      "epoch": 0.8990825688073395,
      "grad_norm": 0.28293880820274353,
      "learning_rate": 0.001,
      "loss": 0.5339,
      "step": 882
    },
    {
      "epoch": 0.9001019367991845,
      "grad_norm": 0.22520416975021362,
      "learning_rate": 0.001,
      "loss": 0.5134,
      "step": 883
    },
    {
      "epoch": 0.9011213047910296,
      "grad_norm": 0.3276107907295227,
      "learning_rate": 0.001,
      "loss": 0.5222,
      "step": 884
    },
    {
      "epoch": 0.9021406727828746,
      "grad_norm": 0.44440171122550964,
      "learning_rate": 0.001,
      "loss": 0.5371,
      "step": 885
    },
    {
      "epoch": 0.9031600407747197,
      "grad_norm": 0.37100011110305786,
      "learning_rate": 0.001,
      "loss": 0.5439,
      "step": 886
    },
    {
      "epoch": 0.9041794087665648,
      "grad_norm": 0.29532185196876526,
      "learning_rate": 0.001,
      "loss": 0.5034,
      "step": 887
    },
    {
      "epoch": 0.9051987767584098,
      "grad_norm": 0.1832873672246933,
      "learning_rate": 0.001,
      "loss": 0.5161,
      "step": 888
    },
    {
      "epoch": 0.9062181447502549,
      "grad_norm": 0.2456182837486267,
      "learning_rate": 0.001,
      "loss": 0.4751,
      "step": 889
    },
    {
      "epoch": 0.9072375127420998,
      "grad_norm": 1.3977512121200562,
      "learning_rate": 0.001,
      "loss": 0.5144,
      "step": 890
    },
    {
      "epoch": 0.908256880733945,
      "grad_norm": 0.32688337564468384,
      "learning_rate": 0.001,
      "loss": 0.5151,
      "step": 891
    },
    {
      "epoch": 0.90927624872579,
      "grad_norm": 0.331381618976593,
      "learning_rate": 0.001,
      "loss": 0.4983,
      "step": 892
    },
    {
      "epoch": 0.910295616717635,
      "grad_norm": 0.3720269799232483,
      "learning_rate": 0.001,
      "loss": 0.5181,
      "step": 893
    },
    {
      "epoch": 0.9113149847094801,
      "grad_norm": 0.19124184548854828,
      "learning_rate": 0.001,
      "loss": 0.4849,
      "step": 894
    },
    {
      "epoch": 0.9123343527013251,
      "grad_norm": 0.34564009308815,
      "learning_rate": 0.001,
      "loss": 0.4875,
      "step": 895
    },
    {
      "epoch": 0.9133537206931702,
      "grad_norm": 0.23876532912254333,
      "learning_rate": 0.001,
      "loss": 0.5012,
      "step": 896
    },
    {
      "epoch": 0.9143730886850153,
      "grad_norm": 0.33622241020202637,
      "learning_rate": 0.001,
      "loss": 0.5115,
      "step": 897
    },
    {
      "epoch": 0.9153924566768603,
      "grad_norm": 0.2534613013267517,
      "learning_rate": 0.001,
      "loss": 0.4812,
      "step": 898
    },
    {
      "epoch": 0.9164118246687054,
      "grad_norm": 0.2709294855594635,
      "learning_rate": 0.001,
      "loss": 0.4988,
      "step": 899
    },
    {
      "epoch": 0.9174311926605505,
      "grad_norm": 0.5135911107063293,
      "learning_rate": 0.001,
      "loss": 0.4963,
      "step": 900
    },
    {
      "epoch": 0.9184505606523955,
      "grad_norm": 0.4633142054080963,
      "learning_rate": 0.001,
      "loss": 0.4607,
      "step": 901
    },
    {
      "epoch": 0.9194699286442406,
      "grad_norm": 0.716829240322113,
      "learning_rate": 0.001,
      "loss": 0.5298,
      "step": 902
    },
    {
      "epoch": 0.9204892966360856,
      "grad_norm": 0.4364725947380066,
      "learning_rate": 0.001,
      "loss": 0.5391,
      "step": 903
    },
    {
      "epoch": 0.9215086646279307,
      "grad_norm": 0.2521651089191437,
      "learning_rate": 0.001,
      "loss": 0.5161,
      "step": 904
    },
    {
      "epoch": 0.9225280326197758,
      "grad_norm": 0.4021625518798828,
      "learning_rate": 0.001,
      "loss": 0.4587,
      "step": 905
    },
    {
      "epoch": 0.9235474006116208,
      "grad_norm": 0.3884265720844269,
      "learning_rate": 0.001,
      "loss": 0.5017,
      "step": 906
    },
    {
      "epoch": 0.9245667686034659,
      "grad_norm": 0.2763523459434509,
      "learning_rate": 0.001,
      "loss": 0.4626,
      "step": 907
    },
    {
      "epoch": 0.9255861365953109,
      "grad_norm": 0.5023939609527588,
      "learning_rate": 0.001,
      "loss": 0.4724,
      "step": 908
    },
    {
      "epoch": 0.926605504587156,
      "grad_norm": 0.4836398959159851,
      "learning_rate": 0.001,
      "loss": 0.489,
      "step": 909
    },
    {
      "epoch": 0.9276248725790011,
      "grad_norm": 0.36798882484436035,
      "learning_rate": 0.001,
      "loss": 0.5332,
      "step": 910
    },
    {
      "epoch": 0.928644240570846,
      "grad_norm": 0.31039518117904663,
      "learning_rate": 0.001,
      "loss": 0.4851,
      "step": 911
    },
    {
      "epoch": 0.9296636085626911,
      "grad_norm": 0.5119385123252869,
      "learning_rate": 0.001,
      "loss": 0.51,
      "step": 912
    },
    {
      "epoch": 0.9306829765545361,
      "grad_norm": 0.37615904211997986,
      "learning_rate": 0.001,
      "loss": 0.5132,
      "step": 913
    },
    {
      "epoch": 0.9317023445463812,
      "grad_norm": 0.4019189178943634,
      "learning_rate": 0.001,
      "loss": 0.4824,
      "step": 914
    },
    {
      "epoch": 0.9327217125382263,
      "grad_norm": 0.43668675422668457,
      "learning_rate": 0.001,
      "loss": 0.5513,
      "step": 915
    },
    {
      "epoch": 0.9337410805300713,
      "grad_norm": 0.5047374367713928,
      "learning_rate": 0.001,
      "loss": 0.5469,
      "step": 916
    },
    {
      "epoch": 0.9347604485219164,
      "grad_norm": 0.2631514072418213,
      "learning_rate": 0.001,
      "loss": 0.509,
      "step": 917
    },
    {
      "epoch": 0.9357798165137615,
      "grad_norm": 0.5716310739517212,
      "learning_rate": 0.001,
      "loss": 0.5215,
      "step": 918
    },
    {
      "epoch": 0.9367991845056065,
      "grad_norm": 0.5655353665351868,
      "learning_rate": 0.001,
      "loss": 0.5193,
      "step": 919
    },
    {
      "epoch": 0.9378185524974516,
      "grad_norm": 0.2268143892288208,
      "learning_rate": 0.001,
      "loss": 0.4648,
      "step": 920
    },
    {
      "epoch": 0.9388379204892966,
      "grad_norm": 0.3553065359592438,
      "learning_rate": 0.001,
      "loss": 0.4897,
      "step": 921
    },
    {
      "epoch": 0.9398572884811417,
      "grad_norm": 0.34031549096107483,
      "learning_rate": 0.001,
      "loss": 0.4951,
      "step": 922
    },
    {
      "epoch": 0.9408766564729868,
      "grad_norm": 0.4955664575099945,
      "learning_rate": 0.001,
      "loss": 0.4695,
      "step": 923
    },
    {
      "epoch": 0.9418960244648318,
      "grad_norm": 0.39129284024238586,
      "learning_rate": 0.001,
      "loss": 0.4739,
      "step": 924
    },
    {
      "epoch": 0.9429153924566769,
      "grad_norm": 0.3700062036514282,
      "learning_rate": 0.001,
      "loss": 0.4805,
      "step": 925
    },
    {
      "epoch": 0.9439347604485219,
      "grad_norm": 0.599806010723114,
      "learning_rate": 0.001,
      "loss": 0.4819,
      "step": 926
    },
    {
      "epoch": 0.944954128440367,
      "grad_norm": 0.27702489495277405,
      "learning_rate": 0.001,
      "loss": 0.4983,
      "step": 927
    },
    {
      "epoch": 0.9459734964322121,
      "grad_norm": 0.6223720908164978,
      "learning_rate": 0.001,
      "loss": 0.5217,
      "step": 928
    },
    {
      "epoch": 0.9469928644240571,
      "grad_norm": 0.5179930925369263,
      "learning_rate": 0.001,
      "loss": 0.4709,
      "step": 929
    },
    {
      "epoch": 0.9480122324159022,
      "grad_norm": 0.3078060746192932,
      "learning_rate": 0.001,
      "loss": 0.4692,
      "step": 930
    },
    {
      "epoch": 0.9490316004077471,
      "grad_norm": 0.408346563577652,
      "learning_rate": 0.001,
      "loss": 0.4587,
      "step": 931
    },
    {
      "epoch": 0.9500509683995922,
      "grad_norm": 0.1931089162826538,
      "learning_rate": 0.001,
      "loss": 0.4602,
      "step": 932
    },
    {
      "epoch": 0.9510703363914373,
      "grad_norm": 0.4082845151424408,
      "learning_rate": 0.001,
      "loss": 0.5237,
      "step": 933
    },
    {
      "epoch": 0.9520897043832823,
      "grad_norm": 0.5225961208343506,
      "learning_rate": 0.001,
      "loss": 0.4858,
      "step": 934
    },
    {
      "epoch": 0.9531090723751274,
      "grad_norm": 0.46412134170532227,
      "learning_rate": 0.001,
      "loss": 0.4832,
      "step": 935
    },
    {
      "epoch": 0.9541284403669725,
      "grad_norm": 0.314408540725708,
      "learning_rate": 0.001,
      "loss": 0.4641,
      "step": 936
    },
    {
      "epoch": 0.9551478083588175,
      "grad_norm": 0.5239225029945374,
      "learning_rate": 0.001,
      "loss": 0.4556,
      "step": 937
    },
    {
      "epoch": 0.9561671763506626,
      "grad_norm": 0.42688390612602234,
      "learning_rate": 0.001,
      "loss": 0.49,
      "step": 938
    },
    {
      "epoch": 0.9571865443425076,
      "grad_norm": 0.3456531763076782,
      "learning_rate": 0.001,
      "loss": 0.4519,
      "step": 939
    },
    {
      "epoch": 0.9582059123343527,
      "grad_norm": 0.4386424720287323,
      "learning_rate": 0.001,
      "loss": 0.447,
      "step": 940
    },
    {
      "epoch": 0.9592252803261978,
      "grad_norm": 0.38650596141815186,
      "learning_rate": 0.001,
      "loss": 0.4529,
      "step": 941
    },
    {
      "epoch": 0.9602446483180428,
      "grad_norm": 0.39492499828338623,
      "learning_rate": 0.001,
      "loss": 0.4634,
      "step": 942
    },
    {
      "epoch": 0.9612640163098879,
      "grad_norm": 0.28535181283950806,
      "learning_rate": 0.001,
      "loss": 0.4812,
      "step": 943
    },
    {
      "epoch": 0.9622833843017329,
      "grad_norm": 0.6273065805435181,
      "learning_rate": 0.001,
      "loss": 0.4832,
      "step": 944
    },
    {
      "epoch": 0.963302752293578,
      "grad_norm": 0.6589963436126709,
      "learning_rate": 0.001,
      "loss": 0.5,
      "step": 945
    },
    {
      "epoch": 0.9643221202854231,
      "grad_norm": 0.457954078912735,
      "learning_rate": 0.001,
      "loss": 0.5068,
      "step": 946
    },
    {
      "epoch": 0.9653414882772681,
      "grad_norm": 0.7432283163070679,
      "learning_rate": 0.001,
      "loss": 0.4839,
      "step": 947
    },
    {
      "epoch": 0.9663608562691132,
      "grad_norm": 0.23266004025936127,
      "learning_rate": 0.001,
      "loss": 0.4771,
      "step": 948
    },
    {
      "epoch": 0.9673802242609582,
      "grad_norm": 0.22452208399772644,
      "learning_rate": 0.001,
      "loss": 0.4924,
      "step": 949
    },
    {
      "epoch": 0.9683995922528033,
      "grad_norm": 0.28494083881378174,
      "learning_rate": 0.001,
      "loss": 0.4858,
      "step": 950
    },
    {
      "epoch": 0.9694189602446484,
      "grad_norm": 0.26329752802848816,
      "learning_rate": 0.001,
      "loss": 0.5151,
      "step": 951
    },
    {
      "epoch": 0.9704383282364933,
      "grad_norm": 0.5295172929763794,
      "learning_rate": 0.001,
      "loss": 0.4727,
      "step": 952
    },
    {
      "epoch": 0.9714576962283384,
      "grad_norm": 0.37382495403289795,
      "learning_rate": 0.001,
      "loss": 0.5181,
      "step": 953
    },
    {
      "epoch": 0.9724770642201835,
      "grad_norm": 0.25360170006752014,
      "learning_rate": 0.001,
      "loss": 0.4736,
      "step": 954
    },
    {
      "epoch": 0.9734964322120285,
      "grad_norm": 0.8315963745117188,
      "learning_rate": 0.001,
      "loss": 0.4705,
      "step": 955
    },
    {
      "epoch": 0.9745158002038736,
      "grad_norm": 0.2992140054702759,
      "learning_rate": 0.001,
      "loss": 0.4631,
      "step": 956
    },
    {
      "epoch": 0.9755351681957186,
      "grad_norm": 0.5494382381439209,
      "learning_rate": 0.001,
      "loss": 0.5002,
      "step": 957
    },
    {
      "epoch": 0.9765545361875637,
      "grad_norm": 0.4136946201324463,
      "learning_rate": 0.001,
      "loss": 0.5198,
      "step": 958
    },
    {
      "epoch": 0.9775739041794088,
      "grad_norm": 0.4101239740848541,
      "learning_rate": 0.001,
      "loss": 0.5176,
      "step": 959
    },
    {
      "epoch": 0.9785932721712538,
      "grad_norm": 0.4042799770832062,
      "learning_rate": 0.001,
      "loss": 0.499,
      "step": 960
    },
    {
      "epoch": 0.9796126401630989,
      "grad_norm": 0.3784841299057007,
      "learning_rate": 0.001,
      "loss": 0.4707,
      "step": 961
    },
    {
      "epoch": 0.9806320081549439,
      "grad_norm": 0.3558209240436554,
      "learning_rate": 0.001,
      "loss": 0.4702,
      "step": 962
    },
    {
      "epoch": 0.981651376146789,
      "grad_norm": 0.4939902722835541,
      "learning_rate": 0.001,
      "loss": 0.458,
      "step": 963
    },
    {
      "epoch": 0.9826707441386341,
      "grad_norm": 0.3273856043815613,
      "learning_rate": 0.001,
      "loss": 0.4727,
      "step": 964
    },
    {
      "epoch": 0.9836901121304791,
      "grad_norm": 0.5211267471313477,
      "learning_rate": 0.001,
      "loss": 0.511,
      "step": 965
    },
    {
      "epoch": 0.9847094801223242,
      "grad_norm": 0.41940897703170776,
      "learning_rate": 0.001,
      "loss": 0.491,
      "step": 966
    },
    {
      "epoch": 0.9857288481141692,
      "grad_norm": 0.3070198893547058,
      "learning_rate": 0.001,
      "loss": 0.4661,
      "step": 967
    },
    {
      "epoch": 0.9867482161060143,
      "grad_norm": 0.4009252190589905,
      "learning_rate": 0.001,
      "loss": 0.4333,
      "step": 968
    },
    {
      "epoch": 0.9877675840978594,
      "grad_norm": 0.29539984464645386,
      "learning_rate": 0.001,
      "loss": 0.4868,
      "step": 969
    },
    {
      "epoch": 0.9887869520897044,
      "grad_norm": 0.3417380452156067,
      "learning_rate": 0.001,
      "loss": 0.4529,
      "step": 970
    },
    {
      "epoch": 0.9898063200815495,
      "grad_norm": 0.2871677577495575,
      "learning_rate": 0.001,
      "loss": 0.4304,
      "step": 971
    },
    {
      "epoch": 0.9908256880733946,
      "grad_norm": 0.2990075945854187,
      "learning_rate": 0.001,
      "loss": 0.4878,
      "step": 972
    },
    {
      "epoch": 0.9918450560652395,
      "grad_norm": 0.29605284333229065,
      "learning_rate": 0.001,
      "loss": 0.4907,
      "step": 973
    },
    {
      "epoch": 0.9928644240570846,
      "grad_norm": 0.3398796319961548,
      "learning_rate": 0.001,
      "loss": 0.5129,
      "step": 974
    },
    {
      "epoch": 0.9938837920489296,
      "grad_norm": 0.5372266173362732,
      "learning_rate": 0.001,
      "loss": 0.4402,
      "step": 975
    },
    {
      "epoch": 0.9949031600407747,
      "grad_norm": 0.5414278507232666,
      "learning_rate": 0.001,
      "loss": 0.4915,
      "step": 976
    },
    {
      "epoch": 0.9959225280326198,
      "grad_norm": 0.3909987807273865,
      "learning_rate": 0.001,
      "loss": 0.4702,
      "step": 977
    },
    {
      "epoch": 0.9969418960244648,
      "grad_norm": 0.33078932762145996,
      "learning_rate": 0.001,
      "loss": 0.4731,
      "step": 978
    },
    {
      "epoch": 0.9979612640163099,
      "grad_norm": 0.2083141952753067,
      "learning_rate": 0.001,
      "loss": 0.4668,
      "step": 979
    },
    {
      "epoch": 0.9989806320081549,
      "grad_norm": 0.5117843747138977,
      "learning_rate": 0.001,
      "loss": 0.5259,
      "step": 980
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3859313428401947,
      "learning_rate": 0.001,
      "loss": 0.4482,
      "step": 981
    },
    {
      "epoch": 1.0,
      "eval_-_f1-score": 0.0,
      "eval_-_precision": 0.0,
      "eval_-_recall": 0.0,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.8294762484774665,
      "eval_<_precision": 0.8193302586725486,
      "eval_<_recall": 0.8398766700924974,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.0,
      "eval_=_precision": 0.0,
      "eval_=_recall": 0.0,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.8309374367280826,
      "eval_>_precision": 0.8186714542190305,
      "eval_>_recall": 0.8435765673175745,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.819,
      "eval_loss": 0.24017499387264252,
      "eval_macro_avg_f1-score": 0.4151034213013873,
      "eval_macro_avg_precision": 0.4095004282228948,
      "eval_macro_avg_recall": 0.420863309352518,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.8572,
      "eval_samples_per_second": 777.773,
      "eval_steps_per_second": 3.111,
      "eval_weighted_avg_f1-score": 0.8077912578524996,
      "eval_weighted_avg_precision": 0.7968878333217533,
      "eval_weighted_avg_recall": 0.819,
      "eval_weighted_avg_support": 10000.0,
      "step": 981
    },
    {
      "epoch": 1.001019367991845,
      "grad_norm": 0.41385000944137573,
      "learning_rate": 0.001,
      "loss": 0.4744,
      "step": 982
    },
    {
      "epoch": 1.0020387359836902,
      "grad_norm": 0.37244024872779846,
      "learning_rate": 0.001,
      "loss": 0.4553,
      "step": 983
    },
    {
      "epoch": 1.003058103975535,
      "grad_norm": 0.6631729602813721,
      "learning_rate": 0.001,
      "loss": 0.5061,
      "step": 984
    },
    {
      "epoch": 1.0040774719673802,
      "grad_norm": 0.281501829624176,
      "learning_rate": 0.001,
      "loss": 0.4407,
      "step": 985
    },
    {
      "epoch": 1.0050968399592253,
      "grad_norm": 0.39195719361305237,
      "learning_rate": 0.001,
      "loss": 0.4961,
      "step": 986
    },
    {
      "epoch": 1.0061162079510704,
      "grad_norm": 0.38513317704200745,
      "learning_rate": 0.001,
      "loss": 0.4648,
      "step": 987
    },
    {
      "epoch": 1.0071355759429155,
      "grad_norm": 0.30375272035598755,
      "learning_rate": 0.001,
      "loss": 0.4158,
      "step": 988
    },
    {
      "epoch": 1.0081549439347604,
      "grad_norm": 0.625190019607544,
      "learning_rate": 0.001,
      "loss": 0.4946,
      "step": 989
    },
    {
      "epoch": 1.0091743119266054,
      "grad_norm": 0.3146905303001404,
      "learning_rate": 0.001,
      "loss": 0.489,
      "step": 990
    },
    {
      "epoch": 1.0101936799184505,
      "grad_norm": 0.3107898235321045,
      "learning_rate": 0.001,
      "loss": 0.4509,
      "step": 991
    },
    {
      "epoch": 1.0112130479102956,
      "grad_norm": 0.2022896111011505,
      "learning_rate": 0.001,
      "loss": 0.4707,
      "step": 992
    },
    {
      "epoch": 1.0122324159021407,
      "grad_norm": 0.3859257400035858,
      "learning_rate": 0.001,
      "loss": 0.4604,
      "step": 993
    },
    {
      "epoch": 1.0132517838939856,
      "grad_norm": 0.47412869334220886,
      "learning_rate": 0.001,
      "loss": 0.4817,
      "step": 994
    },
    {
      "epoch": 1.0142711518858307,
      "grad_norm": 0.5383332967758179,
      "learning_rate": 0.001,
      "loss": 0.4685,
      "step": 995
    },
    {
      "epoch": 1.0152905198776758,
      "grad_norm": 0.3805997967720032,
      "learning_rate": 0.001,
      "loss": 0.4858,
      "step": 996
    },
    {
      "epoch": 1.016309887869521,
      "grad_norm": 0.3127101957798004,
      "learning_rate": 0.001,
      "loss": 0.4966,
      "step": 997
    },
    {
      "epoch": 1.017329255861366,
      "grad_norm": 0.2101694494485855,
      "learning_rate": 0.001,
      "loss": 0.4529,
      "step": 998
    },
    {
      "epoch": 1.018348623853211,
      "grad_norm": 0.48497188091278076,
      "learning_rate": 0.001,
      "loss": 0.4561,
      "step": 999
    },
    {
      "epoch": 1.019367991845056,
      "grad_norm": 0.6210949420928955,
      "learning_rate": 0.001,
      "loss": 0.4558,
      "step": 1000
    },
    {
      "epoch": 1.020387359836901,
      "grad_norm": 0.2392907440662384,
      "learning_rate": 0.001,
      "loss": 0.4253,
      "step": 1001
    },
    {
      "epoch": 1.0214067278287462,
      "grad_norm": 0.4832351505756378,
      "learning_rate": 0.001,
      "loss": 0.4468,
      "step": 1002
    },
    {
      "epoch": 1.0224260958205913,
      "grad_norm": 0.4458174407482147,
      "learning_rate": 0.001,
      "loss": 0.4802,
      "step": 1003
    },
    {
      "epoch": 1.0234454638124364,
      "grad_norm": 0.29069939255714417,
      "learning_rate": 0.001,
      "loss": 0.4719,
      "step": 1004
    },
    {
      "epoch": 1.0244648318042813,
      "grad_norm": 0.3853806257247925,
      "learning_rate": 0.001,
      "loss": 0.4136,
      "step": 1005
    },
    {
      "epoch": 1.0254841997961264,
      "grad_norm": 0.3200150728225708,
      "learning_rate": 0.001,
      "loss": 0.4822,
      "step": 1006
    },
    {
      "epoch": 1.0265035677879715,
      "grad_norm": 0.41506993770599365,
      "learning_rate": 0.001,
      "loss": 0.4358,
      "step": 1007
    },
    {
      "epoch": 1.0275229357798166,
      "grad_norm": 0.28948020935058594,
      "learning_rate": 0.001,
      "loss": 0.4561,
      "step": 1008
    },
    {
      "epoch": 1.0285423037716617,
      "grad_norm": 0.26939237117767334,
      "learning_rate": 0.001,
      "loss": 0.4475,
      "step": 1009
    },
    {
      "epoch": 1.0295616717635065,
      "grad_norm": 0.27316898107528687,
      "learning_rate": 0.001,
      "loss": 0.4255,
      "step": 1010
    },
    {
      "epoch": 1.0305810397553516,
      "grad_norm": 0.2697267234325409,
      "learning_rate": 0.001,
      "loss": 0.479,
      "step": 1011
    },
    {
      "epoch": 1.0316004077471967,
      "grad_norm": 0.326322078704834,
      "learning_rate": 0.001,
      "loss": 0.4875,
      "step": 1012
    },
    {
      "epoch": 1.0326197757390418,
      "grad_norm": 0.3434504270553589,
      "learning_rate": 0.001,
      "loss": 0.4465,
      "step": 1013
    },
    {
      "epoch": 1.033639143730887,
      "grad_norm": 0.28254953026771545,
      "learning_rate": 0.001,
      "loss": 0.4741,
      "step": 1014
    },
    {
      "epoch": 1.0346585117227318,
      "grad_norm": 0.3962109088897705,
      "learning_rate": 0.001,
      "loss": 0.4426,
      "step": 1015
    },
    {
      "epoch": 1.035677879714577,
      "grad_norm": 0.6560462117195129,
      "learning_rate": 0.001,
      "loss": 0.4814,
      "step": 1016
    },
    {
      "epoch": 1.036697247706422,
      "grad_norm": 0.25714072585105896,
      "learning_rate": 0.001,
      "loss": 0.436,
      "step": 1017
    },
    {
      "epoch": 1.0377166156982671,
      "grad_norm": 0.30385294556617737,
      "learning_rate": 0.001,
      "loss": 0.4138,
      "step": 1018
    },
    {
      "epoch": 1.0387359836901122,
      "grad_norm": 0.3064964711666107,
      "learning_rate": 0.001,
      "loss": 0.4443,
      "step": 1019
    },
    {
      "epoch": 1.039755351681957,
      "grad_norm": 0.39030006527900696,
      "learning_rate": 0.001,
      "loss": 0.448,
      "step": 1020
    },
    {
      "epoch": 1.0407747196738022,
      "grad_norm": 0.22068054974079132,
      "learning_rate": 0.001,
      "loss": 0.407,
      "step": 1021
    },
    {
      "epoch": 1.0417940876656473,
      "grad_norm": 0.24258114397525787,
      "learning_rate": 0.001,
      "loss": 0.4231,
      "step": 1022
    },
    {
      "epoch": 1.0428134556574924,
      "grad_norm": 0.43836426734924316,
      "learning_rate": 0.001,
      "loss": 0.447,
      "step": 1023
    },
    {
      "epoch": 1.0438328236493375,
      "grad_norm": 0.24243254959583282,
      "learning_rate": 0.001,
      "loss": 0.4324,
      "step": 1024
    },
    {
      "epoch": 1.0448521916411824,
      "grad_norm": 0.2312680184841156,
      "learning_rate": 0.001,
      "loss": 0.4307,
      "step": 1025
    },
    {
      "epoch": 1.0458715596330275,
      "grad_norm": 0.318919837474823,
      "learning_rate": 0.001,
      "loss": 0.4231,
      "step": 1026
    },
    {
      "epoch": 1.0468909276248726,
      "grad_norm": 0.6307473182678223,
      "learning_rate": 0.001,
      "loss": 0.4932,
      "step": 1027
    },
    {
      "epoch": 1.0479102956167177,
      "grad_norm": 0.2872553765773773,
      "learning_rate": 0.001,
      "loss": 0.4597,
      "step": 1028
    },
    {
      "epoch": 1.0489296636085628,
      "grad_norm": 0.3065769076347351,
      "learning_rate": 0.001,
      "loss": 0.4438,
      "step": 1029
    },
    {
      "epoch": 1.0499490316004076,
      "grad_norm": 0.26166585087776184,
      "learning_rate": 0.001,
      "loss": 0.488,
      "step": 1030
    },
    {
      "epoch": 1.0509683995922527,
      "grad_norm": 0.37979844212532043,
      "learning_rate": 0.001,
      "loss": 0.4309,
      "step": 1031
    },
    {
      "epoch": 1.0519877675840978,
      "grad_norm": 0.27030208706855774,
      "learning_rate": 0.001,
      "loss": 0.4448,
      "step": 1032
    },
    {
      "epoch": 1.053007135575943,
      "grad_norm": 0.45144107937812805,
      "learning_rate": 0.001,
      "loss": 0.4517,
      "step": 1033
    },
    {
      "epoch": 1.054026503567788,
      "grad_norm": 0.29579824209213257,
      "learning_rate": 0.001,
      "loss": 0.4248,
      "step": 1034
    },
    {
      "epoch": 1.0550458715596331,
      "grad_norm": 0.25831055641174316,
      "learning_rate": 0.001,
      "loss": 0.4326,
      "step": 1035
    },
    {
      "epoch": 1.056065239551478,
      "grad_norm": 0.33099597692489624,
      "learning_rate": 0.001,
      "loss": 0.4443,
      "step": 1036
    },
    {
      "epoch": 1.0570846075433231,
      "grad_norm": 0.5195797085762024,
      "learning_rate": 0.001,
      "loss": 0.4426,
      "step": 1037
    },
    {
      "epoch": 1.0581039755351682,
      "grad_norm": 0.2564619779586792,
      "learning_rate": 0.001,
      "loss": 0.4346,
      "step": 1038
    },
    {
      "epoch": 1.0591233435270133,
      "grad_norm": 0.267398864030838,
      "learning_rate": 0.001,
      "loss": 0.4268,
      "step": 1039
    },
    {
      "epoch": 1.0601427115188584,
      "grad_norm": 0.32947295904159546,
      "learning_rate": 0.001,
      "loss": 0.4622,
      "step": 1040
    },
    {
      "epoch": 1.0611620795107033,
      "grad_norm": 0.45799481868743896,
      "learning_rate": 0.001,
      "loss": 0.4302,
      "step": 1041
    },
    {
      "epoch": 1.0621814475025484,
      "grad_norm": 0.3104877173900604,
      "learning_rate": 0.001,
      "loss": 0.4453,
      "step": 1042
    },
    {
      "epoch": 1.0632008154943935,
      "grad_norm": 0.42068803310394287,
      "learning_rate": 0.001,
      "loss": 0.4395,
      "step": 1043
    },
    {
      "epoch": 1.0642201834862386,
      "grad_norm": 0.48684126138687134,
      "learning_rate": 0.001,
      "loss": 0.428,
      "step": 1044
    },
    {
      "epoch": 1.0652395514780837,
      "grad_norm": 0.21555812656879425,
      "learning_rate": 0.001,
      "loss": 0.4673,
      "step": 1045
    },
    {
      "epoch": 1.0662589194699286,
      "grad_norm": 0.33135533332824707,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1046
    },
    {
      "epoch": 1.0672782874617737,
      "grad_norm": 0.30073049664497375,
      "learning_rate": 0.001,
      "loss": 0.429,
      "step": 1047
    },
    {
      "epoch": 1.0682976554536188,
      "grad_norm": 0.37361904978752136,
      "learning_rate": 0.001,
      "loss": 0.4434,
      "step": 1048
    },
    {
      "epoch": 1.0693170234454639,
      "grad_norm": 0.2786082625389099,
      "learning_rate": 0.001,
      "loss": 0.4358,
      "step": 1049
    },
    {
      "epoch": 1.070336391437309,
      "grad_norm": 0.2495722770690918,
      "learning_rate": 0.001,
      "loss": 0.4661,
      "step": 1050
    },
    {
      "epoch": 1.0713557594291538,
      "grad_norm": 0.28168147802352905,
      "learning_rate": 0.001,
      "loss": 0.4587,
      "step": 1051
    },
    {
      "epoch": 1.072375127420999,
      "grad_norm": 0.2998041808605194,
      "learning_rate": 0.001,
      "loss": 0.3997,
      "step": 1052
    },
    {
      "epoch": 1.073394495412844,
      "grad_norm": 0.2810049057006836,
      "learning_rate": 0.001,
      "loss": 0.4375,
      "step": 1053
    },
    {
      "epoch": 1.0744138634046891,
      "grad_norm": 0.31578922271728516,
      "learning_rate": 0.001,
      "loss": 0.4673,
      "step": 1054
    },
    {
      "epoch": 1.0754332313965342,
      "grad_norm": 0.39186638593673706,
      "learning_rate": 0.001,
      "loss": 0.4521,
      "step": 1055
    },
    {
      "epoch": 1.0764525993883791,
      "grad_norm": 0.3569524884223938,
      "learning_rate": 0.001,
      "loss": 0.4744,
      "step": 1056
    },
    {
      "epoch": 1.0774719673802242,
      "grad_norm": 0.236637681722641,
      "learning_rate": 0.001,
      "loss": 0.4348,
      "step": 1057
    },
    {
      "epoch": 1.0784913353720693,
      "grad_norm": 0.37201932072639465,
      "learning_rate": 0.001,
      "loss": 0.4392,
      "step": 1058
    },
    {
      "epoch": 1.0795107033639144,
      "grad_norm": 0.2518470287322998,
      "learning_rate": 0.001,
      "loss": 0.4321,
      "step": 1059
    },
    {
      "epoch": 1.0805300713557595,
      "grad_norm": 0.33767974376678467,
      "learning_rate": 0.001,
      "loss": 0.4482,
      "step": 1060
    },
    {
      "epoch": 1.0815494393476044,
      "grad_norm": 0.3618581295013428,
      "learning_rate": 0.001,
      "loss": 0.4043,
      "step": 1061
    },
    {
      "epoch": 1.0825688073394495,
      "grad_norm": 0.28357186913490295,
      "learning_rate": 0.001,
      "loss": 0.4104,
      "step": 1062
    },
    {
      "epoch": 1.0835881753312946,
      "grad_norm": 0.3765908181667328,
      "learning_rate": 0.001,
      "loss": 0.4221,
      "step": 1063
    },
    {
      "epoch": 1.0846075433231397,
      "grad_norm": 0.35756948590278625,
      "learning_rate": 0.001,
      "loss": 0.4731,
      "step": 1064
    },
    {
      "epoch": 1.0856269113149848,
      "grad_norm": 0.2863915264606476,
      "learning_rate": 0.001,
      "loss": 0.489,
      "step": 1065
    },
    {
      "epoch": 1.0866462793068297,
      "grad_norm": 0.31468942761421204,
      "learning_rate": 0.001,
      "loss": 0.4165,
      "step": 1066
    },
    {
      "epoch": 1.0876656472986748,
      "grad_norm": 0.39389917254447937,
      "learning_rate": 0.001,
      "loss": 0.4377,
      "step": 1067
    },
    {
      "epoch": 1.0886850152905199,
      "grad_norm": 0.2651996910572052,
      "learning_rate": 0.001,
      "loss": 0.4187,
      "step": 1068
    },
    {
      "epoch": 1.089704383282365,
      "grad_norm": 0.17356421053409576,
      "learning_rate": 0.001,
      "loss": 0.4253,
      "step": 1069
    },
    {
      "epoch": 1.09072375127421,
      "grad_norm": 0.27659541368484497,
      "learning_rate": 0.001,
      "loss": 0.4312,
      "step": 1070
    },
    {
      "epoch": 1.091743119266055,
      "grad_norm": 0.231117382645607,
      "learning_rate": 0.001,
      "loss": 0.4377,
      "step": 1071
    },
    {
      "epoch": 1.0927624872579,
      "grad_norm": 0.3102097511291504,
      "learning_rate": 0.001,
      "loss": 0.4146,
      "step": 1072
    },
    {
      "epoch": 1.0937818552497451,
      "grad_norm": 0.21628543734550476,
      "learning_rate": 0.001,
      "loss": 0.4072,
      "step": 1073
    },
    {
      "epoch": 1.0948012232415902,
      "grad_norm": 0.2522221505641937,
      "learning_rate": 0.001,
      "loss": 0.4819,
      "step": 1074
    },
    {
      "epoch": 1.0958205912334353,
      "grad_norm": 0.3380725085735321,
      "learning_rate": 0.001,
      "loss": 0.4353,
      "step": 1075
    },
    {
      "epoch": 1.0968399592252802,
      "grad_norm": 0.2323036640882492,
      "learning_rate": 0.001,
      "loss": 0.4504,
      "step": 1076
    },
    {
      "epoch": 1.0978593272171253,
      "grad_norm": 0.3729894757270813,
      "learning_rate": 0.001,
      "loss": 0.457,
      "step": 1077
    },
    {
      "epoch": 1.0988786952089704,
      "grad_norm": 0.3046010136604309,
      "learning_rate": 0.001,
      "loss": 0.4043,
      "step": 1078
    },
    {
      "epoch": 1.0998980632008155,
      "grad_norm": 0.3052975833415985,
      "learning_rate": 0.001,
      "loss": 0.4565,
      "step": 1079
    },
    {
      "epoch": 1.1009174311926606,
      "grad_norm": 0.6781822443008423,
      "learning_rate": 0.001,
      "loss": 0.3613,
      "step": 1080
    },
    {
      "epoch": 1.1019367991845055,
      "grad_norm": 0.3773484528064728,
      "learning_rate": 0.001,
      "loss": 0.425,
      "step": 1081
    },
    {
      "epoch": 1.1029561671763506,
      "grad_norm": 0.363420307636261,
      "learning_rate": 0.001,
      "loss": 0.4302,
      "step": 1082
    },
    {
      "epoch": 1.1039755351681957,
      "grad_norm": 0.2581470310688019,
      "learning_rate": 0.001,
      "loss": 0.4617,
      "step": 1083
    },
    {
      "epoch": 1.1049949031600408,
      "grad_norm": 0.3820270597934723,
      "learning_rate": 0.001,
      "loss": 0.397,
      "step": 1084
    },
    {
      "epoch": 1.1060142711518859,
      "grad_norm": 0.26046162843704224,
      "learning_rate": 0.001,
      "loss": 0.396,
      "step": 1085
    },
    {
      "epoch": 1.107033639143731,
      "grad_norm": 0.2976887822151184,
      "learning_rate": 0.001,
      "loss": 0.4211,
      "step": 1086
    },
    {
      "epoch": 1.1080530071355759,
      "grad_norm": 0.22832758724689484,
      "learning_rate": 0.001,
      "loss": 0.4324,
      "step": 1087
    },
    {
      "epoch": 1.109072375127421,
      "grad_norm": 0.407757043838501,
      "learning_rate": 0.001,
      "loss": 0.4182,
      "step": 1088
    },
    {
      "epoch": 1.110091743119266,
      "grad_norm": 0.2514571249485016,
      "learning_rate": 0.001,
      "loss": 0.4639,
      "step": 1089
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.2710327208042145,
      "learning_rate": 0.001,
      "loss": 0.4316,
      "step": 1090
    },
    {
      "epoch": 1.1121304791029563,
      "grad_norm": 0.30346906185150146,
      "learning_rate": 0.001,
      "loss": 0.3596,
      "step": 1091
    },
    {
      "epoch": 1.1131498470948011,
      "grad_norm": 0.20113776624202728,
      "learning_rate": 0.001,
      "loss": 0.4233,
      "step": 1092
    },
    {
      "epoch": 1.1141692150866462,
      "grad_norm": 0.24352242052555084,
      "learning_rate": 0.001,
      "loss": 0.4353,
      "step": 1093
    },
    {
      "epoch": 1.1151885830784913,
      "grad_norm": 0.48119691014289856,
      "learning_rate": 0.001,
      "loss": 0.3911,
      "step": 1094
    },
    {
      "epoch": 1.1162079510703364,
      "grad_norm": 0.36771395802497864,
      "learning_rate": 0.001,
      "loss": 0.4102,
      "step": 1095
    },
    {
      "epoch": 1.1172273190621815,
      "grad_norm": 0.26588431000709534,
      "learning_rate": 0.001,
      "loss": 0.427,
      "step": 1096
    },
    {
      "epoch": 1.1182466870540264,
      "grad_norm": 0.4363396465778351,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1097
    },
    {
      "epoch": 1.1192660550458715,
      "grad_norm": 0.2982840836048126,
      "learning_rate": 0.001,
      "loss": 0.3989,
      "step": 1098
    },
    {
      "epoch": 1.1202854230377166,
      "grad_norm": 0.20952387154102325,
      "learning_rate": 0.001,
      "loss": 0.4307,
      "step": 1099
    },
    {
      "epoch": 1.1213047910295617,
      "grad_norm": 0.1999601572751999,
      "learning_rate": 0.001,
      "loss": 0.4478,
      "step": 1100
    },
    {
      "epoch": 1.1223241590214068,
      "grad_norm": 0.26832592487335205,
      "learning_rate": 0.001,
      "loss": 0.4434,
      "step": 1101
    },
    {
      "epoch": 1.1233435270132517,
      "grad_norm": 0.28704071044921875,
      "learning_rate": 0.001,
      "loss": 0.4294,
      "step": 1102
    },
    {
      "epoch": 1.1243628950050968,
      "grad_norm": 0.20118936896324158,
      "learning_rate": 0.001,
      "loss": 0.4172,
      "step": 1103
    },
    {
      "epoch": 1.1253822629969419,
      "grad_norm": 0.5573487877845764,
      "learning_rate": 0.001,
      "loss": 0.4673,
      "step": 1104
    },
    {
      "epoch": 1.126401630988787,
      "grad_norm": 0.39460164308547974,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1105
    },
    {
      "epoch": 1.127420998980632,
      "grad_norm": 0.3846791088581085,
      "learning_rate": 0.001,
      "loss": 0.4387,
      "step": 1106
    },
    {
      "epoch": 1.1284403669724772,
      "grad_norm": 0.4680263102054596,
      "learning_rate": 0.001,
      "loss": 0.4155,
      "step": 1107
    },
    {
      "epoch": 1.129459734964322,
      "grad_norm": 0.21641619503498077,
      "learning_rate": 0.001,
      "loss": 0.4507,
      "step": 1108
    },
    {
      "epoch": 1.1304791029561672,
      "grad_norm": 0.3963853716850281,
      "learning_rate": 0.001,
      "loss": 0.4438,
      "step": 1109
    },
    {
      "epoch": 1.1314984709480123,
      "grad_norm": 0.19960808753967285,
      "learning_rate": 0.001,
      "loss": 0.4028,
      "step": 1110
    },
    {
      "epoch": 1.1325178389398574,
      "grad_norm": 0.3108518719673157,
      "learning_rate": 0.001,
      "loss": 0.4309,
      "step": 1111
    },
    {
      "epoch": 1.1335372069317025,
      "grad_norm": 0.3657858371734619,
      "learning_rate": 0.001,
      "loss": 0.4001,
      "step": 1112
    },
    {
      "epoch": 1.1345565749235473,
      "grad_norm": 0.4275023937225342,
      "learning_rate": 0.001,
      "loss": 0.4229,
      "step": 1113
    },
    {
      "epoch": 1.1355759429153924,
      "grad_norm": 0.370983749628067,
      "learning_rate": 0.001,
      "loss": 0.4363,
      "step": 1114
    },
    {
      "epoch": 1.1365953109072375,
      "grad_norm": 0.3439241051673889,
      "learning_rate": 0.001,
      "loss": 0.4233,
      "step": 1115
    },
    {
      "epoch": 1.1376146788990826,
      "grad_norm": 0.26568111777305603,
      "learning_rate": 0.001,
      "loss": 0.4292,
      "step": 1116
    },
    {
      "epoch": 1.1386340468909277,
      "grad_norm": 0.7347906827926636,
      "learning_rate": 0.001,
      "loss": 0.5012,
      "step": 1117
    },
    {
      "epoch": 1.1396534148827726,
      "grad_norm": 0.3544183671474457,
      "learning_rate": 0.001,
      "loss": 0.4011,
      "step": 1118
    },
    {
      "epoch": 1.1406727828746177,
      "grad_norm": 0.4232839047908783,
      "learning_rate": 0.001,
      "loss": 0.458,
      "step": 1119
    },
    {
      "epoch": 1.1416921508664628,
      "grad_norm": 0.31435030698776245,
      "learning_rate": 0.001,
      "loss": 0.3982,
      "step": 1120
    },
    {
      "epoch": 1.142711518858308,
      "grad_norm": 0.2182227522134781,
      "learning_rate": 0.001,
      "loss": 0.4165,
      "step": 1121
    },
    {
      "epoch": 1.143730886850153,
      "grad_norm": 0.3795296251773834,
      "learning_rate": 0.001,
      "loss": 0.4346,
      "step": 1122
    },
    {
      "epoch": 1.1447502548419979,
      "grad_norm": 0.3317030370235443,
      "learning_rate": 0.001,
      "loss": 0.4036,
      "step": 1123
    },
    {
      "epoch": 1.145769622833843,
      "grad_norm": 0.3674677312374115,
      "learning_rate": 0.001,
      "loss": 0.4421,
      "step": 1124
    },
    {
      "epoch": 1.146788990825688,
      "grad_norm": 0.3812534213066101,
      "learning_rate": 0.001,
      "loss": 0.4968,
      "step": 1125
    },
    {
      "epoch": 1.1478083588175332,
      "grad_norm": 0.356716513633728,
      "learning_rate": 0.001,
      "loss": 0.4089,
      "step": 1126
    },
    {
      "epoch": 1.1488277268093783,
      "grad_norm": 0.3551878333091736,
      "learning_rate": 0.001,
      "loss": 0.3984,
      "step": 1127
    },
    {
      "epoch": 1.1498470948012232,
      "grad_norm": 0.30664074420928955,
      "learning_rate": 0.001,
      "loss": 0.4456,
      "step": 1128
    },
    {
      "epoch": 1.1508664627930683,
      "grad_norm": 0.21117810904979706,
      "learning_rate": 0.001,
      "loss": 0.425,
      "step": 1129
    },
    {
      "epoch": 1.1518858307849134,
      "grad_norm": 0.19217734038829803,
      "learning_rate": 0.001,
      "loss": 0.4304,
      "step": 1130
    },
    {
      "epoch": 1.1529051987767585,
      "grad_norm": 0.35808852314949036,
      "learning_rate": 0.001,
      "loss": 0.4082,
      "step": 1131
    },
    {
      "epoch": 1.1539245667686036,
      "grad_norm": 0.311413437128067,
      "learning_rate": 0.001,
      "loss": 0.4424,
      "step": 1132
    },
    {
      "epoch": 1.1549439347604484,
      "grad_norm": 0.29915547370910645,
      "learning_rate": 0.001,
      "loss": 0.4578,
      "step": 1133
    },
    {
      "epoch": 1.1559633027522935,
      "grad_norm": 0.3834133744239807,
      "learning_rate": 0.001,
      "loss": 0.4314,
      "step": 1134
    },
    {
      "epoch": 1.1569826707441386,
      "grad_norm": 0.19999609887599945,
      "learning_rate": 0.001,
      "loss": 0.4338,
      "step": 1135
    },
    {
      "epoch": 1.1580020387359837,
      "grad_norm": 0.2517923414707184,
      "learning_rate": 0.001,
      "loss": 0.4055,
      "step": 1136
    },
    {
      "epoch": 1.1590214067278288,
      "grad_norm": 0.2603205442428589,
      "learning_rate": 0.001,
      "loss": 0.4219,
      "step": 1137
    },
    {
      "epoch": 1.1600407747196737,
      "grad_norm": 0.18802104890346527,
      "learning_rate": 0.001,
      "loss": 0.405,
      "step": 1138
    },
    {
      "epoch": 1.1610601427115188,
      "grad_norm": 0.34992241859436035,
      "learning_rate": 0.001,
      "loss": 0.4446,
      "step": 1139
    },
    {
      "epoch": 1.162079510703364,
      "grad_norm": 0.23154856264591217,
      "learning_rate": 0.001,
      "loss": 0.4258,
      "step": 1140
    },
    {
      "epoch": 1.163098878695209,
      "grad_norm": 0.2602263391017914,
      "learning_rate": 0.001,
      "loss": 0.3887,
      "step": 1141
    },
    {
      "epoch": 1.164118246687054,
      "grad_norm": 0.305711030960083,
      "learning_rate": 0.001,
      "loss": 0.4207,
      "step": 1142
    },
    {
      "epoch": 1.165137614678899,
      "grad_norm": 0.48016059398651123,
      "learning_rate": 0.001,
      "loss": 0.4443,
      "step": 1143
    },
    {
      "epoch": 1.166156982670744,
      "grad_norm": 0.25778529047966003,
      "learning_rate": 0.001,
      "loss": 0.3975,
      "step": 1144
    },
    {
      "epoch": 1.1671763506625892,
      "grad_norm": 0.3951495289802551,
      "learning_rate": 0.001,
      "loss": 0.4268,
      "step": 1145
    },
    {
      "epoch": 1.1681957186544343,
      "grad_norm": 0.26714470982551575,
      "learning_rate": 0.001,
      "loss": 0.4072,
      "step": 1146
    },
    {
      "epoch": 1.1692150866462794,
      "grad_norm": 0.2704312205314636,
      "learning_rate": 0.001,
      "loss": 0.4126,
      "step": 1147
    },
    {
      "epoch": 1.1702344546381243,
      "grad_norm": 0.36860036849975586,
      "learning_rate": 0.001,
      "loss": 0.5149,
      "step": 1148
    },
    {
      "epoch": 1.1712538226299694,
      "grad_norm": 0.2807815670967102,
      "learning_rate": 0.001,
      "loss": 0.4661,
      "step": 1149
    },
    {
      "epoch": 1.1722731906218145,
      "grad_norm": 0.38330790400505066,
      "learning_rate": 0.001,
      "loss": 0.4453,
      "step": 1150
    },
    {
      "epoch": 1.1732925586136596,
      "grad_norm": 0.3244776427745819,
      "learning_rate": 0.001,
      "loss": 0.429,
      "step": 1151
    },
    {
      "epoch": 1.1743119266055047,
      "grad_norm": 0.4162592887878418,
      "learning_rate": 0.001,
      "loss": 0.4421,
      "step": 1152
    },
    {
      "epoch": 1.1753312945973495,
      "grad_norm": 0.49214285612106323,
      "learning_rate": 0.001,
      "loss": 0.4358,
      "step": 1153
    },
    {
      "epoch": 1.1763506625891946,
      "grad_norm": 0.27666252851486206,
      "learning_rate": 0.001,
      "loss": 0.386,
      "step": 1154
    },
    {
      "epoch": 1.1773700305810397,
      "grad_norm": 0.7630277872085571,
      "learning_rate": 0.001,
      "loss": 0.3992,
      "step": 1155
    },
    {
      "epoch": 1.1783893985728848,
      "grad_norm": 0.514980673789978,
      "learning_rate": 0.001,
      "loss": 0.47,
      "step": 1156
    },
    {
      "epoch": 1.17940876656473,
      "grad_norm": 0.6072706580162048,
      "learning_rate": 0.001,
      "loss": 0.4058,
      "step": 1157
    },
    {
      "epoch": 1.1804281345565748,
      "grad_norm": 0.29977160692214966,
      "learning_rate": 0.001,
      "loss": 0.4072,
      "step": 1158
    },
    {
      "epoch": 1.18144750254842,
      "grad_norm": 0.353402316570282,
      "learning_rate": 0.001,
      "loss": 0.4214,
      "step": 1159
    },
    {
      "epoch": 1.182466870540265,
      "grad_norm": 0.25823333859443665,
      "learning_rate": 0.001,
      "loss": 0.4165,
      "step": 1160
    },
    {
      "epoch": 1.18348623853211,
      "grad_norm": 0.3483324944972992,
      "learning_rate": 0.001,
      "loss": 0.4443,
      "step": 1161
    },
    {
      "epoch": 1.1845056065239552,
      "grad_norm": 0.35169103741645813,
      "learning_rate": 0.001,
      "loss": 0.3999,
      "step": 1162
    },
    {
      "epoch": 1.1855249745158003,
      "grad_norm": 0.40262719988822937,
      "learning_rate": 0.001,
      "loss": 0.3977,
      "step": 1163
    },
    {
      "epoch": 1.1865443425076452,
      "grad_norm": 0.3496367037296295,
      "learning_rate": 0.001,
      "loss": 0.4053,
      "step": 1164
    },
    {
      "epoch": 1.1875637104994903,
      "grad_norm": 0.5051786303520203,
      "learning_rate": 0.001,
      "loss": 0.4363,
      "step": 1165
    },
    {
      "epoch": 1.1885830784913354,
      "grad_norm": 0.34334173798561096,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1166
    },
    {
      "epoch": 1.1896024464831805,
      "grad_norm": 0.3766782581806183,
      "learning_rate": 0.001,
      "loss": 0.4094,
      "step": 1167
    },
    {
      "epoch": 1.1906218144750256,
      "grad_norm": 0.2989283502101898,
      "learning_rate": 0.001,
      "loss": 0.4175,
      "step": 1168
    },
    {
      "epoch": 1.1916411824668705,
      "grad_norm": 0.5319782495498657,
      "learning_rate": 0.001,
      "loss": 0.4753,
      "step": 1169
    },
    {
      "epoch": 1.1926605504587156,
      "grad_norm": 0.35711053013801575,
      "learning_rate": 0.001,
      "loss": 0.3857,
      "step": 1170
    },
    {
      "epoch": 1.1936799184505607,
      "grad_norm": 0.31830641627311707,
      "learning_rate": 0.001,
      "loss": 0.4033,
      "step": 1171
    },
    {
      "epoch": 1.1946992864424058,
      "grad_norm": 0.7968549728393555,
      "learning_rate": 0.001,
      "loss": 0.4885,
      "step": 1172
    },
    {
      "epoch": 1.1957186544342508,
      "grad_norm": 0.23350147902965546,
      "learning_rate": 0.001,
      "loss": 0.4438,
      "step": 1173
    },
    {
      "epoch": 1.1967380224260957,
      "grad_norm": 0.7541236877441406,
      "learning_rate": 0.001,
      "loss": 0.4578,
      "step": 1174
    },
    {
      "epoch": 1.1977573904179408,
      "grad_norm": 0.4977613389492035,
      "learning_rate": 0.001,
      "loss": 0.4263,
      "step": 1175
    },
    {
      "epoch": 1.198776758409786,
      "grad_norm": 0.4092006981372833,
      "learning_rate": 0.001,
      "loss": 0.4563,
      "step": 1176
    },
    {
      "epoch": 1.199796126401631,
      "grad_norm": 0.38385242223739624,
      "learning_rate": 0.001,
      "loss": 0.3826,
      "step": 1177
    },
    {
      "epoch": 1.2008154943934761,
      "grad_norm": 0.22036398947238922,
      "learning_rate": 0.001,
      "loss": 0.3782,
      "step": 1178
    },
    {
      "epoch": 1.2018348623853212,
      "grad_norm": 0.35268503427505493,
      "learning_rate": 0.001,
      "loss": 0.408,
      "step": 1179
    },
    {
      "epoch": 1.202854230377166,
      "grad_norm": 0.3346293270587921,
      "learning_rate": 0.001,
      "loss": 0.4119,
      "step": 1180
    },
    {
      "epoch": 1.2038735983690112,
      "grad_norm": 0.3534388244152069,
      "learning_rate": 0.001,
      "loss": 0.4312,
      "step": 1181
    },
    {
      "epoch": 1.2048929663608563,
      "grad_norm": 0.3746144771575928,
      "learning_rate": 0.001,
      "loss": 0.3591,
      "step": 1182
    },
    {
      "epoch": 1.2059123343527014,
      "grad_norm": 0.3039079010486603,
      "learning_rate": 0.001,
      "loss": 0.3896,
      "step": 1183
    },
    {
      "epoch": 1.2069317023445465,
      "grad_norm": 0.24576157331466675,
      "learning_rate": 0.001,
      "loss": 0.4089,
      "step": 1184
    },
    {
      "epoch": 1.2079510703363914,
      "grad_norm": 0.32425838708877563,
      "learning_rate": 0.001,
      "loss": 0.3896,
      "step": 1185
    },
    {
      "epoch": 1.2089704383282365,
      "grad_norm": 0.19219329953193665,
      "learning_rate": 0.001,
      "loss": 0.3877,
      "step": 1186
    },
    {
      "epoch": 1.2099898063200816,
      "grad_norm": 0.4519221782684326,
      "learning_rate": 0.001,
      "loss": 0.377,
      "step": 1187
    },
    {
      "epoch": 1.2110091743119267,
      "grad_norm": 0.3741273283958435,
      "learning_rate": 0.001,
      "loss": 0.3948,
      "step": 1188
    },
    {
      "epoch": 1.2120285423037718,
      "grad_norm": 0.3673293888568878,
      "learning_rate": 0.001,
      "loss": 0.4165,
      "step": 1189
    },
    {
      "epoch": 1.2130479102956166,
      "grad_norm": 0.36966851353645325,
      "learning_rate": 0.001,
      "loss": 0.4478,
      "step": 1190
    },
    {
      "epoch": 1.2140672782874617,
      "grad_norm": 0.2058054357767105,
      "learning_rate": 0.001,
      "loss": 0.3828,
      "step": 1191
    },
    {
      "epoch": 1.2150866462793068,
      "grad_norm": 0.3167341649532318,
      "learning_rate": 0.001,
      "loss": 0.446,
      "step": 1192
    },
    {
      "epoch": 1.216106014271152,
      "grad_norm": 0.2663213014602661,
      "learning_rate": 0.001,
      "loss": 0.4163,
      "step": 1193
    },
    {
      "epoch": 1.217125382262997,
      "grad_norm": 0.16417577862739563,
      "learning_rate": 0.001,
      "loss": 0.4053,
      "step": 1194
    },
    {
      "epoch": 1.218144750254842,
      "grad_norm": 0.19295161962509155,
      "learning_rate": 0.001,
      "loss": 0.4111,
      "step": 1195
    },
    {
      "epoch": 1.219164118246687,
      "grad_norm": 0.17429830133914948,
      "learning_rate": 0.001,
      "loss": 0.4006,
      "step": 1196
    },
    {
      "epoch": 1.2201834862385321,
      "grad_norm": 0.28628891706466675,
      "learning_rate": 0.001,
      "loss": 0.4419,
      "step": 1197
    },
    {
      "epoch": 1.2212028542303772,
      "grad_norm": 0.27938592433929443,
      "learning_rate": 0.001,
      "loss": 0.3909,
      "step": 1198
    },
    {
      "epoch": 1.2222222222222223,
      "grad_norm": 0.24704128503799438,
      "learning_rate": 0.001,
      "loss": 0.4297,
      "step": 1199
    },
    {
      "epoch": 1.2232415902140672,
      "grad_norm": 0.4633835554122925,
      "learning_rate": 0.001,
      "loss": 0.4453,
      "step": 1200
    },
    {
      "epoch": 1.2242609582059123,
      "grad_norm": 0.38041654229164124,
      "learning_rate": 0.001,
      "loss": 0.4021,
      "step": 1201
    },
    {
      "epoch": 1.2252803261977574,
      "grad_norm": 0.3239123821258545,
      "learning_rate": 0.001,
      "loss": 0.3972,
      "step": 1202
    },
    {
      "epoch": 1.2262996941896025,
      "grad_norm": 0.17536889016628265,
      "learning_rate": 0.001,
      "loss": 0.3984,
      "step": 1203
    },
    {
      "epoch": 1.2273190621814476,
      "grad_norm": 0.39120370149612427,
      "learning_rate": 0.001,
      "loss": 0.4319,
      "step": 1204
    },
    {
      "epoch": 1.2283384301732925,
      "grad_norm": 0.24235419929027557,
      "learning_rate": 0.001,
      "loss": 0.4434,
      "step": 1205
    },
    {
      "epoch": 1.2293577981651376,
      "grad_norm": 0.5187348127365112,
      "learning_rate": 0.001,
      "loss": 0.4426,
      "step": 1206
    },
    {
      "epoch": 1.2303771661569827,
      "grad_norm": 0.4280115067958832,
      "learning_rate": 0.001,
      "loss": 0.4561,
      "step": 1207
    },
    {
      "epoch": 1.2313965341488278,
      "grad_norm": 0.3069550096988678,
      "learning_rate": 0.001,
      "loss": 0.4158,
      "step": 1208
    },
    {
      "epoch": 1.2324159021406729,
      "grad_norm": 0.5322446227073669,
      "learning_rate": 0.001,
      "loss": 0.4119,
      "step": 1209
    },
    {
      "epoch": 1.2334352701325177,
      "grad_norm": 0.3577154874801636,
      "learning_rate": 0.001,
      "loss": 0.3979,
      "step": 1210
    },
    {
      "epoch": 1.2344546381243628,
      "grad_norm": 0.3396648168563843,
      "learning_rate": 0.001,
      "loss": 0.373,
      "step": 1211
    },
    {
      "epoch": 1.235474006116208,
      "grad_norm": 0.5014258027076721,
      "learning_rate": 0.001,
      "loss": 0.4187,
      "step": 1212
    },
    {
      "epoch": 1.236493374108053,
      "grad_norm": 0.37793824076652527,
      "learning_rate": 0.001,
      "loss": 0.4436,
      "step": 1213
    },
    {
      "epoch": 1.2375127420998981,
      "grad_norm": 0.2884526252746582,
      "learning_rate": 0.001,
      "loss": 0.3777,
      "step": 1214
    },
    {
      "epoch": 1.238532110091743,
      "grad_norm": 0.5433850288391113,
      "learning_rate": 0.001,
      "loss": 0.4038,
      "step": 1215
    },
    {
      "epoch": 1.2395514780835881,
      "grad_norm": 0.331382691860199,
      "learning_rate": 0.001,
      "loss": 0.4045,
      "step": 1216
    },
    {
      "epoch": 1.2405708460754332,
      "grad_norm": 0.30688345432281494,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1217
    },
    {
      "epoch": 1.2415902140672783,
      "grad_norm": 0.40703171491622925,
      "learning_rate": 0.001,
      "loss": 0.4004,
      "step": 1218
    },
    {
      "epoch": 1.2426095820591234,
      "grad_norm": 0.5969414114952087,
      "learning_rate": 0.001,
      "loss": 0.4597,
      "step": 1219
    },
    {
      "epoch": 1.2436289500509683,
      "grad_norm": 0.3549642264842987,
      "learning_rate": 0.001,
      "loss": 0.3848,
      "step": 1220
    },
    {
      "epoch": 1.2446483180428134,
      "grad_norm": 0.3227536678314209,
      "learning_rate": 0.001,
      "loss": 0.3853,
      "step": 1221
    },
    {
      "epoch": 1.2456676860346585,
      "grad_norm": 0.5725603103637695,
      "learning_rate": 0.001,
      "loss": 0.4277,
      "step": 1222
    },
    {
      "epoch": 1.2466870540265036,
      "grad_norm": 0.362385094165802,
      "learning_rate": 0.001,
      "loss": 0.4065,
      "step": 1223
    },
    {
      "epoch": 1.2477064220183487,
      "grad_norm": 0.25531041622161865,
      "learning_rate": 0.001,
      "loss": 0.3948,
      "step": 1224
    },
    {
      "epoch": 1.2487257900101936,
      "grad_norm": 0.34607863426208496,
      "learning_rate": 0.001,
      "loss": 0.3833,
      "step": 1225
    },
    {
      "epoch": 1.2497451580020387,
      "grad_norm": 0.35293638706207275,
      "learning_rate": 0.001,
      "loss": 0.4363,
      "step": 1226
    },
    {
      "epoch": 1.2507645259938838,
      "grad_norm": 0.21528926491737366,
      "learning_rate": 0.001,
      "loss": 0.4011,
      "step": 1227
    },
    {
      "epoch": 1.2517838939857289,
      "grad_norm": 0.22400899231433868,
      "learning_rate": 0.001,
      "loss": 0.3972,
      "step": 1228
    },
    {
      "epoch": 1.252803261977574,
      "grad_norm": 0.218577042222023,
      "learning_rate": 0.001,
      "loss": 0.3628,
      "step": 1229
    },
    {
      "epoch": 1.2538226299694188,
      "grad_norm": 0.24013179540634155,
      "learning_rate": 0.001,
      "loss": 0.4226,
      "step": 1230
    },
    {
      "epoch": 1.254841997961264,
      "grad_norm": 0.2783181071281433,
      "learning_rate": 0.001,
      "loss": 0.4126,
      "step": 1231
    },
    {
      "epoch": 1.255861365953109,
      "grad_norm": 0.2681776285171509,
      "learning_rate": 0.001,
      "loss": 0.4392,
      "step": 1232
    },
    {
      "epoch": 1.2568807339449541,
      "grad_norm": 0.24610161781311035,
      "learning_rate": 0.001,
      "loss": 0.4038,
      "step": 1233
    },
    {
      "epoch": 1.2579001019367992,
      "grad_norm": 0.4470173716545105,
      "learning_rate": 0.001,
      "loss": 0.4351,
      "step": 1234
    },
    {
      "epoch": 1.2589194699286441,
      "grad_norm": 0.23444506525993347,
      "learning_rate": 0.001,
      "loss": 0.3641,
      "step": 1235
    },
    {
      "epoch": 1.2599388379204892,
      "grad_norm": 0.25397399067878723,
      "learning_rate": 0.001,
      "loss": 0.425,
      "step": 1236
    },
    {
      "epoch": 1.2609582059123343,
      "grad_norm": 0.32523682713508606,
      "learning_rate": 0.001,
      "loss": 0.3982,
      "step": 1237
    },
    {
      "epoch": 1.2619775739041794,
      "grad_norm": 0.18035133183002472,
      "learning_rate": 0.001,
      "loss": 0.397,
      "step": 1238
    },
    {
      "epoch": 1.2629969418960245,
      "grad_norm": 0.26047003269195557,
      "learning_rate": 0.001,
      "loss": 0.3674,
      "step": 1239
    },
    {
      "epoch": 1.2640163098878694,
      "grad_norm": 0.3594631254673004,
      "learning_rate": 0.001,
      "loss": 0.4072,
      "step": 1240
    },
    {
      "epoch": 1.2650356778797147,
      "grad_norm": 0.250223308801651,
      "learning_rate": 0.001,
      "loss": 0.3528,
      "step": 1241
    },
    {
      "epoch": 1.2660550458715596,
      "grad_norm": 0.32001399993896484,
      "learning_rate": 0.001,
      "loss": 0.4272,
      "step": 1242
    },
    {
      "epoch": 1.2670744138634047,
      "grad_norm": 0.22072505950927734,
      "learning_rate": 0.001,
      "loss": 0.396,
      "step": 1243
    },
    {
      "epoch": 1.2680937818552498,
      "grad_norm": 0.2608928382396698,
      "learning_rate": 0.001,
      "loss": 0.4219,
      "step": 1244
    },
    {
      "epoch": 1.2691131498470947,
      "grad_norm": 0.2564055025577545,
      "learning_rate": 0.001,
      "loss": 0.4016,
      "step": 1245
    },
    {
      "epoch": 1.27013251783894,
      "grad_norm": 0.3157460689544678,
      "learning_rate": 0.001,
      "loss": 0.3962,
      "step": 1246
    },
    {
      "epoch": 1.2711518858307849,
      "grad_norm": 0.15056663751602173,
      "learning_rate": 0.001,
      "loss": 0.3918,
      "step": 1247
    },
    {
      "epoch": 1.27217125382263,
      "grad_norm": 0.7067379355430603,
      "learning_rate": 0.001,
      "loss": 0.3887,
      "step": 1248
    },
    {
      "epoch": 1.273190621814475,
      "grad_norm": 0.41282278299331665,
      "learning_rate": 0.001,
      "loss": 0.4194,
      "step": 1249
    },
    {
      "epoch": 1.2742099898063202,
      "grad_norm": 0.2537846565246582,
      "learning_rate": 0.001,
      "loss": 0.4104,
      "step": 1250
    },
    {
      "epoch": 1.2752293577981653,
      "grad_norm": 0.6055989861488342,
      "learning_rate": 0.001,
      "loss": 0.4138,
      "step": 1251
    },
    {
      "epoch": 1.2762487257900101,
      "grad_norm": 0.3820858597755432,
      "learning_rate": 0.001,
      "loss": 0.4875,
      "step": 1252
    },
    {
      "epoch": 1.2772680937818552,
      "grad_norm": 0.461132675409317,
      "learning_rate": 0.001,
      "loss": 0.4299,
      "step": 1253
    },
    {
      "epoch": 1.2782874617737003,
      "grad_norm": 0.3293392062187195,
      "learning_rate": 0.001,
      "loss": 0.3901,
      "step": 1254
    },
    {
      "epoch": 1.2793068297655454,
      "grad_norm": 0.15506042540073395,
      "learning_rate": 0.001,
      "loss": 0.3811,
      "step": 1255
    },
    {
      "epoch": 1.2803261977573905,
      "grad_norm": 0.35782065987586975,
      "learning_rate": 0.001,
      "loss": 0.4016,
      "step": 1256
    },
    {
      "epoch": 1.2813455657492354,
      "grad_norm": 0.3626289367675781,
      "learning_rate": 0.001,
      "loss": 0.4365,
      "step": 1257
    },
    {
      "epoch": 1.2823649337410805,
      "grad_norm": 0.28190580010414124,
      "learning_rate": 0.001,
      "loss": 0.4248,
      "step": 1258
    },
    {
      "epoch": 1.2833843017329256,
      "grad_norm": 0.24246956408023834,
      "learning_rate": 0.001,
      "loss": 0.3811,
      "step": 1259
    },
    {
      "epoch": 1.2844036697247707,
      "grad_norm": 0.31826916337013245,
      "learning_rate": 0.001,
      "loss": 0.426,
      "step": 1260
    },
    {
      "epoch": 1.2854230377166158,
      "grad_norm": 0.30557388067245483,
      "learning_rate": 0.001,
      "loss": 0.3855,
      "step": 1261
    },
    {
      "epoch": 1.2864424057084607,
      "grad_norm": 0.24381473660469055,
      "learning_rate": 0.001,
      "loss": 0.4153,
      "step": 1262
    },
    {
      "epoch": 1.2874617737003058,
      "grad_norm": 0.28168758749961853,
      "learning_rate": 0.001,
      "loss": 0.4014,
      "step": 1263
    },
    {
      "epoch": 1.2884811416921509,
      "grad_norm": 0.3066900074481964,
      "learning_rate": 0.001,
      "loss": 0.4592,
      "step": 1264
    },
    {
      "epoch": 1.289500509683996,
      "grad_norm": 0.28794530034065247,
      "learning_rate": 0.001,
      "loss": 0.3733,
      "step": 1265
    },
    {
      "epoch": 1.290519877675841,
      "grad_norm": 0.34825950860977173,
      "learning_rate": 0.001,
      "loss": 0.4678,
      "step": 1266
    },
    {
      "epoch": 1.291539245667686,
      "grad_norm": 0.24859213829040527,
      "learning_rate": 0.001,
      "loss": 0.3987,
      "step": 1267
    },
    {
      "epoch": 1.292558613659531,
      "grad_norm": 0.24682894349098206,
      "learning_rate": 0.001,
      "loss": 0.4211,
      "step": 1268
    },
    {
      "epoch": 1.2935779816513762,
      "grad_norm": 0.43379274010658264,
      "learning_rate": 0.001,
      "loss": 0.4128,
      "step": 1269
    },
    {
      "epoch": 1.2945973496432213,
      "grad_norm": 0.31755155324935913,
      "learning_rate": 0.001,
      "loss": 0.381,
      "step": 1270
    },
    {
      "epoch": 1.2956167176350664,
      "grad_norm": 0.20117245614528656,
      "learning_rate": 0.001,
      "loss": 0.3613,
      "step": 1271
    },
    {
      "epoch": 1.2966360856269112,
      "grad_norm": 0.3790138065814972,
      "learning_rate": 0.001,
      "loss": 0.4077,
      "step": 1272
    },
    {
      "epoch": 1.2976554536187563,
      "grad_norm": 0.4213293194770813,
      "learning_rate": 0.001,
      "loss": 0.3848,
      "step": 1273
    },
    {
      "epoch": 1.2986748216106014,
      "grad_norm": 0.3302740752696991,
      "learning_rate": 0.001,
      "loss": 0.4202,
      "step": 1274
    },
    {
      "epoch": 1.2996941896024465,
      "grad_norm": 0.27792108058929443,
      "learning_rate": 0.001,
      "loss": 0.3777,
      "step": 1275
    },
    {
      "epoch": 1.3007135575942916,
      "grad_norm": 0.4446161389350891,
      "learning_rate": 0.001,
      "loss": 0.3774,
      "step": 1276
    },
    {
      "epoch": 1.3017329255861365,
      "grad_norm": 0.2239699363708496,
      "learning_rate": 0.001,
      "loss": 0.3708,
      "step": 1277
    },
    {
      "epoch": 1.3027522935779816,
      "grad_norm": 0.2797316610813141,
      "learning_rate": 0.001,
      "loss": 0.4277,
      "step": 1278
    },
    {
      "epoch": 1.3037716615698267,
      "grad_norm": 0.3498201072216034,
      "learning_rate": 0.001,
      "loss": 0.3972,
      "step": 1279
    },
    {
      "epoch": 1.3047910295616718,
      "grad_norm": 0.18196822702884674,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1280
    },
    {
      "epoch": 1.305810397553517,
      "grad_norm": 0.4574078619480133,
      "learning_rate": 0.001,
      "loss": 0.4475,
      "step": 1281
    },
    {
      "epoch": 1.3068297655453618,
      "grad_norm": 0.4457385838031769,
      "learning_rate": 0.001,
      "loss": 0.4045,
      "step": 1282
    },
    {
      "epoch": 1.3078491335372069,
      "grad_norm": 0.2074642777442932,
      "learning_rate": 0.001,
      "loss": 0.3477,
      "step": 1283
    },
    {
      "epoch": 1.308868501529052,
      "grad_norm": 0.38731303811073303,
      "learning_rate": 0.001,
      "loss": 0.4025,
      "step": 1284
    },
    {
      "epoch": 1.309887869520897,
      "grad_norm": 0.18087320029735565,
      "learning_rate": 0.001,
      "loss": 0.363,
      "step": 1285
    },
    {
      "epoch": 1.3109072375127422,
      "grad_norm": 0.24831628799438477,
      "learning_rate": 0.001,
      "loss": 0.4117,
      "step": 1286
    },
    {
      "epoch": 1.311926605504587,
      "grad_norm": 0.3112289607524872,
      "learning_rate": 0.001,
      "loss": 0.4026,
      "step": 1287
    },
    {
      "epoch": 1.3129459734964322,
      "grad_norm": 0.2876043915748596,
      "learning_rate": 0.001,
      "loss": 0.4207,
      "step": 1288
    },
    {
      "epoch": 1.3139653414882773,
      "grad_norm": 0.46633002161979675,
      "learning_rate": 0.001,
      "loss": 0.4004,
      "step": 1289
    },
    {
      "epoch": 1.3149847094801224,
      "grad_norm": 0.339313805103302,
      "learning_rate": 0.001,
      "loss": 0.3611,
      "step": 1290
    },
    {
      "epoch": 1.3160040774719675,
      "grad_norm": 0.3038172125816345,
      "learning_rate": 0.001,
      "loss": 0.408,
      "step": 1291
    },
    {
      "epoch": 1.3170234454638123,
      "grad_norm": 0.3077290952205658,
      "learning_rate": 0.001,
      "loss": 0.4121,
      "step": 1292
    },
    {
      "epoch": 1.3180428134556574,
      "grad_norm": 0.22692517936229706,
      "learning_rate": 0.001,
      "loss": 0.3704,
      "step": 1293
    },
    {
      "epoch": 1.3190621814475025,
      "grad_norm": 0.18101531267166138,
      "learning_rate": 0.001,
      "loss": 0.3774,
      "step": 1294
    },
    {
      "epoch": 1.3200815494393476,
      "grad_norm": 0.25783610343933105,
      "learning_rate": 0.001,
      "loss": 0.3828,
      "step": 1295
    },
    {
      "epoch": 1.3211009174311927,
      "grad_norm": 0.3045242428779602,
      "learning_rate": 0.001,
      "loss": 0.3627,
      "step": 1296
    },
    {
      "epoch": 1.3221202854230376,
      "grad_norm": 0.42730918526649475,
      "learning_rate": 0.001,
      "loss": 0.3877,
      "step": 1297
    },
    {
      "epoch": 1.3231396534148827,
      "grad_norm": 0.3528684973716736,
      "learning_rate": 0.001,
      "loss": 0.3879,
      "step": 1298
    },
    {
      "epoch": 1.3241590214067278,
      "grad_norm": 0.39989790320396423,
      "learning_rate": 0.001,
      "loss": 0.3716,
      "step": 1299
    },
    {
      "epoch": 1.325178389398573,
      "grad_norm": 0.3770033121109009,
      "learning_rate": 0.001,
      "loss": 0.3628,
      "step": 1300
    },
    {
      "epoch": 1.326197757390418,
      "grad_norm": 0.2848080098628998,
      "learning_rate": 0.001,
      "loss": 0.3628,
      "step": 1301
    },
    {
      "epoch": 1.3272171253822629,
      "grad_norm": 0.3706046938896179,
      "learning_rate": 0.001,
      "loss": 0.4167,
      "step": 1302
    },
    {
      "epoch": 1.328236493374108,
      "grad_norm": 0.23733295500278473,
      "learning_rate": 0.001,
      "loss": 0.3799,
      "step": 1303
    },
    {
      "epoch": 1.329255861365953,
      "grad_norm": 0.31581780314445496,
      "learning_rate": 0.001,
      "loss": 0.3474,
      "step": 1304
    },
    {
      "epoch": 1.3302752293577982,
      "grad_norm": 0.23851604759693146,
      "learning_rate": 0.001,
      "loss": 0.4111,
      "step": 1305
    },
    {
      "epoch": 1.3312945973496433,
      "grad_norm": 0.3337942361831665,
      "learning_rate": 0.001,
      "loss": 0.3992,
      "step": 1306
    },
    {
      "epoch": 1.3323139653414882,
      "grad_norm": 0.38717615604400635,
      "learning_rate": 0.001,
      "loss": 0.4182,
      "step": 1307
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.4185158610343933,
      "learning_rate": 0.001,
      "loss": 0.4573,
      "step": 1308
    },
    {
      "epoch": 1.3343527013251784,
      "grad_norm": 0.3865610957145691,
      "learning_rate": 0.001,
      "loss": 0.3955,
      "step": 1309
    },
    {
      "epoch": 1.3353720693170235,
      "grad_norm": 0.2839323580265045,
      "learning_rate": 0.001,
      "loss": 0.3508,
      "step": 1310
    },
    {
      "epoch": 1.3363914373088686,
      "grad_norm": 0.2802988290786743,
      "learning_rate": 0.001,
      "loss": 0.3923,
      "step": 1311
    },
    {
      "epoch": 1.3374108053007134,
      "grad_norm": 0.5566152930259705,
      "learning_rate": 0.001,
      "loss": 0.354,
      "step": 1312
    },
    {
      "epoch": 1.3384301732925585,
      "grad_norm": 0.5803824663162231,
      "learning_rate": 0.001,
      "loss": 0.376,
      "step": 1313
    },
    {
      "epoch": 1.3394495412844036,
      "grad_norm": 0.3141860365867615,
      "learning_rate": 0.001,
      "loss": 0.377,
      "step": 1314
    },
    {
      "epoch": 1.3404689092762487,
      "grad_norm": 0.4474306106567383,
      "learning_rate": 0.001,
      "loss": 0.4172,
      "step": 1315
    },
    {
      "epoch": 1.3414882772680938,
      "grad_norm": 0.5617190599441528,
      "learning_rate": 0.001,
      "loss": 0.3857,
      "step": 1316
    },
    {
      "epoch": 1.3425076452599387,
      "grad_norm": 0.24143244326114655,
      "learning_rate": 0.001,
      "loss": 0.3524,
      "step": 1317
    },
    {
      "epoch": 1.343527013251784,
      "grad_norm": 0.40612828731536865,
      "learning_rate": 0.001,
      "loss": 0.4224,
      "step": 1318
    },
    {
      "epoch": 1.344546381243629,
      "grad_norm": 0.4354936480522156,
      "learning_rate": 0.001,
      "loss": 0.4424,
      "step": 1319
    },
    {
      "epoch": 1.345565749235474,
      "grad_norm": 0.2546435594558716,
      "learning_rate": 0.001,
      "loss": 0.3987,
      "step": 1320
    },
    {
      "epoch": 1.346585117227319,
      "grad_norm": 0.22023427486419678,
      "learning_rate": 0.001,
      "loss": 0.4211,
      "step": 1321
    },
    {
      "epoch": 1.347604485219164,
      "grad_norm": 0.3386097252368927,
      "learning_rate": 0.001,
      "loss": 0.3821,
      "step": 1322
    },
    {
      "epoch": 1.3486238532110093,
      "grad_norm": 0.34259483218193054,
      "learning_rate": 0.001,
      "loss": 0.354,
      "step": 1323
    },
    {
      "epoch": 1.3496432212028542,
      "grad_norm": 0.3452611267566681,
      "learning_rate": 0.001,
      "loss": 0.4021,
      "step": 1324
    },
    {
      "epoch": 1.3506625891946993,
      "grad_norm": 0.25809207558631897,
      "learning_rate": 0.001,
      "loss": 0.4172,
      "step": 1325
    },
    {
      "epoch": 1.3516819571865444,
      "grad_norm": 0.2919823229312897,
      "learning_rate": 0.001,
      "loss": 0.4099,
      "step": 1326
    },
    {
      "epoch": 1.3527013251783895,
      "grad_norm": 0.46134257316589355,
      "learning_rate": 0.001,
      "loss": 0.38,
      "step": 1327
    },
    {
      "epoch": 1.3537206931702346,
      "grad_norm": 0.2775561511516571,
      "learning_rate": 0.001,
      "loss": 0.4199,
      "step": 1328
    },
    {
      "epoch": 1.3547400611620795,
      "grad_norm": 0.2679470479488373,
      "learning_rate": 0.001,
      "loss": 0.385,
      "step": 1329
    },
    {
      "epoch": 1.3557594291539246,
      "grad_norm": 0.2566048204898834,
      "learning_rate": 0.001,
      "loss": 0.4114,
      "step": 1330
    },
    {
      "epoch": 1.3567787971457697,
      "grad_norm": 0.2681240141391754,
      "learning_rate": 0.001,
      "loss": 0.4121,
      "step": 1331
    },
    {
      "epoch": 1.3577981651376148,
      "grad_norm": 0.38233718276023865,
      "learning_rate": 0.001,
      "loss": 0.3914,
      "step": 1332
    },
    {
      "epoch": 1.3588175331294599,
      "grad_norm": 0.18926246464252472,
      "learning_rate": 0.001,
      "loss": 0.4082,
      "step": 1333
    },
    {
      "epoch": 1.3598369011213047,
      "grad_norm": 0.43150538206100464,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1334
    },
    {
      "epoch": 1.3608562691131498,
      "grad_norm": 0.35758402943611145,
      "learning_rate": 0.001,
      "loss": 0.3521,
      "step": 1335
    },
    {
      "epoch": 1.361875637104995,
      "grad_norm": 0.2983280122280121,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1336
    },
    {
      "epoch": 1.36289500509684,
      "grad_norm": 0.2807177007198334,
      "learning_rate": 0.001,
      "loss": 0.3708,
      "step": 1337
    },
    {
      "epoch": 1.3639143730886851,
      "grad_norm": 0.2742885947227478,
      "learning_rate": 0.001,
      "loss": 0.3794,
      "step": 1338
    },
    {
      "epoch": 1.36493374108053,
      "grad_norm": 0.25416111946105957,
      "learning_rate": 0.001,
      "loss": 0.4148,
      "step": 1339
    },
    {
      "epoch": 1.365953109072375,
      "grad_norm": 0.33497750759124756,
      "learning_rate": 0.001,
      "loss": 0.3672,
      "step": 1340
    },
    {
      "epoch": 1.3669724770642202,
      "grad_norm": 0.2204108089208603,
      "learning_rate": 0.001,
      "loss": 0.3738,
      "step": 1341
    },
    {
      "epoch": 1.3679918450560653,
      "grad_norm": 0.22703780233860016,
      "learning_rate": 0.001,
      "loss": 0.4062,
      "step": 1342
    },
    {
      "epoch": 1.3690112130479104,
      "grad_norm": 0.26184558868408203,
      "learning_rate": 0.001,
      "loss": 0.4241,
      "step": 1343
    },
    {
      "epoch": 1.3700305810397553,
      "grad_norm": 0.32227522134780884,
      "learning_rate": 0.001,
      "loss": 0.3767,
      "step": 1344
    },
    {
      "epoch": 1.3710499490316004,
      "grad_norm": 0.25771695375442505,
      "learning_rate": 0.001,
      "loss": 0.3906,
      "step": 1345
    },
    {
      "epoch": 1.3720693170234455,
      "grad_norm": 0.2953100800514221,
      "learning_rate": 0.001,
      "loss": 0.4092,
      "step": 1346
    },
    {
      "epoch": 1.3730886850152906,
      "grad_norm": 0.26610109210014343,
      "learning_rate": 0.001,
      "loss": 0.3472,
      "step": 1347
    },
    {
      "epoch": 1.3741080530071357,
      "grad_norm": 0.2706625461578369,
      "learning_rate": 0.001,
      "loss": 0.3757,
      "step": 1348
    },
    {
      "epoch": 1.3751274209989806,
      "grad_norm": 0.30047890543937683,
      "learning_rate": 0.001,
      "loss": 0.3577,
      "step": 1349
    },
    {
      "epoch": 1.3761467889908257,
      "grad_norm": 0.22068250179290771,
      "learning_rate": 0.001,
      "loss": 0.4055,
      "step": 1350
    },
    {
      "epoch": 1.3771661569826708,
      "grad_norm": 0.4071601927280426,
      "learning_rate": 0.001,
      "loss": 0.4009,
      "step": 1351
    },
    {
      "epoch": 1.3781855249745159,
      "grad_norm": 0.4532841444015503,
      "learning_rate": 0.001,
      "loss": 0.3857,
      "step": 1352
    },
    {
      "epoch": 1.379204892966361,
      "grad_norm": 0.33254849910736084,
      "learning_rate": 0.001,
      "loss": 0.3702,
      "step": 1353
    },
    {
      "epoch": 1.3802242609582058,
      "grad_norm": 0.43837815523147583,
      "learning_rate": 0.001,
      "loss": 0.3612,
      "step": 1354
    },
    {
      "epoch": 1.381243628950051,
      "grad_norm": 0.36025694012641907,
      "learning_rate": 0.001,
      "loss": 0.3926,
      "step": 1355
    },
    {
      "epoch": 1.382262996941896,
      "grad_norm": 0.3271215260028839,
      "learning_rate": 0.001,
      "loss": 0.4028,
      "step": 1356
    },
    {
      "epoch": 1.3832823649337411,
      "grad_norm": 0.20271947979927063,
      "learning_rate": 0.001,
      "loss": 0.4041,
      "step": 1357
    },
    {
      "epoch": 1.3843017329255862,
      "grad_norm": 0.41247454285621643,
      "learning_rate": 0.001,
      "loss": 0.4163,
      "step": 1358
    },
    {
      "epoch": 1.385321100917431,
      "grad_norm": 0.6497230529785156,
      "learning_rate": 0.001,
      "loss": 0.3994,
      "step": 1359
    },
    {
      "epoch": 1.3863404689092762,
      "grad_norm": 0.31418341398239136,
      "learning_rate": 0.001,
      "loss": 0.3958,
      "step": 1360
    },
    {
      "epoch": 1.3873598369011213,
      "grad_norm": 0.45408204197883606,
      "learning_rate": 0.001,
      "loss": 0.4026,
      "step": 1361
    },
    {
      "epoch": 1.3883792048929664,
      "grad_norm": 0.4563141167163849,
      "learning_rate": 0.001,
      "loss": 0.3519,
      "step": 1362
    },
    {
      "epoch": 1.3893985728848115,
      "grad_norm": 0.37269827723503113,
      "learning_rate": 0.001,
      "loss": 0.363,
      "step": 1363
    },
    {
      "epoch": 1.3904179408766564,
      "grad_norm": 0.2605280578136444,
      "learning_rate": 0.001,
      "loss": 0.3733,
      "step": 1364
    },
    {
      "epoch": 1.3914373088685015,
      "grad_norm": 0.2743806838989258,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1365
    },
    {
      "epoch": 1.3924566768603466,
      "grad_norm": 0.5845760703086853,
      "learning_rate": 0.001,
      "loss": 0.4253,
      "step": 1366
    },
    {
      "epoch": 1.3934760448521917,
      "grad_norm": 0.2831340432167053,
      "learning_rate": 0.001,
      "loss": 0.3958,
      "step": 1367
    },
    {
      "epoch": 1.3944954128440368,
      "grad_norm": 0.33365529775619507,
      "learning_rate": 0.001,
      "loss": 0.4111,
      "step": 1368
    },
    {
      "epoch": 1.3955147808358817,
      "grad_norm": 0.19526663422584534,
      "learning_rate": 0.001,
      "loss": 0.3701,
      "step": 1369
    },
    {
      "epoch": 1.3965341488277268,
      "grad_norm": 0.27925360202789307,
      "learning_rate": 0.001,
      "loss": 0.3845,
      "step": 1370
    },
    {
      "epoch": 1.3975535168195719,
      "grad_norm": 0.283785343170166,
      "learning_rate": 0.001,
      "loss": 0.4255,
      "step": 1371
    },
    {
      "epoch": 1.398572884811417,
      "grad_norm": 0.33970528841018677,
      "learning_rate": 0.001,
      "loss": 0.4238,
      "step": 1372
    },
    {
      "epoch": 1.399592252803262,
      "grad_norm": 0.23700349032878876,
      "learning_rate": 0.001,
      "loss": 0.3875,
      "step": 1373
    },
    {
      "epoch": 1.400611620795107,
      "grad_norm": 0.3160221576690674,
      "learning_rate": 0.001,
      "loss": 0.3787,
      "step": 1374
    },
    {
      "epoch": 1.401630988786952,
      "grad_norm": 0.2726430296897888,
      "learning_rate": 0.001,
      "loss": 0.3269,
      "step": 1375
    },
    {
      "epoch": 1.4026503567787971,
      "grad_norm": 0.4850683808326721,
      "learning_rate": 0.001,
      "loss": 0.3958,
      "step": 1376
    },
    {
      "epoch": 1.4036697247706422,
      "grad_norm": 0.21085116267204285,
      "learning_rate": 0.001,
      "loss": 0.3625,
      "step": 1377
    },
    {
      "epoch": 1.4046890927624873,
      "grad_norm": 0.34876397252082825,
      "learning_rate": 0.001,
      "loss": 0.3928,
      "step": 1378
    },
    {
      "epoch": 1.4057084607543322,
      "grad_norm": 0.49689894914627075,
      "learning_rate": 0.001,
      "loss": 0.3318,
      "step": 1379
    },
    {
      "epoch": 1.4067278287461773,
      "grad_norm": 0.40532058477401733,
      "learning_rate": 0.001,
      "loss": 0.3818,
      "step": 1380
    },
    {
      "epoch": 1.4077471967380224,
      "grad_norm": 0.31925493478775024,
      "learning_rate": 0.001,
      "loss": 0.3843,
      "step": 1381
    },
    {
      "epoch": 1.4087665647298675,
      "grad_norm": 0.6468977332115173,
      "learning_rate": 0.001,
      "loss": 0.4358,
      "step": 1382
    },
    {
      "epoch": 1.4097859327217126,
      "grad_norm": 0.2817738354206085,
      "learning_rate": 0.001,
      "loss": 0.3728,
      "step": 1383
    },
    {
      "epoch": 1.4108053007135575,
      "grad_norm": 0.2176920622587204,
      "learning_rate": 0.001,
      "loss": 0.3604,
      "step": 1384
    },
    {
      "epoch": 1.4118246687054026,
      "grad_norm": 0.19588012993335724,
      "learning_rate": 0.001,
      "loss": 0.3623,
      "step": 1385
    },
    {
      "epoch": 1.4128440366972477,
      "grad_norm": 0.5497972369194031,
      "learning_rate": 0.001,
      "loss": 0.4304,
      "step": 1386
    },
    {
      "epoch": 1.4138634046890928,
      "grad_norm": 0.2116210162639618,
      "learning_rate": 0.001,
      "loss": 0.3779,
      "step": 1387
    },
    {
      "epoch": 1.4148827726809379,
      "grad_norm": 0.2797265350818634,
      "learning_rate": 0.001,
      "loss": 0.4209,
      "step": 1388
    },
    {
      "epoch": 1.4159021406727827,
      "grad_norm": 0.4035502076148987,
      "learning_rate": 0.001,
      "loss": 0.4094,
      "step": 1389
    },
    {
      "epoch": 1.4169215086646278,
      "grad_norm": 0.3937695026397705,
      "learning_rate": 0.001,
      "loss": 0.374,
      "step": 1390
    },
    {
      "epoch": 1.417940876656473,
      "grad_norm": 0.21800079941749573,
      "learning_rate": 0.001,
      "loss": 0.3782,
      "step": 1391
    },
    {
      "epoch": 1.418960244648318,
      "grad_norm": 0.39362242817878723,
      "learning_rate": 0.001,
      "loss": 0.4146,
      "step": 1392
    },
    {
      "epoch": 1.4199796126401631,
      "grad_norm": 0.46299371123313904,
      "learning_rate": 0.001,
      "loss": 0.4263,
      "step": 1393
    },
    {
      "epoch": 1.420998980632008,
      "grad_norm": 0.2476775348186493,
      "learning_rate": 0.001,
      "loss": 0.4373,
      "step": 1394
    },
    {
      "epoch": 1.4220183486238533,
      "grad_norm": 0.34218981862068176,
      "learning_rate": 0.001,
      "loss": 0.386,
      "step": 1395
    },
    {
      "epoch": 1.4230377166156982,
      "grad_norm": 0.48052656650543213,
      "learning_rate": 0.001,
      "loss": 0.4338,
      "step": 1396
    },
    {
      "epoch": 1.4240570846075433,
      "grad_norm": 0.282306432723999,
      "learning_rate": 0.001,
      "loss": 0.3535,
      "step": 1397
    },
    {
      "epoch": 1.4250764525993884,
      "grad_norm": 0.32792437076568604,
      "learning_rate": 0.001,
      "loss": 0.4138,
      "step": 1398
    },
    {
      "epoch": 1.4260958205912333,
      "grad_norm": 0.2735539674758911,
      "learning_rate": 0.001,
      "loss": 0.4031,
      "step": 1399
    },
    {
      "epoch": 1.4271151885830786,
      "grad_norm": 0.33824750781059265,
      "learning_rate": 0.001,
      "loss": 0.3955,
      "step": 1400
    },
    {
      "epoch": 1.4281345565749235,
      "grad_norm": 0.3501523733139038,
      "learning_rate": 0.001,
      "loss": 0.3928,
      "step": 1401
    },
    {
      "epoch": 1.4291539245667686,
      "grad_norm": 0.1984868198633194,
      "learning_rate": 0.001,
      "loss": 0.3848,
      "step": 1402
    },
    {
      "epoch": 1.4301732925586137,
      "grad_norm": 0.2069370448589325,
      "learning_rate": 0.001,
      "loss": 0.3469,
      "step": 1403
    },
    {
      "epoch": 1.4311926605504588,
      "grad_norm": 0.38242247700691223,
      "learning_rate": 0.001,
      "loss": 0.4158,
      "step": 1404
    },
    {
      "epoch": 1.432212028542304,
      "grad_norm": 0.1972695291042328,
      "learning_rate": 0.001,
      "loss": 0.3442,
      "step": 1405
    },
    {
      "epoch": 1.4332313965341488,
      "grad_norm": 0.22915787994861603,
      "learning_rate": 0.001,
      "loss": 0.4163,
      "step": 1406
    },
    {
      "epoch": 1.4342507645259939,
      "grad_norm": 0.15860478579998016,
      "learning_rate": 0.001,
      "loss": 0.3457,
      "step": 1407
    },
    {
      "epoch": 1.435270132517839,
      "grad_norm": 0.3762798011302948,
      "learning_rate": 0.001,
      "loss": 0.3877,
      "step": 1408
    },
    {
      "epoch": 1.436289500509684,
      "grad_norm": 0.2869202196598053,
      "learning_rate": 0.001,
      "loss": 0.3706,
      "step": 1409
    },
    {
      "epoch": 1.4373088685015292,
      "grad_norm": 0.2882141172885895,
      "learning_rate": 0.001,
      "loss": 0.3596,
      "step": 1410
    },
    {
      "epoch": 1.438328236493374,
      "grad_norm": 0.4060651361942291,
      "learning_rate": 0.001,
      "loss": 0.3887,
      "step": 1411
    },
    {
      "epoch": 1.4393476044852191,
      "grad_norm": 0.29041948914527893,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1412
    },
    {
      "epoch": 1.4403669724770642,
      "grad_norm": 0.23390445113182068,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1413
    },
    {
      "epoch": 1.4413863404689093,
      "grad_norm": 0.318403959274292,
      "learning_rate": 0.001,
      "loss": 0.3867,
      "step": 1414
    },
    {
      "epoch": 1.4424057084607544,
      "grad_norm": 0.21492595970630646,
      "learning_rate": 0.001,
      "loss": 0.3799,
      "step": 1415
    },
    {
      "epoch": 1.4434250764525993,
      "grad_norm": 0.45635709166526794,
      "learning_rate": 0.001,
      "loss": 0.3923,
      "step": 1416
    },
    {
      "epoch": 1.4444444444444444,
      "grad_norm": 0.27544450759887695,
      "learning_rate": 0.001,
      "loss": 0.3574,
      "step": 1417
    },
    {
      "epoch": 1.4454638124362895,
      "grad_norm": 0.19546367228031158,
      "learning_rate": 0.001,
      "loss": 0.4009,
      "step": 1418
    },
    {
      "epoch": 1.4464831804281346,
      "grad_norm": 0.20468173921108246,
      "learning_rate": 0.001,
      "loss": 0.4105,
      "step": 1419
    },
    {
      "epoch": 1.4475025484199797,
      "grad_norm": 0.2829025387763977,
      "learning_rate": 0.001,
      "loss": 0.3965,
      "step": 1420
    },
    {
      "epoch": 1.4485219164118246,
      "grad_norm": 0.24282844364643097,
      "learning_rate": 0.001,
      "loss": 0.3848,
      "step": 1421
    },
    {
      "epoch": 1.4495412844036697,
      "grad_norm": 0.24901556968688965,
      "learning_rate": 0.001,
      "loss": 0.3882,
      "step": 1422
    },
    {
      "epoch": 1.4505606523955148,
      "grad_norm": 0.2573360204696655,
      "learning_rate": 0.001,
      "loss": 0.3914,
      "step": 1423
    },
    {
      "epoch": 1.45158002038736,
      "grad_norm": 0.2554522752761841,
      "learning_rate": 0.001,
      "loss": 0.4204,
      "step": 1424
    },
    {
      "epoch": 1.452599388379205,
      "grad_norm": 0.3561512231826782,
      "learning_rate": 0.001,
      "loss": 0.3955,
      "step": 1425
    },
    {
      "epoch": 1.4536187563710499,
      "grad_norm": 0.22157447040081024,
      "learning_rate": 0.001,
      "loss": 0.3916,
      "step": 1426
    },
    {
      "epoch": 1.454638124362895,
      "grad_norm": 0.2553609609603882,
      "learning_rate": 0.001,
      "loss": 0.3828,
      "step": 1427
    },
    {
      "epoch": 1.45565749235474,
      "grad_norm": 0.2381865382194519,
      "learning_rate": 0.001,
      "loss": 0.3813,
      "step": 1428
    },
    {
      "epoch": 1.4566768603465852,
      "grad_norm": 0.27927643060684204,
      "learning_rate": 0.001,
      "loss": 0.3589,
      "step": 1429
    },
    {
      "epoch": 1.4576962283384303,
      "grad_norm": 0.210397407412529,
      "learning_rate": 0.001,
      "loss": 0.3507,
      "step": 1430
    },
    {
      "epoch": 1.4587155963302751,
      "grad_norm": 0.2655499279499054,
      "learning_rate": 0.001,
      "loss": 0.3484,
      "step": 1431
    },
    {
      "epoch": 1.4597349643221202,
      "grad_norm": 0.3133065104484558,
      "learning_rate": 0.001,
      "loss": 0.3744,
      "step": 1432
    },
    {
      "epoch": 1.4607543323139653,
      "grad_norm": 0.2616109549999237,
      "learning_rate": 0.001,
      "loss": 0.3967,
      "step": 1433
    },
    {
      "epoch": 1.4617737003058104,
      "grad_norm": 0.23398339748382568,
      "learning_rate": 0.001,
      "loss": 0.4099,
      "step": 1434
    },
    {
      "epoch": 1.4627930682976555,
      "grad_norm": 0.2587187886238098,
      "learning_rate": 0.001,
      "loss": 0.3835,
      "step": 1435
    },
    {
      "epoch": 1.4638124362895004,
      "grad_norm": 0.2858119010925293,
      "learning_rate": 0.001,
      "loss": 0.4045,
      "step": 1436
    },
    {
      "epoch": 1.4648318042813455,
      "grad_norm": 0.14284801483154297,
      "learning_rate": 0.001,
      "loss": 0.3298,
      "step": 1437
    },
    {
      "epoch": 1.4658511722731906,
      "grad_norm": 0.19372622668743134,
      "learning_rate": 0.001,
      "loss": 0.3752,
      "step": 1438
    },
    {
      "epoch": 1.4668705402650357,
      "grad_norm": 0.3534019887447357,
      "learning_rate": 0.001,
      "loss": 0.3425,
      "step": 1439
    },
    {
      "epoch": 1.4678899082568808,
      "grad_norm": 0.24345728754997253,
      "learning_rate": 0.001,
      "loss": 0.3884,
      "step": 1440
    },
    {
      "epoch": 1.4689092762487257,
      "grad_norm": 0.21309059858322144,
      "learning_rate": 0.001,
      "loss": 0.3789,
      "step": 1441
    },
    {
      "epoch": 1.4699286442405708,
      "grad_norm": 0.2839648425579071,
      "learning_rate": 0.001,
      "loss": 0.3755,
      "step": 1442
    },
    {
      "epoch": 1.470948012232416,
      "grad_norm": 0.2548297345638275,
      "learning_rate": 0.001,
      "loss": 0.3574,
      "step": 1443
    },
    {
      "epoch": 1.471967380224261,
      "grad_norm": 0.3159361183643341,
      "learning_rate": 0.001,
      "loss": 0.3699,
      "step": 1444
    },
    {
      "epoch": 1.472986748216106,
      "grad_norm": 0.35572513937950134,
      "learning_rate": 0.001,
      "loss": 0.3767,
      "step": 1445
    },
    {
      "epoch": 1.474006116207951,
      "grad_norm": 0.3627837002277374,
      "learning_rate": 0.001,
      "loss": 0.3535,
      "step": 1446
    },
    {
      "epoch": 1.475025484199796,
      "grad_norm": 0.32680773735046387,
      "learning_rate": 0.001,
      "loss": 0.3657,
      "step": 1447
    },
    {
      "epoch": 1.4760448521916412,
      "grad_norm": 0.26918452978134155,
      "learning_rate": 0.001,
      "loss": 0.3535,
      "step": 1448
    },
    {
      "epoch": 1.4770642201834863,
      "grad_norm": 0.3240036070346832,
      "learning_rate": 0.001,
      "loss": 0.3596,
      "step": 1449
    },
    {
      "epoch": 1.4780835881753314,
      "grad_norm": 0.27104535698890686,
      "learning_rate": 0.001,
      "loss": 0.382,
      "step": 1450
    },
    {
      "epoch": 1.4791029561671762,
      "grad_norm": 0.2741245925426483,
      "learning_rate": 0.001,
      "loss": 0.3589,
      "step": 1451
    },
    {
      "epoch": 1.4801223241590213,
      "grad_norm": 0.3587099313735962,
      "learning_rate": 0.001,
      "loss": 0.3892,
      "step": 1452
    },
    {
      "epoch": 1.4811416921508664,
      "grad_norm": 0.20401491224765778,
      "learning_rate": 0.001,
      "loss": 0.3331,
      "step": 1453
    },
    {
      "epoch": 1.4821610601427115,
      "grad_norm": 0.37270238995552063,
      "learning_rate": 0.001,
      "loss": 0.4053,
      "step": 1454
    },
    {
      "epoch": 1.4831804281345566,
      "grad_norm": 0.4080389142036438,
      "learning_rate": 0.001,
      "loss": 0.3743,
      "step": 1455
    },
    {
      "epoch": 1.4841997961264015,
      "grad_norm": 0.38790732622146606,
      "learning_rate": 0.001,
      "loss": 0.3706,
      "step": 1456
    },
    {
      "epoch": 1.4852191641182466,
      "grad_norm": 0.45709478855133057,
      "learning_rate": 0.001,
      "loss": 0.3921,
      "step": 1457
    },
    {
      "epoch": 1.4862385321100917,
      "grad_norm": 0.221368670463562,
      "learning_rate": 0.001,
      "loss": 0.3279,
      "step": 1458
    },
    {
      "epoch": 1.4872579001019368,
      "grad_norm": 0.47640368342399597,
      "learning_rate": 0.001,
      "loss": 0.3704,
      "step": 1459
    },
    {
      "epoch": 1.488277268093782,
      "grad_norm": 0.32507696747779846,
      "learning_rate": 0.001,
      "loss": 0.3721,
      "step": 1460
    },
    {
      "epoch": 1.4892966360856268,
      "grad_norm": 0.3065204322338104,
      "learning_rate": 0.001,
      "loss": 0.3296,
      "step": 1461
    },
    {
      "epoch": 1.490316004077472,
      "grad_norm": 0.30636632442474365,
      "learning_rate": 0.001,
      "loss": 0.3682,
      "step": 1462
    },
    {
      "epoch": 1.491335372069317,
      "grad_norm": 0.27604424953460693,
      "learning_rate": 0.001,
      "loss": 0.3718,
      "step": 1463
    },
    {
      "epoch": 1.492354740061162,
      "grad_norm": 0.3075956106185913,
      "learning_rate": 0.001,
      "loss": 0.377,
      "step": 1464
    },
    {
      "epoch": 1.4933741080530072,
      "grad_norm": 0.29338476061820984,
      "learning_rate": 0.001,
      "loss": 0.3691,
      "step": 1465
    },
    {
      "epoch": 1.494393476044852,
      "grad_norm": 0.2428305745124817,
      "learning_rate": 0.001,
      "loss": 0.4077,
      "step": 1466
    },
    {
      "epoch": 1.4954128440366974,
      "grad_norm": 0.43045535683631897,
      "learning_rate": 0.001,
      "loss": 0.3674,
      "step": 1467
    },
    {
      "epoch": 1.4964322120285423,
      "grad_norm": 0.46438512206077576,
      "learning_rate": 0.001,
      "loss": 0.3684,
      "step": 1468
    },
    {
      "epoch": 1.4974515800203874,
      "grad_norm": 0.2697553336620331,
      "learning_rate": 0.001,
      "loss": 0.3752,
      "step": 1469
    },
    {
      "epoch": 1.4984709480122325,
      "grad_norm": 0.2117174118757248,
      "learning_rate": 0.001,
      "loss": 0.3521,
      "step": 1470
    },
    {
      "epoch": 1.4994903160040773,
      "grad_norm": 0.21704241633415222,
      "learning_rate": 0.001,
      "loss": 0.3477,
      "step": 1471
    },
    {
      "epoch": 1.5005096839959227,
      "grad_norm": 0.288525253534317,
      "learning_rate": 0.001,
      "loss": 0.3882,
      "step": 1472
    },
    {
      "epoch": 1.5015290519877675,
      "grad_norm": 0.20855118334293365,
      "learning_rate": 0.001,
      "loss": 0.3762,
      "step": 1473
    },
    {
      "epoch": 1.5025484199796126,
      "grad_norm": 0.2562703490257263,
      "learning_rate": 0.001,
      "loss": 0.3618,
      "step": 1474
    },
    {
      "epoch": 1.5035677879714577,
      "grad_norm": 0.29376983642578125,
      "learning_rate": 0.001,
      "loss": 0.3726,
      "step": 1475
    },
    {
      "epoch": 1.5045871559633026,
      "grad_norm": 0.3384416401386261,
      "learning_rate": 0.001,
      "loss": 0.376,
      "step": 1476
    },
    {
      "epoch": 1.505606523955148,
      "grad_norm": 0.27708539366722107,
      "learning_rate": 0.001,
      "loss": 0.4104,
      "step": 1477
    },
    {
      "epoch": 1.5066258919469928,
      "grad_norm": 0.3500164747238159,
      "learning_rate": 0.001,
      "loss": 0.3606,
      "step": 1478
    },
    {
      "epoch": 1.507645259938838,
      "grad_norm": 0.46573346853256226,
      "learning_rate": 0.001,
      "loss": 0.3391,
      "step": 1479
    },
    {
      "epoch": 1.508664627930683,
      "grad_norm": 0.22937758266925812,
      "learning_rate": 0.001,
      "loss": 0.4194,
      "step": 1480
    },
    {
      "epoch": 1.5096839959225279,
      "grad_norm": 0.22367948293685913,
      "learning_rate": 0.001,
      "loss": 0.3838,
      "step": 1481
    },
    {
      "epoch": 1.5107033639143732,
      "grad_norm": 0.45558807253837585,
      "learning_rate": 0.001,
      "loss": 0.3843,
      "step": 1482
    },
    {
      "epoch": 1.511722731906218,
      "grad_norm": 0.28433263301849365,
      "learning_rate": 0.001,
      "loss": 0.4058,
      "step": 1483
    },
    {
      "epoch": 1.5127420998980632,
      "grad_norm": 0.19413818418979645,
      "learning_rate": 0.001,
      "loss": 0.3264,
      "step": 1484
    },
    {
      "epoch": 1.5137614678899083,
      "grad_norm": 0.4302915930747986,
      "learning_rate": 0.001,
      "loss": 0.3674,
      "step": 1485
    },
    {
      "epoch": 1.5147808358817532,
      "grad_norm": 0.39188191294670105,
      "learning_rate": 0.001,
      "loss": 0.3597,
      "step": 1486
    },
    {
      "epoch": 1.5158002038735985,
      "grad_norm": 0.3972465693950653,
      "learning_rate": 0.001,
      "loss": 0.4133,
      "step": 1487
    },
    {
      "epoch": 1.5168195718654434,
      "grad_norm": 0.3123852014541626,
      "learning_rate": 0.001,
      "loss": 0.3704,
      "step": 1488
    },
    {
      "epoch": 1.5178389398572885,
      "grad_norm": 0.287791907787323,
      "learning_rate": 0.001,
      "loss": 0.3718,
      "step": 1489
    },
    {
      "epoch": 1.5188583078491336,
      "grad_norm": 0.45604681968688965,
      "learning_rate": 0.001,
      "loss": 0.4238,
      "step": 1490
    },
    {
      "epoch": 1.5198776758409784,
      "grad_norm": 0.2779705226421356,
      "learning_rate": 0.001,
      "loss": 0.3663,
      "step": 1491
    },
    {
      "epoch": 1.5208970438328238,
      "grad_norm": 0.26289764046669006,
      "learning_rate": 0.001,
      "loss": 0.364,
      "step": 1492
    },
    {
      "epoch": 1.5219164118246686,
      "grad_norm": 0.4975239336490631,
      "learning_rate": 0.001,
      "loss": 0.3926,
      "step": 1493
    },
    {
      "epoch": 1.5229357798165137,
      "grad_norm": 0.31223854422569275,
      "learning_rate": 0.001,
      "loss": 0.3428,
      "step": 1494
    },
    {
      "epoch": 1.5239551478083588,
      "grad_norm": 0.19521662592887878,
      "learning_rate": 0.001,
      "loss": 0.3544,
      "step": 1495
    },
    {
      "epoch": 1.5249745158002037,
      "grad_norm": 0.22052468359470367,
      "learning_rate": 0.001,
      "loss": 0.3699,
      "step": 1496
    },
    {
      "epoch": 1.525993883792049,
      "grad_norm": 0.37569865584373474,
      "learning_rate": 0.001,
      "loss": 0.3511,
      "step": 1497
    },
    {
      "epoch": 1.527013251783894,
      "grad_norm": 0.2426510602235794,
      "learning_rate": 0.001,
      "loss": 0.3491,
      "step": 1498
    },
    {
      "epoch": 1.528032619775739,
      "grad_norm": 0.22326546907424927,
      "learning_rate": 0.001,
      "loss": 0.3503,
      "step": 1499
    },
    {
      "epoch": 1.529051987767584,
      "grad_norm": 0.26162779331207275,
      "learning_rate": 0.001,
      "loss": 0.3433,
      "step": 1500
    },
    {
      "epoch": 1.5300713557594292,
      "grad_norm": 0.3475930094718933,
      "learning_rate": 0.001,
      "loss": 0.3494,
      "step": 1501
    },
    {
      "epoch": 1.5310907237512743,
      "grad_norm": 0.2357499897480011,
      "learning_rate": 0.001,
      "loss": 0.3267,
      "step": 1502
    },
    {
      "epoch": 1.5321100917431192,
      "grad_norm": 0.23289909958839417,
      "learning_rate": 0.001,
      "loss": 0.3252,
      "step": 1503
    },
    {
      "epoch": 1.5331294597349643,
      "grad_norm": 0.44433698058128357,
      "learning_rate": 0.001,
      "loss": 0.3965,
      "step": 1504
    },
    {
      "epoch": 1.5341488277268094,
      "grad_norm": 0.21100081503391266,
      "learning_rate": 0.001,
      "loss": 0.3506,
      "step": 1505
    },
    {
      "epoch": 1.5351681957186545,
      "grad_norm": 0.39762595295906067,
      "learning_rate": 0.001,
      "loss": 0.3704,
      "step": 1506
    },
    {
      "epoch": 1.5361875637104996,
      "grad_norm": 0.26102662086486816,
      "learning_rate": 0.001,
      "loss": 0.3538,
      "step": 1507
    },
    {
      "epoch": 1.5372069317023445,
      "grad_norm": 0.3164350688457489,
      "learning_rate": 0.001,
      "loss": 0.3453,
      "step": 1508
    },
    {
      "epoch": 1.5382262996941896,
      "grad_norm": 0.21686147153377533,
      "learning_rate": 0.001,
      "loss": 0.3469,
      "step": 1509
    },
    {
      "epoch": 1.5392456676860347,
      "grad_norm": 0.34221217036247253,
      "learning_rate": 0.001,
      "loss": 0.3701,
      "step": 1510
    },
    {
      "epoch": 1.5402650356778798,
      "grad_norm": 0.3469657599925995,
      "learning_rate": 0.001,
      "loss": 0.3777,
      "step": 1511
    },
    {
      "epoch": 1.5412844036697249,
      "grad_norm": 0.2512322664260864,
      "learning_rate": 0.001,
      "loss": 0.3376,
      "step": 1512
    },
    {
      "epoch": 1.5423037716615697,
      "grad_norm": 0.25839096307754517,
      "learning_rate": 0.001,
      "loss": 0.3579,
      "step": 1513
    },
    {
      "epoch": 1.5433231396534148,
      "grad_norm": 0.3104199767112732,
      "learning_rate": 0.001,
      "loss": 0.3611,
      "step": 1514
    },
    {
      "epoch": 1.54434250764526,
      "grad_norm": 0.31479281187057495,
      "learning_rate": 0.001,
      "loss": 0.3865,
      "step": 1515
    },
    {
      "epoch": 1.545361875637105,
      "grad_norm": 0.2932867705821991,
      "learning_rate": 0.001,
      "loss": 0.3572,
      "step": 1516
    },
    {
      "epoch": 1.5463812436289501,
      "grad_norm": 0.2663731575012207,
      "learning_rate": 0.001,
      "loss": 0.355,
      "step": 1517
    },
    {
      "epoch": 1.547400611620795,
      "grad_norm": 0.22491805255413055,
      "learning_rate": 0.001,
      "loss": 0.3035,
      "step": 1518
    },
    {
      "epoch": 1.5484199796126403,
      "grad_norm": 0.31545835733413696,
      "learning_rate": 0.001,
      "loss": 0.4016,
      "step": 1519
    },
    {
      "epoch": 1.5494393476044852,
      "grad_norm": 0.4135066270828247,
      "learning_rate": 0.001,
      "loss": 0.3521,
      "step": 1520
    },
    {
      "epoch": 1.5504587155963303,
      "grad_norm": 0.3115047812461853,
      "learning_rate": 0.001,
      "loss": 0.386,
      "step": 1521
    },
    {
      "epoch": 1.5514780835881754,
      "grad_norm": 0.20178624987602234,
      "learning_rate": 0.001,
      "loss": 0.3289,
      "step": 1522
    },
    {
      "epoch": 1.5524974515800203,
      "grad_norm": 0.3321286141872406,
      "learning_rate": 0.001,
      "loss": 0.3638,
      "step": 1523
    },
    {
      "epoch": 1.5535168195718656,
      "grad_norm": 0.307319313287735,
      "learning_rate": 0.001,
      "loss": 0.3516,
      "step": 1524
    },
    {
      "epoch": 1.5545361875637105,
      "grad_norm": 0.2213876098394394,
      "learning_rate": 0.001,
      "loss": 0.3618,
      "step": 1525
    },
    {
      "epoch": 1.5555555555555556,
      "grad_norm": 0.2316807210445404,
      "learning_rate": 0.001,
      "loss": 0.3296,
      "step": 1526
    },
    {
      "epoch": 1.5565749235474007,
      "grad_norm": 0.27591779828071594,
      "learning_rate": 0.001,
      "loss": 0.3447,
      "step": 1527
    },
    {
      "epoch": 1.5575942915392456,
      "grad_norm": 0.3742004334926605,
      "learning_rate": 0.001,
      "loss": 0.3777,
      "step": 1528
    },
    {
      "epoch": 1.5586136595310909,
      "grad_norm": 0.320991188287735,
      "learning_rate": 0.001,
      "loss": 0.3357,
      "step": 1529
    },
    {
      "epoch": 1.5596330275229358,
      "grad_norm": 0.34247151017189026,
      "learning_rate": 0.001,
      "loss": 0.3384,
      "step": 1530
    },
    {
      "epoch": 1.5606523955147809,
      "grad_norm": 0.29183250665664673,
      "learning_rate": 0.001,
      "loss": 0.3159,
      "step": 1531
    },
    {
      "epoch": 1.561671763506626,
      "grad_norm": 0.26493409276008606,
      "learning_rate": 0.001,
      "loss": 0.316,
      "step": 1532
    },
    {
      "epoch": 1.5626911314984708,
      "grad_norm": 0.3196467161178589,
      "learning_rate": 0.001,
      "loss": 0.3979,
      "step": 1533
    },
    {
      "epoch": 1.5637104994903162,
      "grad_norm": 0.19586245715618134,
      "learning_rate": 0.001,
      "loss": 0.3232,
      "step": 1534
    },
    {
      "epoch": 1.564729867482161,
      "grad_norm": 0.3862011730670929,
      "learning_rate": 0.001,
      "loss": 0.3994,
      "step": 1535
    },
    {
      "epoch": 1.5657492354740061,
      "grad_norm": 0.22813419997692108,
      "learning_rate": 0.001,
      "loss": 0.3423,
      "step": 1536
    },
    {
      "epoch": 1.5667686034658512,
      "grad_norm": 0.27932342886924744,
      "learning_rate": 0.001,
      "loss": 0.3627,
      "step": 1537
    },
    {
      "epoch": 1.567787971457696,
      "grad_norm": 0.5021737217903137,
      "learning_rate": 0.001,
      "loss": 0.3352,
      "step": 1538
    },
    {
      "epoch": 1.5688073394495414,
      "grad_norm": 0.33813995122909546,
      "learning_rate": 0.001,
      "loss": 0.3264,
      "step": 1539
    },
    {
      "epoch": 1.5698267074413863,
      "grad_norm": 0.19259943068027496,
      "learning_rate": 0.001,
      "loss": 0.3602,
      "step": 1540
    },
    {
      "epoch": 1.5708460754332314,
      "grad_norm": 0.3701062798500061,
      "learning_rate": 0.001,
      "loss": 0.3179,
      "step": 1541
    },
    {
      "epoch": 1.5718654434250765,
      "grad_norm": 0.4970618486404419,
      "learning_rate": 0.001,
      "loss": 0.3833,
      "step": 1542
    },
    {
      "epoch": 1.5728848114169214,
      "grad_norm": 0.31545373797416687,
      "learning_rate": 0.001,
      "loss": 0.3417,
      "step": 1543
    },
    {
      "epoch": 1.5739041794087667,
      "grad_norm": 0.5053482055664062,
      "learning_rate": 0.001,
      "loss": 0.3583,
      "step": 1544
    },
    {
      "epoch": 1.5749235474006116,
      "grad_norm": 0.5030910968780518,
      "learning_rate": 0.001,
      "loss": 0.4099,
      "step": 1545
    },
    {
      "epoch": 1.5759429153924567,
      "grad_norm": 0.5652707815170288,
      "learning_rate": 0.001,
      "loss": 0.365,
      "step": 1546
    },
    {
      "epoch": 1.5769622833843018,
      "grad_norm": 0.493895560503006,
      "learning_rate": 0.001,
      "loss": 0.3723,
      "step": 1547
    },
    {
      "epoch": 1.5779816513761467,
      "grad_norm": 0.26732364296913147,
      "learning_rate": 0.001,
      "loss": 0.3201,
      "step": 1548
    },
    {
      "epoch": 1.579001019367992,
      "grad_norm": 0.44207242131233215,
      "learning_rate": 0.001,
      "loss": 0.394,
      "step": 1549
    },
    {
      "epoch": 1.5800203873598369,
      "grad_norm": 0.3244496285915375,
      "learning_rate": 0.001,
      "loss": 0.3704,
      "step": 1550
    },
    {
      "epoch": 1.581039755351682,
      "grad_norm": 0.44373658299446106,
      "learning_rate": 0.001,
      "loss": 0.3584,
      "step": 1551
    },
    {
      "epoch": 1.582059123343527,
      "grad_norm": 0.46732041239738464,
      "learning_rate": 0.001,
      "loss": 0.3582,
      "step": 1552
    },
    {
      "epoch": 1.583078491335372,
      "grad_norm": 0.2757453918457031,
      "learning_rate": 0.001,
      "loss": 0.3557,
      "step": 1553
    },
    {
      "epoch": 1.5840978593272173,
      "grad_norm": 0.2908925414085388,
      "learning_rate": 0.001,
      "loss": 0.3456,
      "step": 1554
    },
    {
      "epoch": 1.5851172273190621,
      "grad_norm": 0.6293584704399109,
      "learning_rate": 0.001,
      "loss": 0.3301,
      "step": 1555
    },
    {
      "epoch": 1.5861365953109072,
      "grad_norm": 0.4211013615131378,
      "learning_rate": 0.001,
      "loss": 0.3489,
      "step": 1556
    },
    {
      "epoch": 1.5871559633027523,
      "grad_norm": 0.3414563536643982,
      "learning_rate": 0.001,
      "loss": 0.3779,
      "step": 1557
    },
    {
      "epoch": 1.5881753312945972,
      "grad_norm": 0.3078431785106659,
      "learning_rate": 0.001,
      "loss": 0.3394,
      "step": 1558
    },
    {
      "epoch": 1.5891946992864425,
      "grad_norm": 0.6400949358940125,
      "learning_rate": 0.001,
      "loss": 0.3818,
      "step": 1559
    },
    {
      "epoch": 1.5902140672782874,
      "grad_norm": 0.4429337978363037,
      "learning_rate": 0.001,
      "loss": 0.356,
      "step": 1560
    },
    {
      "epoch": 1.5912334352701325,
      "grad_norm": 0.2656189203262329,
      "learning_rate": 0.001,
      "loss": 0.3796,
      "step": 1561
    },
    {
      "epoch": 1.5922528032619776,
      "grad_norm": 0.4292354881763458,
      "learning_rate": 0.001,
      "loss": 0.3655,
      "step": 1562
    },
    {
      "epoch": 1.5932721712538225,
      "grad_norm": 0.6310919523239136,
      "learning_rate": 0.001,
      "loss": 0.3522,
      "step": 1563
    },
    {
      "epoch": 1.5942915392456678,
      "grad_norm": 0.35653620958328247,
      "learning_rate": 0.001,
      "loss": 0.3418,
      "step": 1564
    },
    {
      "epoch": 1.5953109072375127,
      "grad_norm": 0.1924935132265091,
      "learning_rate": 0.001,
      "loss": 0.3438,
      "step": 1565
    },
    {
      "epoch": 1.5963302752293578,
      "grad_norm": 0.3170577883720398,
      "learning_rate": 0.001,
      "loss": 0.3613,
      "step": 1566
    },
    {
      "epoch": 1.5973496432212029,
      "grad_norm": 0.4658411145210266,
      "learning_rate": 0.001,
      "loss": 0.3933,
      "step": 1567
    },
    {
      "epoch": 1.5983690112130478,
      "grad_norm": 0.4987098276615143,
      "learning_rate": 0.001,
      "loss": 0.376,
      "step": 1568
    },
    {
      "epoch": 1.599388379204893,
      "grad_norm": 0.26503288745880127,
      "learning_rate": 0.001,
      "loss": 0.3501,
      "step": 1569
    },
    {
      "epoch": 1.600407747196738,
      "grad_norm": 0.41386640071868896,
      "learning_rate": 0.001,
      "loss": 0.385,
      "step": 1570
    },
    {
      "epoch": 1.601427115188583,
      "grad_norm": 0.33035188913345337,
      "learning_rate": 0.001,
      "loss": 0.3259,
      "step": 1571
    },
    {
      "epoch": 1.6024464831804281,
      "grad_norm": 0.18557864427566528,
      "learning_rate": 0.001,
      "loss": 0.328,
      "step": 1572
    },
    {
      "epoch": 1.603465851172273,
      "grad_norm": 0.22300641238689423,
      "learning_rate": 0.001,
      "loss": 0.3258,
      "step": 1573
    },
    {
      "epoch": 1.6044852191641183,
      "grad_norm": 0.39933010935783386,
      "learning_rate": 0.001,
      "loss": 0.3374,
      "step": 1574
    },
    {
      "epoch": 1.6055045871559632,
      "grad_norm": 0.35546401143074036,
      "learning_rate": 0.001,
      "loss": 0.3501,
      "step": 1575
    },
    {
      "epoch": 1.6065239551478083,
      "grad_norm": 0.39958009123802185,
      "learning_rate": 0.001,
      "loss": 0.3455,
      "step": 1576
    },
    {
      "epoch": 1.6075433231396534,
      "grad_norm": 0.2226724624633789,
      "learning_rate": 0.001,
      "loss": 0.3445,
      "step": 1577
    },
    {
      "epoch": 1.6085626911314985,
      "grad_norm": 0.4285697042942047,
      "learning_rate": 0.001,
      "loss": 0.3613,
      "step": 1578
    },
    {
      "epoch": 1.6095820591233436,
      "grad_norm": 0.49487584829330444,
      "learning_rate": 0.001,
      "loss": 0.3633,
      "step": 1579
    },
    {
      "epoch": 1.6106014271151885,
      "grad_norm": 0.2573319375514984,
      "learning_rate": 0.001,
      "loss": 0.3494,
      "step": 1580
    },
    {
      "epoch": 1.6116207951070336,
      "grad_norm": 0.2412341982126236,
      "learning_rate": 0.001,
      "loss": 0.3652,
      "step": 1581
    },
    {
      "epoch": 1.6126401630988787,
      "grad_norm": 0.24230849742889404,
      "learning_rate": 0.001,
      "loss": 0.3457,
      "step": 1582
    },
    {
      "epoch": 1.6136595310907238,
      "grad_norm": 0.35303375124931335,
      "learning_rate": 0.001,
      "loss": 0.3706,
      "step": 1583
    },
    {
      "epoch": 1.614678899082569,
      "grad_norm": 0.3807843327522278,
      "learning_rate": 0.001,
      "loss": 0.3429,
      "step": 1584
    },
    {
      "epoch": 1.6156982670744138,
      "grad_norm": 0.39352720975875854,
      "learning_rate": 0.001,
      "loss": 0.3108,
      "step": 1585
    },
    {
      "epoch": 1.6167176350662589,
      "grad_norm": 0.1997794657945633,
      "learning_rate": 0.001,
      "loss": 0.3516,
      "step": 1586
    },
    {
      "epoch": 1.617737003058104,
      "grad_norm": 0.49086856842041016,
      "learning_rate": 0.001,
      "loss": 0.3667,
      "step": 1587
    },
    {
      "epoch": 1.618756371049949,
      "grad_norm": 0.3747662305831909,
      "learning_rate": 0.001,
      "loss": 0.3369,
      "step": 1588
    },
    {
      "epoch": 1.6197757390417942,
      "grad_norm": 0.21861585974693298,
      "learning_rate": 0.001,
      "loss": 0.3333,
      "step": 1589
    },
    {
      "epoch": 1.620795107033639,
      "grad_norm": 0.6659175157546997,
      "learning_rate": 0.001,
      "loss": 0.3345,
      "step": 1590
    },
    {
      "epoch": 1.6218144750254841,
      "grad_norm": 0.3863028883934021,
      "learning_rate": 0.001,
      "loss": 0.3279,
      "step": 1591
    },
    {
      "epoch": 1.6228338430173292,
      "grad_norm": 0.5045996904373169,
      "learning_rate": 0.001,
      "loss": 0.3486,
      "step": 1592
    },
    {
      "epoch": 1.6238532110091743,
      "grad_norm": 0.27490633726119995,
      "learning_rate": 0.001,
      "loss": 0.3494,
      "step": 1593
    },
    {
      "epoch": 1.6248725790010194,
      "grad_norm": 0.4124821722507477,
      "learning_rate": 0.001,
      "loss": 0.3787,
      "step": 1594
    },
    {
      "epoch": 1.6258919469928643,
      "grad_norm": 0.4623250961303711,
      "learning_rate": 0.001,
      "loss": 0.3562,
      "step": 1595
    },
    {
      "epoch": 1.6269113149847096,
      "grad_norm": 0.1689961850643158,
      "learning_rate": 0.001,
      "loss": 0.29,
      "step": 1596
    },
    {
      "epoch": 1.6279306829765545,
      "grad_norm": 0.3675995469093323,
      "learning_rate": 0.001,
      "loss": 0.3442,
      "step": 1597
    },
    {
      "epoch": 1.6289500509683996,
      "grad_norm": 0.17330312728881836,
      "learning_rate": 0.001,
      "loss": 0.2848,
      "step": 1598
    },
    {
      "epoch": 1.6299694189602447,
      "grad_norm": 0.30004310607910156,
      "learning_rate": 0.001,
      "loss": 0.3176,
      "step": 1599
    },
    {
      "epoch": 1.6309887869520896,
      "grad_norm": 0.4746125340461731,
      "learning_rate": 0.001,
      "loss": 0.3396,
      "step": 1600
    },
    {
      "epoch": 1.632008154943935,
      "grad_norm": 0.34881487488746643,
      "learning_rate": 0.001,
      "loss": 0.3481,
      "step": 1601
    },
    {
      "epoch": 1.6330275229357798,
      "grad_norm": 0.5106403231620789,
      "learning_rate": 0.001,
      "loss": 0.3643,
      "step": 1602
    },
    {
      "epoch": 1.634046890927625,
      "grad_norm": 0.42553776502609253,
      "learning_rate": 0.001,
      "loss": 0.3279,
      "step": 1603
    },
    {
      "epoch": 1.63506625891947,
      "grad_norm": 0.28975048661231995,
      "learning_rate": 0.001,
      "loss": 0.3353,
      "step": 1604
    },
    {
      "epoch": 1.6360856269113149,
      "grad_norm": 0.2900131046772003,
      "learning_rate": 0.001,
      "loss": 0.345,
      "step": 1605
    },
    {
      "epoch": 1.6371049949031602,
      "grad_norm": 0.4253348708152771,
      "learning_rate": 0.001,
      "loss": 0.3707,
      "step": 1606
    },
    {
      "epoch": 1.638124362895005,
      "grad_norm": 0.429720401763916,
      "learning_rate": 0.001,
      "loss": 0.3314,
      "step": 1607
    },
    {
      "epoch": 1.6391437308868502,
      "grad_norm": 0.3668714761734009,
      "learning_rate": 0.001,
      "loss": 0.35,
      "step": 1608
    },
    {
      "epoch": 1.6401630988786953,
      "grad_norm": 0.2794525623321533,
      "learning_rate": 0.001,
      "loss": 0.3276,
      "step": 1609
    },
    {
      "epoch": 1.6411824668705401,
      "grad_norm": 0.20580296218395233,
      "learning_rate": 0.001,
      "loss": 0.312,
      "step": 1610
    },
    {
      "epoch": 1.6422018348623855,
      "grad_norm": 0.28164413571357727,
      "learning_rate": 0.001,
      "loss": 0.3706,
      "step": 1611
    },
    {
      "epoch": 1.6432212028542303,
      "grad_norm": 0.3435002267360687,
      "learning_rate": 0.001,
      "loss": 0.3247,
      "step": 1612
    },
    {
      "epoch": 1.6442405708460754,
      "grad_norm": 0.17337609827518463,
      "learning_rate": 0.001,
      "loss": 0.3262,
      "step": 1613
    },
    {
      "epoch": 1.6452599388379205,
      "grad_norm": 0.24115845561027527,
      "learning_rate": 0.001,
      "loss": 0.342,
      "step": 1614
    },
    {
      "epoch": 1.6462793068297654,
      "grad_norm": 0.4623907804489136,
      "learning_rate": 0.001,
      "loss": 0.3676,
      "step": 1615
    },
    {
      "epoch": 1.6472986748216107,
      "grad_norm": 0.18986694514751434,
      "learning_rate": 0.001,
      "loss": 0.3239,
      "step": 1616
    },
    {
      "epoch": 1.6483180428134556,
      "grad_norm": 0.21684126555919647,
      "learning_rate": 0.001,
      "loss": 0.3809,
      "step": 1617
    },
    {
      "epoch": 1.6493374108053007,
      "grad_norm": 0.28011393547058105,
      "learning_rate": 0.001,
      "loss": 0.335,
      "step": 1618
    },
    {
      "epoch": 1.6503567787971458,
      "grad_norm": 0.47262731194496155,
      "learning_rate": 0.001,
      "loss": 0.3623,
      "step": 1619
    },
    {
      "epoch": 1.6513761467889907,
      "grad_norm": 0.3134477734565735,
      "learning_rate": 0.001,
      "loss": 0.3354,
      "step": 1620
    },
    {
      "epoch": 1.652395514780836,
      "grad_norm": 0.1749497950077057,
      "learning_rate": 0.001,
      "loss": 0.3011,
      "step": 1621
    },
    {
      "epoch": 1.653414882772681,
      "grad_norm": 0.3971136510372162,
      "learning_rate": 0.001,
      "loss": 0.321,
      "step": 1622
    },
    {
      "epoch": 1.654434250764526,
      "grad_norm": 0.21043255925178528,
      "learning_rate": 0.001,
      "loss": 0.3525,
      "step": 1623
    },
    {
      "epoch": 1.655453618756371,
      "grad_norm": 0.306717187166214,
      "learning_rate": 0.001,
      "loss": 0.3258,
      "step": 1624
    },
    {
      "epoch": 1.656472986748216,
      "grad_norm": 0.19253769516944885,
      "learning_rate": 0.001,
      "loss": 0.3136,
      "step": 1625
    },
    {
      "epoch": 1.6574923547400613,
      "grad_norm": 0.34106773138046265,
      "learning_rate": 0.001,
      "loss": 0.3345,
      "step": 1626
    },
    {
      "epoch": 1.6585117227319062,
      "grad_norm": 0.36055752635002136,
      "learning_rate": 0.001,
      "loss": 0.3501,
      "step": 1627
    },
    {
      "epoch": 1.6595310907237513,
      "grad_norm": 0.29603180289268494,
      "learning_rate": 0.001,
      "loss": 0.3308,
      "step": 1628
    },
    {
      "epoch": 1.6605504587155964,
      "grad_norm": 0.19596785306930542,
      "learning_rate": 0.001,
      "loss": 0.3353,
      "step": 1629
    },
    {
      "epoch": 1.6615698267074412,
      "grad_norm": 0.24344438314437866,
      "learning_rate": 0.001,
      "loss": 0.3276,
      "step": 1630
    },
    {
      "epoch": 1.6625891946992866,
      "grad_norm": 0.3300118148326874,
      "learning_rate": 0.001,
      "loss": 0.3195,
      "step": 1631
    },
    {
      "epoch": 1.6636085626911314,
      "grad_norm": 0.2007349133491516,
      "learning_rate": 0.001,
      "loss": 0.3188,
      "step": 1632
    },
    {
      "epoch": 1.6646279306829765,
      "grad_norm": 0.2336997091770172,
      "learning_rate": 0.001,
      "loss": 0.2979,
      "step": 1633
    },
    {
      "epoch": 1.6656472986748216,
      "grad_norm": 0.20283180475234985,
      "learning_rate": 0.001,
      "loss": 0.313,
      "step": 1634
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.1897173374891281,
      "learning_rate": 0.001,
      "loss": 0.3228,
      "step": 1635
    },
    {
      "epoch": 1.6676860346585118,
      "grad_norm": 0.24233856797218323,
      "learning_rate": 0.001,
      "loss": 0.3567,
      "step": 1636
    },
    {
      "epoch": 1.6687054026503567,
      "grad_norm": 0.3897009789943695,
      "learning_rate": 0.001,
      "loss": 0.365,
      "step": 1637
    },
    {
      "epoch": 1.6697247706422018,
      "grad_norm": 0.24514423310756683,
      "learning_rate": 0.001,
      "loss": 0.3306,
      "step": 1638
    },
    {
      "epoch": 1.670744138634047,
      "grad_norm": 0.19209106266498566,
      "learning_rate": 0.001,
      "loss": 0.3511,
      "step": 1639
    },
    {
      "epoch": 1.6717635066258918,
      "grad_norm": 0.44095203280448914,
      "learning_rate": 0.001,
      "loss": 0.3401,
      "step": 1640
    },
    {
      "epoch": 1.6727828746177371,
      "grad_norm": 0.31775403022766113,
      "learning_rate": 0.001,
      "loss": 0.3423,
      "step": 1641
    },
    {
      "epoch": 1.673802242609582,
      "grad_norm": 0.5045644044876099,
      "learning_rate": 0.001,
      "loss": 0.3506,
      "step": 1642
    },
    {
      "epoch": 1.674821610601427,
      "grad_norm": 0.21992717683315277,
      "learning_rate": 0.001,
      "loss": 0.3445,
      "step": 1643
    },
    {
      "epoch": 1.6758409785932722,
      "grad_norm": 0.2841012477874756,
      "learning_rate": 0.001,
      "loss": 0.3547,
      "step": 1644
    },
    {
      "epoch": 1.676860346585117,
      "grad_norm": 0.23619480431079865,
      "learning_rate": 0.001,
      "loss": 0.3376,
      "step": 1645
    },
    {
      "epoch": 1.6778797145769624,
      "grad_norm": 0.25832536816596985,
      "learning_rate": 0.001,
      "loss": 0.3073,
      "step": 1646
    },
    {
      "epoch": 1.6788990825688073,
      "grad_norm": 0.3175416588783264,
      "learning_rate": 0.001,
      "loss": 0.3369,
      "step": 1647
    },
    {
      "epoch": 1.6799184505606524,
      "grad_norm": 0.17636917531490326,
      "learning_rate": 0.001,
      "loss": 0.3123,
      "step": 1648
    },
    {
      "epoch": 1.6809378185524975,
      "grad_norm": 0.32801157236099243,
      "learning_rate": 0.001,
      "loss": 0.3309,
      "step": 1649
    },
    {
      "epoch": 1.6819571865443423,
      "grad_norm": 0.26100876927375793,
      "learning_rate": 0.001,
      "loss": 0.3398,
      "step": 1650
    },
    {
      "epoch": 1.6829765545361877,
      "grad_norm": 0.22153249382972717,
      "learning_rate": 0.001,
      "loss": 0.3264,
      "step": 1651
    },
    {
      "epoch": 1.6839959225280325,
      "grad_norm": 0.2268567681312561,
      "learning_rate": 0.001,
      "loss": 0.3037,
      "step": 1652
    },
    {
      "epoch": 1.6850152905198776,
      "grad_norm": 0.261030375957489,
      "learning_rate": 0.001,
      "loss": 0.3129,
      "step": 1653
    },
    {
      "epoch": 1.6860346585117227,
      "grad_norm": 0.17155642807483673,
      "learning_rate": 0.001,
      "loss": 0.3602,
      "step": 1654
    },
    {
      "epoch": 1.6870540265035678,
      "grad_norm": 0.2748543918132782,
      "learning_rate": 0.001,
      "loss": 0.3682,
      "step": 1655
    },
    {
      "epoch": 1.688073394495413,
      "grad_norm": 1.159138798713684,
      "learning_rate": 0.001,
      "loss": 0.3032,
      "step": 1656
    },
    {
      "epoch": 1.6890927624872578,
      "grad_norm": 0.22004343569278717,
      "learning_rate": 0.001,
      "loss": 0.3062,
      "step": 1657
    },
    {
      "epoch": 1.690112130479103,
      "grad_norm": 0.20061138272285461,
      "learning_rate": 0.001,
      "loss": 0.3237,
      "step": 1658
    },
    {
      "epoch": 1.691131498470948,
      "grad_norm": 0.307049959897995,
      "learning_rate": 0.001,
      "loss": 0.3328,
      "step": 1659
    },
    {
      "epoch": 1.6921508664627931,
      "grad_norm": 0.17297203838825226,
      "learning_rate": 0.001,
      "loss": 0.2714,
      "step": 1660
    },
    {
      "epoch": 1.6931702344546382,
      "grad_norm": 0.25428786873817444,
      "learning_rate": 0.001,
      "loss": 0.332,
      "step": 1661
    },
    {
      "epoch": 1.694189602446483,
      "grad_norm": 0.24062037467956543,
      "learning_rate": 0.001,
      "loss": 0.3152,
      "step": 1662
    },
    {
      "epoch": 1.6952089704383282,
      "grad_norm": 0.23865467309951782,
      "learning_rate": 0.001,
      "loss": 0.3271,
      "step": 1663
    },
    {
      "epoch": 1.6962283384301733,
      "grad_norm": 0.2523850202560425,
      "learning_rate": 0.001,
      "loss": 0.3279,
      "step": 1664
    },
    {
      "epoch": 1.6972477064220184,
      "grad_norm": 0.35376155376434326,
      "learning_rate": 0.001,
      "loss": 0.3071,
      "step": 1665
    },
    {
      "epoch": 1.6982670744138635,
      "grad_norm": 0.4666161835193634,
      "learning_rate": 0.001,
      "loss": 0.3579,
      "step": 1666
    },
    {
      "epoch": 1.6992864424057084,
      "grad_norm": 0.21242579817771912,
      "learning_rate": 0.001,
      "loss": 0.3225,
      "step": 1667
    },
    {
      "epoch": 1.7003058103975535,
      "grad_norm": 0.2696426510810852,
      "learning_rate": 0.001,
      "loss": 0.3328,
      "step": 1668
    },
    {
      "epoch": 1.7013251783893986,
      "grad_norm": 0.2257775515317917,
      "learning_rate": 0.001,
      "loss": 0.3162,
      "step": 1669
    },
    {
      "epoch": 1.7023445463812437,
      "grad_norm": 0.29050037264823914,
      "learning_rate": 0.001,
      "loss": 0.3447,
      "step": 1670
    },
    {
      "epoch": 1.7033639143730888,
      "grad_norm": 0.3597899079322815,
      "learning_rate": 0.001,
      "loss": 0.3278,
      "step": 1671
    },
    {
      "epoch": 1.7043832823649336,
      "grad_norm": 0.4807140827178955,
      "learning_rate": 0.001,
      "loss": 0.3806,
      "step": 1672
    },
    {
      "epoch": 1.705402650356779,
      "grad_norm": 0.5798487663269043,
      "learning_rate": 0.001,
      "loss": 0.3303,
      "step": 1673
    },
    {
      "epoch": 1.7064220183486238,
      "grad_norm": 0.22786130011081696,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 1674
    },
    {
      "epoch": 1.707441386340469,
      "grad_norm": 0.2779488265514374,
      "learning_rate": 0.001,
      "loss": 0.314,
      "step": 1675
    },
    {
      "epoch": 1.708460754332314,
      "grad_norm": 0.3529215157032013,
      "learning_rate": 0.001,
      "loss": 0.3195,
      "step": 1676
    },
    {
      "epoch": 1.709480122324159,
      "grad_norm": 0.1762031465768814,
      "learning_rate": 0.001,
      "loss": 0.2975,
      "step": 1677
    },
    {
      "epoch": 1.7104994903160042,
      "grad_norm": 0.306162565946579,
      "learning_rate": 0.001,
      "loss": 0.3262,
      "step": 1678
    },
    {
      "epoch": 1.7115188583078491,
      "grad_norm": 0.2184675633907318,
      "learning_rate": 0.001,
      "loss": 0.3196,
      "step": 1679
    },
    {
      "epoch": 1.7125382262996942,
      "grad_norm": 0.36594754457473755,
      "learning_rate": 0.001,
      "loss": 0.3545,
      "step": 1680
    },
    {
      "epoch": 1.7135575942915393,
      "grad_norm": 0.28542956709861755,
      "learning_rate": 0.001,
      "loss": 0.3446,
      "step": 1681
    },
    {
      "epoch": 1.7145769622833842,
      "grad_norm": 0.2922564744949341,
      "learning_rate": 0.001,
      "loss": 0.3054,
      "step": 1682
    },
    {
      "epoch": 1.7155963302752295,
      "grad_norm": 0.20568989217281342,
      "learning_rate": 0.001,
      "loss": 0.3296,
      "step": 1683
    },
    {
      "epoch": 1.7166156982670744,
      "grad_norm": 0.2665468752384186,
      "learning_rate": 0.001,
      "loss": 0.3082,
      "step": 1684
    },
    {
      "epoch": 1.7176350662589195,
      "grad_norm": 0.24056503176689148,
      "learning_rate": 0.001,
      "loss": 0.3096,
      "step": 1685
    },
    {
      "epoch": 1.7186544342507646,
      "grad_norm": 0.233082115650177,
      "learning_rate": 0.001,
      "loss": 0.3075,
      "step": 1686
    },
    {
      "epoch": 1.7196738022426095,
      "grad_norm": 0.22404292225837708,
      "learning_rate": 0.001,
      "loss": 0.3442,
      "step": 1687
    },
    {
      "epoch": 1.7206931702344548,
      "grad_norm": 0.32261064648628235,
      "learning_rate": 0.001,
      "loss": 0.3414,
      "step": 1688
    },
    {
      "epoch": 1.7217125382262997,
      "grad_norm": 0.1771073043346405,
      "learning_rate": 0.001,
      "loss": 0.3162,
      "step": 1689
    },
    {
      "epoch": 1.7227319062181448,
      "grad_norm": 0.18651673197746277,
      "learning_rate": 0.001,
      "loss": 0.3469,
      "step": 1690
    },
    {
      "epoch": 1.7237512742099899,
      "grad_norm": 0.28546011447906494,
      "learning_rate": 0.001,
      "loss": 0.3467,
      "step": 1691
    },
    {
      "epoch": 1.7247706422018347,
      "grad_norm": 0.199473038315773,
      "learning_rate": 0.001,
      "loss": 0.3108,
      "step": 1692
    },
    {
      "epoch": 1.72579001019368,
      "grad_norm": 0.26092836260795593,
      "learning_rate": 0.001,
      "loss": 0.3248,
      "step": 1693
    },
    {
      "epoch": 1.726809378185525,
      "grad_norm": 0.22495289146900177,
      "learning_rate": 0.001,
      "loss": 0.314,
      "step": 1694
    },
    {
      "epoch": 1.72782874617737,
      "grad_norm": 0.19739386439323425,
      "learning_rate": 0.001,
      "loss": 0.322,
      "step": 1695
    },
    {
      "epoch": 1.7288481141692151,
      "grad_norm": 0.3058243691921234,
      "learning_rate": 0.001,
      "loss": 0.3293,
      "step": 1696
    },
    {
      "epoch": 1.72986748216106,
      "grad_norm": 0.33816012740135193,
      "learning_rate": 0.001,
      "loss": 0.3442,
      "step": 1697
    },
    {
      "epoch": 1.7308868501529053,
      "grad_norm": 0.2827448546886444,
      "learning_rate": 0.001,
      "loss": 0.3276,
      "step": 1698
    },
    {
      "epoch": 1.7319062181447502,
      "grad_norm": 0.24574676156044006,
      "learning_rate": 0.001,
      "loss": 0.3315,
      "step": 1699
    },
    {
      "epoch": 1.7329255861365953,
      "grad_norm": 0.24344292283058167,
      "learning_rate": 0.001,
      "loss": 0.3439,
      "step": 1700
    },
    {
      "epoch": 1.7339449541284404,
      "grad_norm": 0.26893022656440735,
      "learning_rate": 0.001,
      "loss": 0.3264,
      "step": 1701
    },
    {
      "epoch": 1.7349643221202853,
      "grad_norm": 0.210727721452713,
      "learning_rate": 0.001,
      "loss": 0.3621,
      "step": 1702
    },
    {
      "epoch": 1.7359836901121306,
      "grad_norm": 0.2563639283180237,
      "learning_rate": 0.001,
      "loss": 0.321,
      "step": 1703
    },
    {
      "epoch": 1.7370030581039755,
      "grad_norm": 0.20888830721378326,
      "learning_rate": 0.001,
      "loss": 0.2866,
      "step": 1704
    },
    {
      "epoch": 1.7380224260958206,
      "grad_norm": 0.302676796913147,
      "learning_rate": 0.001,
      "loss": 0.3389,
      "step": 1705
    },
    {
      "epoch": 1.7390417940876657,
      "grad_norm": 0.19293111562728882,
      "learning_rate": 0.001,
      "loss": 0.314,
      "step": 1706
    },
    {
      "epoch": 1.7400611620795106,
      "grad_norm": 0.30114448070526123,
      "learning_rate": 0.001,
      "loss": 0.3192,
      "step": 1707
    },
    {
      "epoch": 1.7410805300713559,
      "grad_norm": 0.20533932745456696,
      "learning_rate": 0.001,
      "loss": 0.307,
      "step": 1708
    },
    {
      "epoch": 1.7420998980632008,
      "grad_norm": 0.22720836102962494,
      "learning_rate": 0.001,
      "loss": 0.3108,
      "step": 1709
    },
    {
      "epoch": 1.7431192660550459,
      "grad_norm": 0.20414778590202332,
      "learning_rate": 0.001,
      "loss": 0.3464,
      "step": 1710
    },
    {
      "epoch": 1.744138634046891,
      "grad_norm": 0.33766335248947144,
      "learning_rate": 0.001,
      "loss": 0.3254,
      "step": 1711
    },
    {
      "epoch": 1.7451580020387358,
      "grad_norm": 0.2700808346271515,
      "learning_rate": 0.001,
      "loss": 0.3049,
      "step": 1712
    },
    {
      "epoch": 1.7461773700305812,
      "grad_norm": 0.29048532247543335,
      "learning_rate": 0.001,
      "loss": 0.3162,
      "step": 1713
    },
    {
      "epoch": 1.747196738022426,
      "grad_norm": 0.17286579310894012,
      "learning_rate": 0.001,
      "loss": 0.3354,
      "step": 1714
    },
    {
      "epoch": 1.7482161060142711,
      "grad_norm": 0.21906667947769165,
      "learning_rate": 0.001,
      "loss": 0.2948,
      "step": 1715
    },
    {
      "epoch": 1.7492354740061162,
      "grad_norm": 0.2817162871360779,
      "learning_rate": 0.001,
      "loss": 0.327,
      "step": 1716
    },
    {
      "epoch": 1.750254841997961,
      "grad_norm": 0.26728856563568115,
      "learning_rate": 0.001,
      "loss": 0.3442,
      "step": 1717
    },
    {
      "epoch": 1.7512742099898064,
      "grad_norm": 0.26231375336647034,
      "learning_rate": 0.001,
      "loss": 0.2968,
      "step": 1718
    },
    {
      "epoch": 1.7522935779816513,
      "grad_norm": 0.22063502669334412,
      "learning_rate": 0.001,
      "loss": 0.3171,
      "step": 1719
    },
    {
      "epoch": 1.7533129459734964,
      "grad_norm": 0.22907660901546478,
      "learning_rate": 0.001,
      "loss": 0.2848,
      "step": 1720
    },
    {
      "epoch": 1.7543323139653415,
      "grad_norm": 0.1653081476688385,
      "learning_rate": 0.001,
      "loss": 0.2959,
      "step": 1721
    },
    {
      "epoch": 1.7553516819571864,
      "grad_norm": 0.18827494978904724,
      "learning_rate": 0.001,
      "loss": 0.34,
      "step": 1722
    },
    {
      "epoch": 1.7563710499490317,
      "grad_norm": 0.29293423891067505,
      "learning_rate": 0.001,
      "loss": 0.3564,
      "step": 1723
    },
    {
      "epoch": 1.7573904179408766,
      "grad_norm": 0.31198054552078247,
      "learning_rate": 0.001,
      "loss": 0.3177,
      "step": 1724
    },
    {
      "epoch": 1.7584097859327217,
      "grad_norm": 0.23869071900844574,
      "learning_rate": 0.001,
      "loss": 0.3472,
      "step": 1725
    },
    {
      "epoch": 1.7594291539245668,
      "grad_norm": 0.2138986736536026,
      "learning_rate": 0.001,
      "loss": 0.3175,
      "step": 1726
    },
    {
      "epoch": 1.7604485219164119,
      "grad_norm": 0.28753215074539185,
      "learning_rate": 0.001,
      "loss": 0.3301,
      "step": 1727
    },
    {
      "epoch": 1.761467889908257,
      "grad_norm": 0.1966470181941986,
      "learning_rate": 0.001,
      "loss": 0.3372,
      "step": 1728
    },
    {
      "epoch": 1.7624872579001019,
      "grad_norm": 0.26331084966659546,
      "learning_rate": 0.001,
      "loss": 0.2864,
      "step": 1729
    },
    {
      "epoch": 1.763506625891947,
      "grad_norm": 0.21981921792030334,
      "learning_rate": 0.001,
      "loss": 0.3259,
      "step": 1730
    },
    {
      "epoch": 1.764525993883792,
      "grad_norm": 0.20414955914020538,
      "learning_rate": 0.001,
      "loss": 0.2695,
      "step": 1731
    },
    {
      "epoch": 1.7655453618756372,
      "grad_norm": 0.18762755393981934,
      "learning_rate": 0.001,
      "loss": 0.2953,
      "step": 1732
    },
    {
      "epoch": 1.7665647298674823,
      "grad_norm": 0.22044546902179718,
      "learning_rate": 0.001,
      "loss": 0.2913,
      "step": 1733
    },
    {
      "epoch": 1.7675840978593271,
      "grad_norm": 0.3000982105731964,
      "learning_rate": 0.001,
      "loss": 0.3281,
      "step": 1734
    },
    {
      "epoch": 1.7686034658511722,
      "grad_norm": 0.27352574467658997,
      "learning_rate": 0.001,
      "loss": 0.3474,
      "step": 1735
    },
    {
      "epoch": 1.7696228338430173,
      "grad_norm": 0.3147609233856201,
      "learning_rate": 0.001,
      "loss": 0.3125,
      "step": 1736
    },
    {
      "epoch": 1.7706422018348624,
      "grad_norm": 0.2888072729110718,
      "learning_rate": 0.001,
      "loss": 0.2936,
      "step": 1737
    },
    {
      "epoch": 1.7716615698267075,
      "grad_norm": 0.20031248033046722,
      "learning_rate": 0.001,
      "loss": 0.3379,
      "step": 1738
    },
    {
      "epoch": 1.7726809378185524,
      "grad_norm": 0.16540184617042542,
      "learning_rate": 0.001,
      "loss": 0.2937,
      "step": 1739
    },
    {
      "epoch": 1.7737003058103975,
      "grad_norm": 0.2041868418455124,
      "learning_rate": 0.001,
      "loss": 0.3179,
      "step": 1740
    },
    {
      "epoch": 1.7747196738022426,
      "grad_norm": 0.1935470551252365,
      "learning_rate": 0.001,
      "loss": 0.3103,
      "step": 1741
    },
    {
      "epoch": 1.7757390417940877,
      "grad_norm": 0.2126782238483429,
      "learning_rate": 0.001,
      "loss": 0.334,
      "step": 1742
    },
    {
      "epoch": 1.7767584097859328,
      "grad_norm": 0.23099100589752197,
      "learning_rate": 0.001,
      "loss": 0.3156,
      "step": 1743
    },
    {
      "epoch": 1.7777777777777777,
      "grad_norm": 0.17509953677654266,
      "learning_rate": 0.001,
      "loss": 0.3352,
      "step": 1744
    },
    {
      "epoch": 1.7787971457696228,
      "grad_norm": 0.3316766321659088,
      "learning_rate": 0.001,
      "loss": 0.3424,
      "step": 1745
    },
    {
      "epoch": 1.7798165137614679,
      "grad_norm": 0.2838190793991089,
      "learning_rate": 0.001,
      "loss": 0.3062,
      "step": 1746
    },
    {
      "epoch": 1.780835881753313,
      "grad_norm": 0.20476819574832916,
      "learning_rate": 0.001,
      "loss": 0.3109,
      "step": 1747
    },
    {
      "epoch": 1.781855249745158,
      "grad_norm": 0.2571938633918762,
      "learning_rate": 0.001,
      "loss": 0.2836,
      "step": 1748
    },
    {
      "epoch": 1.782874617737003,
      "grad_norm": 0.4127921760082245,
      "learning_rate": 0.001,
      "loss": 0.3425,
      "step": 1749
    },
    {
      "epoch": 1.7838939857288483,
      "grad_norm": 0.2798260748386383,
      "learning_rate": 0.001,
      "loss": 0.3055,
      "step": 1750
    },
    {
      "epoch": 1.7849133537206932,
      "grad_norm": 0.2938876152038574,
      "learning_rate": 0.001,
      "loss": 0.3108,
      "step": 1751
    },
    {
      "epoch": 1.7859327217125383,
      "grad_norm": 0.44546329975128174,
      "learning_rate": 0.001,
      "loss": 0.2947,
      "step": 1752
    },
    {
      "epoch": 1.7869520897043834,
      "grad_norm": 0.22239689528942108,
      "learning_rate": 0.001,
      "loss": 0.3203,
      "step": 1753
    },
    {
      "epoch": 1.7879714576962282,
      "grad_norm": 0.3121255040168762,
      "learning_rate": 0.001,
      "loss": 0.3347,
      "step": 1754
    },
    {
      "epoch": 1.7889908256880735,
      "grad_norm": 0.2754853069782257,
      "learning_rate": 0.001,
      "loss": 0.3005,
      "step": 1755
    },
    {
      "epoch": 1.7900101936799184,
      "grad_norm": 0.18115617334842682,
      "learning_rate": 0.001,
      "loss": 0.3018,
      "step": 1756
    },
    {
      "epoch": 1.7910295616717635,
      "grad_norm": 0.2820347547531128,
      "learning_rate": 0.001,
      "loss": 0.2988,
      "step": 1757
    },
    {
      "epoch": 1.7920489296636086,
      "grad_norm": 0.20262470841407776,
      "learning_rate": 0.001,
      "loss": 0.3057,
      "step": 1758
    },
    {
      "epoch": 1.7930682976554535,
      "grad_norm": 0.22268560528755188,
      "learning_rate": 0.001,
      "loss": 0.2864,
      "step": 1759
    },
    {
      "epoch": 1.7940876656472988,
      "grad_norm": 0.32718053460121155,
      "learning_rate": 0.001,
      "loss": 0.3038,
      "step": 1760
    },
    {
      "epoch": 1.7951070336391437,
      "grad_norm": 0.24284832179546356,
      "learning_rate": 0.001,
      "loss": 0.2954,
      "step": 1761
    },
    {
      "epoch": 1.7961264016309888,
      "grad_norm": 0.1824357807636261,
      "learning_rate": 0.001,
      "loss": 0.302,
      "step": 1762
    },
    {
      "epoch": 1.797145769622834,
      "grad_norm": 0.2725198566913605,
      "learning_rate": 0.001,
      "loss": 0.3196,
      "step": 1763
    },
    {
      "epoch": 1.7981651376146788,
      "grad_norm": 0.1931459605693817,
      "learning_rate": 0.001,
      "loss": 0.3059,
      "step": 1764
    },
    {
      "epoch": 1.799184505606524,
      "grad_norm": 0.22531376779079437,
      "learning_rate": 0.001,
      "loss": 0.3293,
      "step": 1765
    },
    {
      "epoch": 1.800203873598369,
      "grad_norm": 0.3147563338279724,
      "learning_rate": 0.001,
      "loss": 0.3147,
      "step": 1766
    },
    {
      "epoch": 1.801223241590214,
      "grad_norm": 0.22234639525413513,
      "learning_rate": 0.001,
      "loss": 0.3165,
      "step": 1767
    },
    {
      "epoch": 1.8022426095820592,
      "grad_norm": 0.18942981958389282,
      "learning_rate": 0.001,
      "loss": 0.3268,
      "step": 1768
    },
    {
      "epoch": 1.803261977573904,
      "grad_norm": 0.2768648862838745,
      "learning_rate": 0.001,
      "loss": 0.3259,
      "step": 1769
    },
    {
      "epoch": 1.8042813455657494,
      "grad_norm": 0.17039704322814941,
      "learning_rate": 0.001,
      "loss": 0.304,
      "step": 1770
    },
    {
      "epoch": 1.8053007135575942,
      "grad_norm": 0.17594558000564575,
      "learning_rate": 0.001,
      "loss": 0.3472,
      "step": 1771
    },
    {
      "epoch": 1.8063200815494393,
      "grad_norm": 0.24350453913211823,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 1772
    },
    {
      "epoch": 1.8073394495412844,
      "grad_norm": 0.14339056611061096,
      "learning_rate": 0.001,
      "loss": 0.2737,
      "step": 1773
    },
    {
      "epoch": 1.8083588175331293,
      "grad_norm": 0.21891675889492035,
      "learning_rate": 0.001,
      "loss": 0.3247,
      "step": 1774
    },
    {
      "epoch": 1.8093781855249746,
      "grad_norm": 0.19193929433822632,
      "learning_rate": 0.001,
      "loss": 0.3116,
      "step": 1775
    },
    {
      "epoch": 1.8103975535168195,
      "grad_norm": 0.3165367543697357,
      "learning_rate": 0.001,
      "loss": 0.3068,
      "step": 1776
    },
    {
      "epoch": 1.8114169215086646,
      "grad_norm": 0.21977153420448303,
      "learning_rate": 0.001,
      "loss": 0.3398,
      "step": 1777
    },
    {
      "epoch": 1.8124362895005097,
      "grad_norm": 0.2445184886455536,
      "learning_rate": 0.001,
      "loss": 0.3042,
      "step": 1778
    },
    {
      "epoch": 1.8134556574923546,
      "grad_norm": 0.3174927830696106,
      "learning_rate": 0.001,
      "loss": 0.3059,
      "step": 1779
    },
    {
      "epoch": 1.8144750254842,
      "grad_norm": 0.30934464931488037,
      "learning_rate": 0.001,
      "loss": 0.3287,
      "step": 1780
    },
    {
      "epoch": 1.8154943934760448,
      "grad_norm": 0.14953172206878662,
      "learning_rate": 0.001,
      "loss": 0.2932,
      "step": 1781
    },
    {
      "epoch": 1.81651376146789,
      "grad_norm": 0.25186416506767273,
      "learning_rate": 0.001,
      "loss": 0.3308,
      "step": 1782
    },
    {
      "epoch": 1.817533129459735,
      "grad_norm": 0.4409814178943634,
      "learning_rate": 0.001,
      "loss": 0.3445,
      "step": 1783
    },
    {
      "epoch": 1.8185524974515799,
      "grad_norm": 0.2171366810798645,
      "learning_rate": 0.001,
      "loss": 0.3265,
      "step": 1784
    },
    {
      "epoch": 1.8195718654434252,
      "grad_norm": 0.2287602573633194,
      "learning_rate": 0.001,
      "loss": 0.2961,
      "step": 1785
    },
    {
      "epoch": 1.82059123343527,
      "grad_norm": 0.30020996928215027,
      "learning_rate": 0.001,
      "loss": 0.3625,
      "step": 1786
    },
    {
      "epoch": 1.8216106014271152,
      "grad_norm": 0.17501230537891388,
      "learning_rate": 0.001,
      "loss": 0.2761,
      "step": 1787
    },
    {
      "epoch": 1.8226299694189603,
      "grad_norm": 0.1862674504518509,
      "learning_rate": 0.001,
      "loss": 0.3021,
      "step": 1788
    },
    {
      "epoch": 1.8236493374108051,
      "grad_norm": 0.19911092519760132,
      "learning_rate": 0.001,
      "loss": 0.3062,
      "step": 1789
    },
    {
      "epoch": 1.8246687054026505,
      "grad_norm": 0.19103993475437164,
      "learning_rate": 0.001,
      "loss": 0.3113,
      "step": 1790
    },
    {
      "epoch": 1.8256880733944953,
      "grad_norm": 0.24832221865653992,
      "learning_rate": 0.001,
      "loss": 0.3,
      "step": 1791
    },
    {
      "epoch": 1.8267074413863404,
      "grad_norm": 0.30799591541290283,
      "learning_rate": 0.001,
      "loss": 0.3009,
      "step": 1792
    },
    {
      "epoch": 1.8277268093781855,
      "grad_norm": 0.14903849363327026,
      "learning_rate": 0.001,
      "loss": 0.276,
      "step": 1793
    },
    {
      "epoch": 1.8287461773700304,
      "grad_norm": 0.19151674211025238,
      "learning_rate": 0.001,
      "loss": 0.3136,
      "step": 1794
    },
    {
      "epoch": 1.8297655453618757,
      "grad_norm": 0.21974535286426544,
      "learning_rate": 0.001,
      "loss": 0.2936,
      "step": 1795
    },
    {
      "epoch": 1.8307849133537206,
      "grad_norm": 0.19615411758422852,
      "learning_rate": 0.001,
      "loss": 0.3186,
      "step": 1796
    },
    {
      "epoch": 1.8318042813455657,
      "grad_norm": 0.2638077437877655,
      "learning_rate": 0.001,
      "loss": 0.2831,
      "step": 1797
    },
    {
      "epoch": 1.8328236493374108,
      "grad_norm": 0.1669410765171051,
      "learning_rate": 0.001,
      "loss": 0.2811,
      "step": 1798
    },
    {
      "epoch": 1.8338430173292557,
      "grad_norm": 0.2260635942220688,
      "learning_rate": 0.001,
      "loss": 0.3428,
      "step": 1799
    },
    {
      "epoch": 1.834862385321101,
      "grad_norm": 0.22105789184570312,
      "learning_rate": 0.001,
      "loss": 0.2861,
      "step": 1800
    },
    {
      "epoch": 1.835881753312946,
      "grad_norm": 0.19895783066749573,
      "learning_rate": 0.001,
      "loss": 0.332,
      "step": 1801
    },
    {
      "epoch": 1.836901121304791,
      "grad_norm": 0.22878511250019073,
      "learning_rate": 0.001,
      "loss": 0.3099,
      "step": 1802
    },
    {
      "epoch": 1.837920489296636,
      "grad_norm": 0.18386752903461456,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 1803
    },
    {
      "epoch": 1.8389398572884812,
      "grad_norm": 0.23026955127716064,
      "learning_rate": 0.001,
      "loss": 0.3057,
      "step": 1804
    },
    {
      "epoch": 1.8399592252803263,
      "grad_norm": 0.172627255320549,
      "learning_rate": 0.001,
      "loss": 0.314,
      "step": 1805
    },
    {
      "epoch": 1.8409785932721712,
      "grad_norm": 0.22246886789798737,
      "learning_rate": 0.001,
      "loss": 0.2964,
      "step": 1806
    },
    {
      "epoch": 1.8419979612640163,
      "grad_norm": 0.23874886333942413,
      "learning_rate": 0.001,
      "loss": 0.3403,
      "step": 1807
    },
    {
      "epoch": 1.8430173292558614,
      "grad_norm": 0.1951742023229599,
      "learning_rate": 0.001,
      "loss": 0.2839,
      "step": 1808
    },
    {
      "epoch": 1.8440366972477065,
      "grad_norm": 0.17384622991085052,
      "learning_rate": 0.001,
      "loss": 0.2957,
      "step": 1809
    },
    {
      "epoch": 1.8450560652395516,
      "grad_norm": 0.2639983296394348,
      "learning_rate": 0.001,
      "loss": 0.2948,
      "step": 1810
    },
    {
      "epoch": 1.8460754332313964,
      "grad_norm": 0.2853826582431793,
      "learning_rate": 0.001,
      "loss": 0.3025,
      "step": 1811
    },
    {
      "epoch": 1.8470948012232415,
      "grad_norm": 0.2136002629995346,
      "learning_rate": 0.001,
      "loss": 0.3013,
      "step": 1812
    },
    {
      "epoch": 1.8481141692150866,
      "grad_norm": 0.3366601765155792,
      "learning_rate": 0.001,
      "loss": 0.3068,
      "step": 1813
    },
    {
      "epoch": 1.8491335372069317,
      "grad_norm": 0.31830063462257385,
      "learning_rate": 0.001,
      "loss": 0.3101,
      "step": 1814
    },
    {
      "epoch": 1.8501529051987768,
      "grad_norm": 0.1992036998271942,
      "learning_rate": 0.001,
      "loss": 0.2972,
      "step": 1815
    },
    {
      "epoch": 1.8511722731906217,
      "grad_norm": 0.2604289948940277,
      "learning_rate": 0.001,
      "loss": 0.3323,
      "step": 1816
    },
    {
      "epoch": 1.8521916411824668,
      "grad_norm": 0.25901612639427185,
      "learning_rate": 0.001,
      "loss": 0.2817,
      "step": 1817
    },
    {
      "epoch": 1.853211009174312,
      "grad_norm": 0.4724251925945282,
      "learning_rate": 0.001,
      "loss": 0.3552,
      "step": 1818
    },
    {
      "epoch": 1.854230377166157,
      "grad_norm": 0.410896897315979,
      "learning_rate": 0.001,
      "loss": 0.2964,
      "step": 1819
    },
    {
      "epoch": 1.8552497451580021,
      "grad_norm": 0.2533113658428192,
      "learning_rate": 0.001,
      "loss": 0.2734,
      "step": 1820
    },
    {
      "epoch": 1.856269113149847,
      "grad_norm": 0.2969580292701721,
      "learning_rate": 0.001,
      "loss": 0.2954,
      "step": 1821
    },
    {
      "epoch": 1.8572884811416923,
      "grad_norm": 0.3154050409793854,
      "learning_rate": 0.001,
      "loss": 0.3364,
      "step": 1822
    },
    {
      "epoch": 1.8583078491335372,
      "grad_norm": 0.4778406322002411,
      "learning_rate": 0.001,
      "loss": 0.2977,
      "step": 1823
    },
    {
      "epoch": 1.8593272171253823,
      "grad_norm": 0.37379273772239685,
      "learning_rate": 0.001,
      "loss": 0.337,
      "step": 1824
    },
    {
      "epoch": 1.8603465851172274,
      "grad_norm": 0.15847377479076385,
      "learning_rate": 0.001,
      "loss": 0.2916,
      "step": 1825
    },
    {
      "epoch": 1.8613659531090723,
      "grad_norm": 0.3268052339553833,
      "learning_rate": 0.001,
      "loss": 0.3221,
      "step": 1826
    },
    {
      "epoch": 1.8623853211009176,
      "grad_norm": 0.44506943225860596,
      "learning_rate": 0.001,
      "loss": 0.3066,
      "step": 1827
    },
    {
      "epoch": 1.8634046890927625,
      "grad_norm": 0.17225679755210876,
      "learning_rate": 0.001,
      "loss": 0.2878,
      "step": 1828
    },
    {
      "epoch": 1.8644240570846076,
      "grad_norm": 0.2782052457332611,
      "learning_rate": 0.001,
      "loss": 0.2612,
      "step": 1829
    },
    {
      "epoch": 1.8654434250764527,
      "grad_norm": 0.1950048953294754,
      "learning_rate": 0.001,
      "loss": 0.3157,
      "step": 1830
    },
    {
      "epoch": 1.8664627930682975,
      "grad_norm": 0.185537651181221,
      "learning_rate": 0.001,
      "loss": 0.304,
      "step": 1831
    },
    {
      "epoch": 1.8674821610601429,
      "grad_norm": 0.3481011390686035,
      "learning_rate": 0.001,
      "loss": 0.3062,
      "step": 1832
    },
    {
      "epoch": 1.8685015290519877,
      "grad_norm": 0.32050302624702454,
      "learning_rate": 0.001,
      "loss": 0.3206,
      "step": 1833
    },
    {
      "epoch": 1.8695208970438328,
      "grad_norm": 0.20601753890514374,
      "learning_rate": 0.001,
      "loss": 0.3279,
      "step": 1834
    },
    {
      "epoch": 1.870540265035678,
      "grad_norm": 0.15610605478286743,
      "learning_rate": 0.001,
      "loss": 0.2749,
      "step": 1835
    },
    {
      "epoch": 1.8715596330275228,
      "grad_norm": 0.21071507036685944,
      "learning_rate": 0.001,
      "loss": 0.3069,
      "step": 1836
    },
    {
      "epoch": 1.8725790010193681,
      "grad_norm": 0.2948683798313141,
      "learning_rate": 0.001,
      "loss": 0.322,
      "step": 1837
    },
    {
      "epoch": 1.873598369011213,
      "grad_norm": 0.19754640758037567,
      "learning_rate": 0.001,
      "loss": 0.2716,
      "step": 1838
    },
    {
      "epoch": 1.8746177370030581,
      "grad_norm": 0.18709449470043182,
      "learning_rate": 0.001,
      "loss": 0.3083,
      "step": 1839
    },
    {
      "epoch": 1.8756371049949032,
      "grad_norm": 0.24853982031345367,
      "learning_rate": 0.001,
      "loss": 0.3436,
      "step": 1840
    },
    {
      "epoch": 1.876656472986748,
      "grad_norm": 0.24579112231731415,
      "learning_rate": 0.001,
      "loss": 0.301,
      "step": 1841
    },
    {
      "epoch": 1.8776758409785934,
      "grad_norm": 0.30049416422843933,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 1842
    },
    {
      "epoch": 1.8786952089704383,
      "grad_norm": 0.21559080481529236,
      "learning_rate": 0.001,
      "loss": 0.3037,
      "step": 1843
    },
    {
      "epoch": 1.8797145769622834,
      "grad_norm": 0.21085573732852936,
      "learning_rate": 0.001,
      "loss": 0.333,
      "step": 1844
    },
    {
      "epoch": 1.8807339449541285,
      "grad_norm": 0.23440296947956085,
      "learning_rate": 0.001,
      "loss": 0.3041,
      "step": 1845
    },
    {
      "epoch": 1.8817533129459734,
      "grad_norm": 0.2126021683216095,
      "learning_rate": 0.001,
      "loss": 0.2538,
      "step": 1846
    },
    {
      "epoch": 1.8827726809378187,
      "grad_norm": 0.17801953852176666,
      "learning_rate": 0.001,
      "loss": 0.2896,
      "step": 1847
    },
    {
      "epoch": 1.8837920489296636,
      "grad_norm": 0.15027911961078644,
      "learning_rate": 0.001,
      "loss": 0.3035,
      "step": 1848
    },
    {
      "epoch": 1.8848114169215087,
      "grad_norm": 0.20071426033973694,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 1849
    },
    {
      "epoch": 1.8858307849133538,
      "grad_norm": 0.25462618470191956,
      "learning_rate": 0.001,
      "loss": 0.335,
      "step": 1850
    },
    {
      "epoch": 1.8868501529051986,
      "grad_norm": 0.27035319805145264,
      "learning_rate": 0.001,
      "loss": 0.3204,
      "step": 1851
    },
    {
      "epoch": 1.887869520897044,
      "grad_norm": 0.31611382961273193,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 1852
    },
    {
      "epoch": 1.8888888888888888,
      "grad_norm": 0.20679917931556702,
      "learning_rate": 0.001,
      "loss": 0.3518,
      "step": 1853
    },
    {
      "epoch": 1.889908256880734,
      "grad_norm": 0.21448679268360138,
      "learning_rate": 0.001,
      "loss": 0.3085,
      "step": 1854
    },
    {
      "epoch": 1.890927624872579,
      "grad_norm": 0.2365492284297943,
      "learning_rate": 0.001,
      "loss": 0.3254,
      "step": 1855
    },
    {
      "epoch": 1.891946992864424,
      "grad_norm": 0.18040792644023895,
      "learning_rate": 0.001,
      "loss": 0.298,
      "step": 1856
    },
    {
      "epoch": 1.8929663608562692,
      "grad_norm": 0.2559858560562134,
      "learning_rate": 0.001,
      "loss": 0.3236,
      "step": 1857
    },
    {
      "epoch": 1.8939857288481141,
      "grad_norm": 0.24019810557365417,
      "learning_rate": 0.001,
      "loss": 0.3105,
      "step": 1858
    },
    {
      "epoch": 1.8950050968399592,
      "grad_norm": 0.19840486347675323,
      "learning_rate": 0.001,
      "loss": 0.2573,
      "step": 1859
    },
    {
      "epoch": 1.8960244648318043,
      "grad_norm": 0.44880038499832153,
      "learning_rate": 0.001,
      "loss": 0.322,
      "step": 1860
    },
    {
      "epoch": 1.8970438328236492,
      "grad_norm": 0.18578778207302094,
      "learning_rate": 0.001,
      "loss": 0.307,
      "step": 1861
    },
    {
      "epoch": 1.8980632008154945,
      "grad_norm": 0.3394796550273895,
      "learning_rate": 0.001,
      "loss": 0.3064,
      "step": 1862
    },
    {
      "epoch": 1.8990825688073394,
      "grad_norm": 0.2350272685289383,
      "learning_rate": 0.001,
      "loss": 0.2943,
      "step": 1863
    },
    {
      "epoch": 1.9001019367991845,
      "grad_norm": 0.24585427343845367,
      "learning_rate": 0.001,
      "loss": 0.3274,
      "step": 1864
    },
    {
      "epoch": 1.9011213047910296,
      "grad_norm": 0.24098259210586548,
      "learning_rate": 0.001,
      "loss": 0.2957,
      "step": 1865
    },
    {
      "epoch": 1.9021406727828745,
      "grad_norm": 0.23490440845489502,
      "learning_rate": 0.001,
      "loss": 0.2867,
      "step": 1866
    },
    {
      "epoch": 1.9031600407747198,
      "grad_norm": 0.17599254846572876,
      "learning_rate": 0.001,
      "loss": 0.2917,
      "step": 1867
    },
    {
      "epoch": 1.9041794087665647,
      "grad_norm": 0.2579057216644287,
      "learning_rate": 0.001,
      "loss": 0.2847,
      "step": 1868
    },
    {
      "epoch": 1.9051987767584098,
      "grad_norm": 0.19003362953662872,
      "learning_rate": 0.001,
      "loss": 0.3043,
      "step": 1869
    },
    {
      "epoch": 1.9062181447502549,
      "grad_norm": 0.18326768279075623,
      "learning_rate": 0.001,
      "loss": 0.2985,
      "step": 1870
    },
    {
      "epoch": 1.9072375127420997,
      "grad_norm": 0.24708528816699982,
      "learning_rate": 0.001,
      "loss": 0.301,
      "step": 1871
    },
    {
      "epoch": 1.908256880733945,
      "grad_norm": 0.17566928267478943,
      "learning_rate": 0.001,
      "loss": 0.2631,
      "step": 1872
    },
    {
      "epoch": 1.90927624872579,
      "grad_norm": 0.26500746607780457,
      "learning_rate": 0.001,
      "loss": 0.3184,
      "step": 1873
    },
    {
      "epoch": 1.910295616717635,
      "grad_norm": 0.17613975703716278,
      "learning_rate": 0.001,
      "loss": 0.3083,
      "step": 1874
    },
    {
      "epoch": 1.9113149847094801,
      "grad_norm": 0.27850064635276794,
      "learning_rate": 0.001,
      "loss": 0.2832,
      "step": 1875
    },
    {
      "epoch": 1.912334352701325,
      "grad_norm": 0.22516074776649475,
      "learning_rate": 0.001,
      "loss": 0.3107,
      "step": 1876
    },
    {
      "epoch": 1.9133537206931703,
      "grad_norm": 0.24959594011306763,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 1877
    },
    {
      "epoch": 1.9143730886850152,
      "grad_norm": 0.21451959013938904,
      "learning_rate": 0.001,
      "loss": 0.3097,
      "step": 1878
    },
    {
      "epoch": 1.9153924566768603,
      "grad_norm": 0.18514758348464966,
      "learning_rate": 0.001,
      "loss": 0.3036,
      "step": 1879
    },
    {
      "epoch": 1.9164118246687054,
      "grad_norm": 0.18482421338558197,
      "learning_rate": 0.001,
      "loss": 0.2998,
      "step": 1880
    },
    {
      "epoch": 1.9174311926605505,
      "grad_norm": 0.18724501132965088,
      "learning_rate": 0.001,
      "loss": 0.2871,
      "step": 1881
    },
    {
      "epoch": 1.9184505606523956,
      "grad_norm": 0.19412840902805328,
      "learning_rate": 0.001,
      "loss": 0.3047,
      "step": 1882
    },
    {
      "epoch": 1.9194699286442405,
      "grad_norm": 0.30442407727241516,
      "learning_rate": 0.001,
      "loss": 0.3354,
      "step": 1883
    },
    {
      "epoch": 1.9204892966360856,
      "grad_norm": 0.19949191808700562,
      "learning_rate": 0.001,
      "loss": 0.2804,
      "step": 1884
    },
    {
      "epoch": 1.9215086646279307,
      "grad_norm": 0.2825099527835846,
      "learning_rate": 0.001,
      "loss": 0.3076,
      "step": 1885
    },
    {
      "epoch": 1.9225280326197758,
      "grad_norm": 0.21239027380943298,
      "learning_rate": 0.001,
      "loss": 0.2915,
      "step": 1886
    },
    {
      "epoch": 1.9235474006116209,
      "grad_norm": 0.30774378776550293,
      "learning_rate": 0.001,
      "loss": 0.3159,
      "step": 1887
    },
    {
      "epoch": 1.9245667686034658,
      "grad_norm": 0.17626617848873138,
      "learning_rate": 0.001,
      "loss": 0.29,
      "step": 1888
    },
    {
      "epoch": 1.9255861365953109,
      "grad_norm": 0.38441377878189087,
      "learning_rate": 0.001,
      "loss": 0.3123,
      "step": 1889
    },
    {
      "epoch": 1.926605504587156,
      "grad_norm": 0.3357701897621155,
      "learning_rate": 0.001,
      "loss": 0.2899,
      "step": 1890
    },
    {
      "epoch": 1.927624872579001,
      "grad_norm": 0.3401840329170227,
      "learning_rate": 0.001,
      "loss": 0.2695,
      "step": 1891
    },
    {
      "epoch": 1.9286442405708462,
      "grad_norm": 0.1596408486366272,
      "learning_rate": 0.001,
      "loss": 0.2885,
      "step": 1892
    },
    {
      "epoch": 1.929663608562691,
      "grad_norm": 0.23554693162441254,
      "learning_rate": 0.001,
      "loss": 0.3069,
      "step": 1893
    },
    {
      "epoch": 1.9306829765545361,
      "grad_norm": 0.32921549677848816,
      "learning_rate": 0.001,
      "loss": 0.3445,
      "step": 1894
    },
    {
      "epoch": 1.9317023445463812,
      "grad_norm": 0.20091678202152252,
      "learning_rate": 0.001,
      "loss": 0.2963,
      "step": 1895
    },
    {
      "epoch": 1.9327217125382263,
      "grad_norm": 0.26033127307891846,
      "learning_rate": 0.001,
      "loss": 0.2904,
      "step": 1896
    },
    {
      "epoch": 1.9337410805300714,
      "grad_norm": 0.17714998126029968,
      "learning_rate": 0.001,
      "loss": 0.2781,
      "step": 1897
    },
    {
      "epoch": 1.9347604485219163,
      "grad_norm": 0.19386063516139984,
      "learning_rate": 0.001,
      "loss": 0.2933,
      "step": 1898
    },
    {
      "epoch": 1.9357798165137616,
      "grad_norm": 0.2880069613456726,
      "learning_rate": 0.001,
      "loss": 0.3019,
      "step": 1899
    },
    {
      "epoch": 1.9367991845056065,
      "grad_norm": 0.33440497517585754,
      "learning_rate": 0.001,
      "loss": 0.3245,
      "step": 1900
    },
    {
      "epoch": 1.9378185524974516,
      "grad_norm": 0.20906995236873627,
      "learning_rate": 0.001,
      "loss": 0.2805,
      "step": 1901
    },
    {
      "epoch": 1.9388379204892967,
      "grad_norm": 0.16059474647045135,
      "learning_rate": 0.001,
      "loss": 0.2932,
      "step": 1902
    },
    {
      "epoch": 1.9398572884811416,
      "grad_norm": 0.15743419528007507,
      "learning_rate": 0.001,
      "loss": 0.2953,
      "step": 1903
    },
    {
      "epoch": 1.940876656472987,
      "grad_norm": 0.2314019650220871,
      "learning_rate": 0.001,
      "loss": 0.2585,
      "step": 1904
    },
    {
      "epoch": 1.9418960244648318,
      "grad_norm": 0.20192654430866241,
      "learning_rate": 0.001,
      "loss": 0.2772,
      "step": 1905
    },
    {
      "epoch": 1.9429153924566769,
      "grad_norm": 0.15785321593284607,
      "learning_rate": 0.001,
      "loss": 0.2896,
      "step": 1906
    },
    {
      "epoch": 1.943934760448522,
      "grad_norm": 0.3041626811027527,
      "learning_rate": 0.001,
      "loss": 0.3009,
      "step": 1907
    },
    {
      "epoch": 1.9449541284403669,
      "grad_norm": 0.21842807531356812,
      "learning_rate": 0.001,
      "loss": 0.2974,
      "step": 1908
    },
    {
      "epoch": 1.9459734964322122,
      "grad_norm": 0.3055204451084137,
      "learning_rate": 0.001,
      "loss": 0.2968,
      "step": 1909
    },
    {
      "epoch": 1.946992864424057,
      "grad_norm": 0.2823183834552765,
      "learning_rate": 0.001,
      "loss": 0.2899,
      "step": 1910
    },
    {
      "epoch": 1.9480122324159022,
      "grad_norm": 0.23112140595912933,
      "learning_rate": 0.001,
      "loss": 0.2932,
      "step": 1911
    },
    {
      "epoch": 1.9490316004077473,
      "grad_norm": 0.24504582583904266,
      "learning_rate": 0.001,
      "loss": 0.3057,
      "step": 1912
    },
    {
      "epoch": 1.9500509683995921,
      "grad_norm": 0.18595170974731445,
      "learning_rate": 0.001,
      "loss": 0.3251,
      "step": 1913
    },
    {
      "epoch": 1.9510703363914375,
      "grad_norm": 0.37217801809310913,
      "learning_rate": 0.001,
      "loss": 0.2755,
      "step": 1914
    },
    {
      "epoch": 1.9520897043832823,
      "grad_norm": 0.32504382729530334,
      "learning_rate": 0.001,
      "loss": 0.3042,
      "step": 1915
    },
    {
      "epoch": 1.9531090723751274,
      "grad_norm": 0.22978639602661133,
      "learning_rate": 0.001,
      "loss": 0.3004,
      "step": 1916
    },
    {
      "epoch": 1.9541284403669725,
      "grad_norm": 0.16074547171592712,
      "learning_rate": 0.001,
      "loss": 0.2992,
      "step": 1917
    },
    {
      "epoch": 1.9551478083588174,
      "grad_norm": 0.37212178111076355,
      "learning_rate": 0.001,
      "loss": 0.3021,
      "step": 1918
    },
    {
      "epoch": 1.9561671763506627,
      "grad_norm": 0.30422255396842957,
      "learning_rate": 0.001,
      "loss": 0.3347,
      "step": 1919
    },
    {
      "epoch": 1.9571865443425076,
      "grad_norm": 0.22685383260250092,
      "learning_rate": 0.001,
      "loss": 0.3197,
      "step": 1920
    },
    {
      "epoch": 1.9582059123343527,
      "grad_norm": 0.20499122142791748,
      "learning_rate": 0.001,
      "loss": 0.2769,
      "step": 1921
    },
    {
      "epoch": 1.9592252803261978,
      "grad_norm": 0.19740834832191467,
      "learning_rate": 0.001,
      "loss": 0.2931,
      "step": 1922
    },
    {
      "epoch": 1.9602446483180427,
      "grad_norm": 0.3631431460380554,
      "learning_rate": 0.001,
      "loss": 0.3138,
      "step": 1923
    },
    {
      "epoch": 1.961264016309888,
      "grad_norm": 0.22323977947235107,
      "learning_rate": 0.001,
      "loss": 0.287,
      "step": 1924
    },
    {
      "epoch": 1.9622833843017329,
      "grad_norm": 0.1896030604839325,
      "learning_rate": 0.001,
      "loss": 0.313,
      "step": 1925
    },
    {
      "epoch": 1.963302752293578,
      "grad_norm": 0.30943384766578674,
      "learning_rate": 0.001,
      "loss": 0.2695,
      "step": 1926
    },
    {
      "epoch": 1.964322120285423,
      "grad_norm": 0.36134961247444153,
      "learning_rate": 0.001,
      "loss": 0.2905,
      "step": 1927
    },
    {
      "epoch": 1.965341488277268,
      "grad_norm": 0.1874953657388687,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 1928
    },
    {
      "epoch": 1.9663608562691133,
      "grad_norm": 0.2949703633785248,
      "learning_rate": 0.001,
      "loss": 0.2886,
      "step": 1929
    },
    {
      "epoch": 1.9673802242609582,
      "grad_norm": 0.2851758599281311,
      "learning_rate": 0.001,
      "loss": 0.3323,
      "step": 1930
    },
    {
      "epoch": 1.9683995922528033,
      "grad_norm": 0.25082719326019287,
      "learning_rate": 0.001,
      "loss": 0.2972,
      "step": 1931
    },
    {
      "epoch": 1.9694189602446484,
      "grad_norm": 0.3200331926345825,
      "learning_rate": 0.001,
      "loss": 0.3087,
      "step": 1932
    },
    {
      "epoch": 1.9704383282364932,
      "grad_norm": 0.15174560248851776,
      "learning_rate": 0.001,
      "loss": 0.2736,
      "step": 1933
    },
    {
      "epoch": 1.9714576962283386,
      "grad_norm": 0.2551312744617462,
      "learning_rate": 0.001,
      "loss": 0.2928,
      "step": 1934
    },
    {
      "epoch": 1.9724770642201834,
      "grad_norm": 0.21710602939128876,
      "learning_rate": 0.001,
      "loss": 0.2892,
      "step": 1935
    },
    {
      "epoch": 1.9734964322120285,
      "grad_norm": 0.1887061893939972,
      "learning_rate": 0.001,
      "loss": 0.2794,
      "step": 1936
    },
    {
      "epoch": 1.9745158002038736,
      "grad_norm": 0.21296094357967377,
      "learning_rate": 0.001,
      "loss": 0.2786,
      "step": 1937
    },
    {
      "epoch": 1.9755351681957185,
      "grad_norm": 0.32798096537590027,
      "learning_rate": 0.001,
      "loss": 0.3282,
      "step": 1938
    },
    {
      "epoch": 1.9765545361875638,
      "grad_norm": 0.23208802938461304,
      "learning_rate": 0.001,
      "loss": 0.2981,
      "step": 1939
    },
    {
      "epoch": 1.9775739041794087,
      "grad_norm": 0.18168321251869202,
      "learning_rate": 0.001,
      "loss": 0.2899,
      "step": 1940
    },
    {
      "epoch": 1.9785932721712538,
      "grad_norm": 0.23380917310714722,
      "learning_rate": 0.001,
      "loss": 0.2919,
      "step": 1941
    },
    {
      "epoch": 1.979612640163099,
      "grad_norm": 0.23914504051208496,
      "learning_rate": 0.001,
      "loss": 0.3002,
      "step": 1942
    },
    {
      "epoch": 1.9806320081549438,
      "grad_norm": 0.2857675850391388,
      "learning_rate": 0.001,
      "loss": 0.3051,
      "step": 1943
    },
    {
      "epoch": 1.981651376146789,
      "grad_norm": 0.25567251443862915,
      "learning_rate": 0.001,
      "loss": 0.332,
      "step": 1944
    },
    {
      "epoch": 1.982670744138634,
      "grad_norm": 0.2108018696308136,
      "learning_rate": 0.001,
      "loss": 0.3154,
      "step": 1945
    },
    {
      "epoch": 1.983690112130479,
      "grad_norm": 0.1900484263896942,
      "learning_rate": 0.001,
      "loss": 0.2836,
      "step": 1946
    },
    {
      "epoch": 1.9847094801223242,
      "grad_norm": 0.18574762344360352,
      "learning_rate": 0.001,
      "loss": 0.2698,
      "step": 1947
    },
    {
      "epoch": 1.985728848114169,
      "grad_norm": 0.35187965631484985,
      "learning_rate": 0.001,
      "loss": 0.2916,
      "step": 1948
    },
    {
      "epoch": 1.9867482161060144,
      "grad_norm": 0.20423728227615356,
      "learning_rate": 0.001,
      "loss": 0.2871,
      "step": 1949
    },
    {
      "epoch": 1.9877675840978593,
      "grad_norm": 0.3716784715652466,
      "learning_rate": 0.001,
      "loss": 0.327,
      "step": 1950
    },
    {
      "epoch": 1.9887869520897044,
      "grad_norm": 0.20073384046554565,
      "learning_rate": 0.001,
      "loss": 0.2905,
      "step": 1951
    },
    {
      "epoch": 1.9898063200815495,
      "grad_norm": 0.23560866713523865,
      "learning_rate": 0.001,
      "loss": 0.2767,
      "step": 1952
    },
    {
      "epoch": 1.9908256880733946,
      "grad_norm": 0.2483813464641571,
      "learning_rate": 0.001,
      "loss": 0.3115,
      "step": 1953
    },
    {
      "epoch": 1.9918450560652396,
      "grad_norm": 0.19072866439819336,
      "learning_rate": 0.001,
      "loss": 0.3298,
      "step": 1954
    },
    {
      "epoch": 1.9928644240570845,
      "grad_norm": 0.42101550102233887,
      "learning_rate": 0.001,
      "loss": 0.2939,
      "step": 1955
    },
    {
      "epoch": 1.9938837920489296,
      "grad_norm": 0.3852817714214325,
      "learning_rate": 0.001,
      "loss": 0.3237,
      "step": 1956
    },
    {
      "epoch": 1.9949031600407747,
      "grad_norm": 0.24755194783210754,
      "learning_rate": 0.001,
      "loss": 0.3123,
      "step": 1957
    },
    {
      "epoch": 1.9959225280326198,
      "grad_norm": 0.191395103931427,
      "learning_rate": 0.001,
      "loss": 0.2996,
      "step": 1958
    },
    {
      "epoch": 1.996941896024465,
      "grad_norm": 0.2576712369918823,
      "learning_rate": 0.001,
      "loss": 0.274,
      "step": 1959
    },
    {
      "epoch": 1.9979612640163098,
      "grad_norm": 0.2514430582523346,
      "learning_rate": 0.001,
      "loss": 0.2886,
      "step": 1960
    },
    {
      "epoch": 1.998980632008155,
      "grad_norm": 0.21750158071517944,
      "learning_rate": 0.001,
      "loss": 0.2727,
      "step": 1961
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.3035256862640381,
      "learning_rate": 0.001,
      "loss": 0.2725,
      "step": 1962
    },
    {
      "epoch": 2.0,
      "eval_-_f1-score": 0.0,
      "eval_-_precision": 0.0,
      "eval_-_recall": 0.0,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9249817916970139,
      "eval_<_precision": 0.9365781710914455,
      "eval_<_recall": 0.9136690647482014,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.3569230769230769,
      "eval_=_precision": 0.7532467532467533,
      "eval_=_recall": 0.23387096774193547,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9235212109141605,
      "eval_>_precision": 0.8956924859957505,
      "eval_>_recall": 0.9531346351490236,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.914,
      "eval_loss": 0.15629999339580536,
      "eval_macro_avg_f1-score": 0.5513565198835628,
      "eval_macro_avg_precision": 0.6463793525834873,
      "eval_macro_avg_recall": 0.5251686669097901,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9395,
      "eval_samples_per_second": 772.825,
      "eval_steps_per_second": 3.091,
      "eval_weighted_avg_f1-score": 0.9081484030780286,
      "eval_weighted_avg_precision": 0.9100801941534402,
      "eval_weighted_avg_recall": 0.914,
      "eval_weighted_avg_support": 10000.0,
      "step": 1962
    },
    {
      "epoch": 2.001019367991845,
      "grad_norm": 0.140581876039505,
      "learning_rate": 0.001,
      "loss": 0.2634,
      "step": 1963
    },
    {
      "epoch": 2.00203873598369,
      "grad_norm": 0.2939825654029846,
      "learning_rate": 0.001,
      "loss": 0.3035,
      "step": 1964
    },
    {
      "epoch": 2.003058103975535,
      "grad_norm": 0.30721303820610046,
      "learning_rate": 0.001,
      "loss": 0.2899,
      "step": 1965
    },
    {
      "epoch": 2.0040774719673804,
      "grad_norm": 0.2376868724822998,
      "learning_rate": 0.001,
      "loss": 0.2877,
      "step": 1966
    },
    {
      "epoch": 2.0050968399592253,
      "grad_norm": 0.22453950345516205,
      "learning_rate": 0.001,
      "loss": 0.2499,
      "step": 1967
    },
    {
      "epoch": 2.00611620795107,
      "grad_norm": 0.19915911555290222,
      "learning_rate": 0.001,
      "loss": 0.2845,
      "step": 1968
    },
    {
      "epoch": 2.0071355759429155,
      "grad_norm": 0.2239924520254135,
      "learning_rate": 0.001,
      "loss": 0.2767,
      "step": 1969
    },
    {
      "epoch": 2.0081549439347604,
      "grad_norm": 0.27995285391807556,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 1970
    },
    {
      "epoch": 2.0091743119266057,
      "grad_norm": 0.25727641582489014,
      "learning_rate": 0.001,
      "loss": 0.2891,
      "step": 1971
    },
    {
      "epoch": 2.0101936799184505,
      "grad_norm": 0.3620869815349579,
      "learning_rate": 0.001,
      "loss": 0.3098,
      "step": 1972
    },
    {
      "epoch": 2.0112130479102954,
      "grad_norm": 0.3342157006263733,
      "learning_rate": 0.001,
      "loss": 0.2823,
      "step": 1973
    },
    {
      "epoch": 2.0122324159021407,
      "grad_norm": 0.2956250011920929,
      "learning_rate": 0.001,
      "loss": 0.2886,
      "step": 1974
    },
    {
      "epoch": 2.0132517838939856,
      "grad_norm": 0.15287725627422333,
      "learning_rate": 0.001,
      "loss": 0.2689,
      "step": 1975
    },
    {
      "epoch": 2.014271151885831,
      "grad_norm": 0.20065045356750488,
      "learning_rate": 0.001,
      "loss": 0.3037,
      "step": 1976
    },
    {
      "epoch": 2.015290519877676,
      "grad_norm": 0.2980930507183075,
      "learning_rate": 0.001,
      "loss": 0.3051,
      "step": 1977
    },
    {
      "epoch": 2.0163098878695207,
      "grad_norm": 0.41213732957839966,
      "learning_rate": 0.001,
      "loss": 0.3185,
      "step": 1978
    },
    {
      "epoch": 2.017329255861366,
      "grad_norm": 0.25051194429397583,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 1979
    },
    {
      "epoch": 2.018348623853211,
      "grad_norm": 0.1454421728849411,
      "learning_rate": 0.001,
      "loss": 0.2618,
      "step": 1980
    },
    {
      "epoch": 2.019367991845056,
      "grad_norm": 0.28058287501335144,
      "learning_rate": 0.001,
      "loss": 0.2788,
      "step": 1981
    },
    {
      "epoch": 2.020387359836901,
      "grad_norm": 0.2482227385044098,
      "learning_rate": 0.001,
      "loss": 0.2913,
      "step": 1982
    },
    {
      "epoch": 2.021406727828746,
      "grad_norm": 0.28011780977249146,
      "learning_rate": 0.001,
      "loss": 0.2883,
      "step": 1983
    },
    {
      "epoch": 2.0224260958205913,
      "grad_norm": 0.2358669638633728,
      "learning_rate": 0.001,
      "loss": 0.3007,
      "step": 1984
    },
    {
      "epoch": 2.023445463812436,
      "grad_norm": 0.16044308245182037,
      "learning_rate": 0.001,
      "loss": 0.2612,
      "step": 1985
    },
    {
      "epoch": 2.0244648318042815,
      "grad_norm": 0.2204654961824417,
      "learning_rate": 0.001,
      "loss": 0.3029,
      "step": 1986
    },
    {
      "epoch": 2.0254841997961264,
      "grad_norm": 0.2413080930709839,
      "learning_rate": 0.001,
      "loss": 0.2673,
      "step": 1987
    },
    {
      "epoch": 2.0265035677879712,
      "grad_norm": 0.3155898451805115,
      "learning_rate": 0.001,
      "loss": 0.2626,
      "step": 1988
    },
    {
      "epoch": 2.0275229357798166,
      "grad_norm": 0.28330785036087036,
      "learning_rate": 0.001,
      "loss": 0.2539,
      "step": 1989
    },
    {
      "epoch": 2.0285423037716614,
      "grad_norm": 0.18063518404960632,
      "learning_rate": 0.001,
      "loss": 0.2852,
      "step": 1990
    },
    {
      "epoch": 2.0295616717635068,
      "grad_norm": 0.1575503945350647,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 1991
    },
    {
      "epoch": 2.0305810397553516,
      "grad_norm": 0.3099590837955475,
      "learning_rate": 0.001,
      "loss": 0.3026,
      "step": 1992
    },
    {
      "epoch": 2.0316004077471965,
      "grad_norm": 0.2891041338443756,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 1993
    },
    {
      "epoch": 2.032619775739042,
      "grad_norm": 0.19872334599494934,
      "learning_rate": 0.001,
      "loss": 0.2612,
      "step": 1994
    },
    {
      "epoch": 2.0336391437308867,
      "grad_norm": 0.2535755932331085,
      "learning_rate": 0.001,
      "loss": 0.276,
      "step": 1995
    },
    {
      "epoch": 2.034658511722732,
      "grad_norm": 0.2148512303829193,
      "learning_rate": 0.001,
      "loss": 0.2793,
      "step": 1996
    },
    {
      "epoch": 2.035677879714577,
      "grad_norm": 0.17179499566555023,
      "learning_rate": 0.001,
      "loss": 0.2749,
      "step": 1997
    },
    {
      "epoch": 2.036697247706422,
      "grad_norm": 0.25151169300079346,
      "learning_rate": 0.001,
      "loss": 0.2753,
      "step": 1998
    },
    {
      "epoch": 2.037716615698267,
      "grad_norm": 0.21502414345741272,
      "learning_rate": 0.001,
      "loss": 0.2806,
      "step": 1999
    },
    {
      "epoch": 2.038735983690112,
      "grad_norm": 0.20164364576339722,
      "learning_rate": 0.001,
      "loss": 0.2662,
      "step": 2000
    },
    {
      "epoch": 2.0397553516819573,
      "grad_norm": 0.18348023295402527,
      "learning_rate": 0.001,
      "loss": 0.2877,
      "step": 2001
    },
    {
      "epoch": 2.040774719673802,
      "grad_norm": 0.3563447892665863,
      "learning_rate": 0.001,
      "loss": 0.2654,
      "step": 2002
    },
    {
      "epoch": 2.0417940876656475,
      "grad_norm": 0.24057967960834503,
      "learning_rate": 0.001,
      "loss": 0.2776,
      "step": 2003
    },
    {
      "epoch": 2.0428134556574924,
      "grad_norm": 0.26253801584243774,
      "learning_rate": 0.001,
      "loss": 0.2866,
      "step": 2004
    },
    {
      "epoch": 2.0438328236493373,
      "grad_norm": 0.1253279596567154,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2005
    },
    {
      "epoch": 2.0448521916411826,
      "grad_norm": 0.1464681774377823,
      "learning_rate": 0.001,
      "loss": 0.2767,
      "step": 2006
    },
    {
      "epoch": 2.0458715596330275,
      "grad_norm": 0.24390484392642975,
      "learning_rate": 0.001,
      "loss": 0.2799,
      "step": 2007
    },
    {
      "epoch": 2.046890927624873,
      "grad_norm": 0.27646854519844055,
      "learning_rate": 0.001,
      "loss": 0.3074,
      "step": 2008
    },
    {
      "epoch": 2.0479102956167177,
      "grad_norm": 0.19899748265743256,
      "learning_rate": 0.001,
      "loss": 0.2621,
      "step": 2009
    },
    {
      "epoch": 2.0489296636085625,
      "grad_norm": 0.2106136679649353,
      "learning_rate": 0.001,
      "loss": 0.2567,
      "step": 2010
    },
    {
      "epoch": 2.049949031600408,
      "grad_norm": 0.2507838010787964,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 2011
    },
    {
      "epoch": 2.0509683995922527,
      "grad_norm": 0.21738992631435394,
      "learning_rate": 0.001,
      "loss": 0.2578,
      "step": 2012
    },
    {
      "epoch": 2.051987767584098,
      "grad_norm": 0.17629270255565643,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 2013
    },
    {
      "epoch": 2.053007135575943,
      "grad_norm": 0.18293683230876923,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 2014
    },
    {
      "epoch": 2.054026503567788,
      "grad_norm": 0.2002476304769516,
      "learning_rate": 0.001,
      "loss": 0.2798,
      "step": 2015
    },
    {
      "epoch": 2.055045871559633,
      "grad_norm": 0.16706378757953644,
      "learning_rate": 0.001,
      "loss": 0.3033,
      "step": 2016
    },
    {
      "epoch": 2.056065239551478,
      "grad_norm": 0.22829493880271912,
      "learning_rate": 0.001,
      "loss": 0.2645,
      "step": 2017
    },
    {
      "epoch": 2.0570846075433233,
      "grad_norm": 0.24295173585414886,
      "learning_rate": 0.001,
      "loss": 0.2616,
      "step": 2018
    },
    {
      "epoch": 2.058103975535168,
      "grad_norm": 0.19791266322135925,
      "learning_rate": 0.001,
      "loss": 0.2996,
      "step": 2019
    },
    {
      "epoch": 2.059123343527013,
      "grad_norm": 0.2292783409357071,
      "learning_rate": 0.001,
      "loss": 0.2467,
      "step": 2020
    },
    {
      "epoch": 2.0601427115188584,
      "grad_norm": 0.2261858433485031,
      "learning_rate": 0.001,
      "loss": 0.2852,
      "step": 2021
    },
    {
      "epoch": 2.0611620795107033,
      "grad_norm": 0.15319764614105225,
      "learning_rate": 0.001,
      "loss": 0.2778,
      "step": 2022
    },
    {
      "epoch": 2.0621814475025486,
      "grad_norm": 0.1419358104467392,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 2023
    },
    {
      "epoch": 2.0632008154943935,
      "grad_norm": 0.2676660120487213,
      "learning_rate": 0.001,
      "loss": 0.2712,
      "step": 2024
    },
    {
      "epoch": 2.0642201834862384,
      "grad_norm": 0.2311946153640747,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 2025
    },
    {
      "epoch": 2.0652395514780837,
      "grad_norm": 0.21991220116615295,
      "learning_rate": 0.001,
      "loss": 0.297,
      "step": 2026
    },
    {
      "epoch": 2.0662589194699286,
      "grad_norm": 0.18416833877563477,
      "learning_rate": 0.001,
      "loss": 0.2672,
      "step": 2027
    },
    {
      "epoch": 2.067278287461774,
      "grad_norm": 0.18761354684829712,
      "learning_rate": 0.001,
      "loss": 0.2745,
      "step": 2028
    },
    {
      "epoch": 2.0682976554536188,
      "grad_norm": 0.20375527441501617,
      "learning_rate": 0.001,
      "loss": 0.2983,
      "step": 2029
    },
    {
      "epoch": 2.0693170234454636,
      "grad_norm": 0.18390342593193054,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 2030
    },
    {
      "epoch": 2.070336391437309,
      "grad_norm": 0.2713152766227722,
      "learning_rate": 0.001,
      "loss": 0.2509,
      "step": 2031
    },
    {
      "epoch": 2.071355759429154,
      "grad_norm": 0.21626177430152893,
      "learning_rate": 0.001,
      "loss": 0.2639,
      "step": 2032
    },
    {
      "epoch": 2.072375127420999,
      "grad_norm": 0.18501245975494385,
      "learning_rate": 0.001,
      "loss": 0.2604,
      "step": 2033
    },
    {
      "epoch": 2.073394495412844,
      "grad_norm": 0.4055682420730591,
      "learning_rate": 0.001,
      "loss": 0.3164,
      "step": 2034
    },
    {
      "epoch": 2.074413863404689,
      "grad_norm": 0.36703845858573914,
      "learning_rate": 0.001,
      "loss": 0.2802,
      "step": 2035
    },
    {
      "epoch": 2.0754332313965342,
      "grad_norm": 0.19155782461166382,
      "learning_rate": 0.001,
      "loss": 0.27,
      "step": 2036
    },
    {
      "epoch": 2.076452599388379,
      "grad_norm": 0.17681728303432465,
      "learning_rate": 0.001,
      "loss": 0.2667,
      "step": 2037
    },
    {
      "epoch": 2.0774719673802244,
      "grad_norm": 0.22510050237178802,
      "learning_rate": 0.001,
      "loss": 0.2616,
      "step": 2038
    },
    {
      "epoch": 2.0784913353720693,
      "grad_norm": 0.30709126591682434,
      "learning_rate": 0.001,
      "loss": 0.2775,
      "step": 2039
    },
    {
      "epoch": 2.079510703363914,
      "grad_norm": 0.1488688439130783,
      "learning_rate": 0.001,
      "loss": 0.2734,
      "step": 2040
    },
    {
      "epoch": 2.0805300713557595,
      "grad_norm": 0.22617748379707336,
      "learning_rate": 0.001,
      "loss": 0.2786,
      "step": 2041
    },
    {
      "epoch": 2.0815494393476044,
      "grad_norm": 0.4107706844806671,
      "learning_rate": 0.001,
      "loss": 0.2874,
      "step": 2042
    },
    {
      "epoch": 2.0825688073394497,
      "grad_norm": 0.14602875709533691,
      "learning_rate": 0.001,
      "loss": 0.2571,
      "step": 2043
    },
    {
      "epoch": 2.0835881753312946,
      "grad_norm": 0.39185526967048645,
      "learning_rate": 0.001,
      "loss": 0.2798,
      "step": 2044
    },
    {
      "epoch": 2.0846075433231395,
      "grad_norm": 0.1671312004327774,
      "learning_rate": 0.001,
      "loss": 0.2588,
      "step": 2045
    },
    {
      "epoch": 2.085626911314985,
      "grad_norm": 0.40743812918663025,
      "learning_rate": 0.001,
      "loss": 0.2489,
      "step": 2046
    },
    {
      "epoch": 2.0866462793068297,
      "grad_norm": 0.24102185666561127,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 2047
    },
    {
      "epoch": 2.087665647298675,
      "grad_norm": 0.2655408978462219,
      "learning_rate": 0.001,
      "loss": 0.2906,
      "step": 2048
    },
    {
      "epoch": 2.08868501529052,
      "grad_norm": 0.1475161463022232,
      "learning_rate": 0.001,
      "loss": 0.226,
      "step": 2049
    },
    {
      "epoch": 2.0897043832823647,
      "grad_norm": 0.4356594681739807,
      "learning_rate": 0.001,
      "loss": 0.3047,
      "step": 2050
    },
    {
      "epoch": 2.09072375127421,
      "grad_norm": 0.1426485776901245,
      "learning_rate": 0.001,
      "loss": 0.2715,
      "step": 2051
    },
    {
      "epoch": 2.091743119266055,
      "grad_norm": 0.19209061563014984,
      "learning_rate": 0.001,
      "loss": 0.3168,
      "step": 2052
    },
    {
      "epoch": 2.0927624872579003,
      "grad_norm": 0.2264772355556488,
      "learning_rate": 0.001,
      "loss": 0.241,
      "step": 2053
    },
    {
      "epoch": 2.093781855249745,
      "grad_norm": 0.23081907629966736,
      "learning_rate": 0.001,
      "loss": 0.3153,
      "step": 2054
    },
    {
      "epoch": 2.09480122324159,
      "grad_norm": 0.32759565114974976,
      "learning_rate": 0.001,
      "loss": 0.2803,
      "step": 2055
    },
    {
      "epoch": 2.0958205912334353,
      "grad_norm": 0.2784304618835449,
      "learning_rate": 0.001,
      "loss": 0.2773,
      "step": 2056
    },
    {
      "epoch": 2.09683995922528,
      "grad_norm": 0.17699119448661804,
      "learning_rate": 0.001,
      "loss": 0.2605,
      "step": 2057
    },
    {
      "epoch": 2.0978593272171255,
      "grad_norm": 0.3449019193649292,
      "learning_rate": 0.001,
      "loss": 0.259,
      "step": 2058
    },
    {
      "epoch": 2.0988786952089704,
      "grad_norm": 0.32855653762817383,
      "learning_rate": 0.001,
      "loss": 0.2916,
      "step": 2059
    },
    {
      "epoch": 2.0998980632008153,
      "grad_norm": 0.19673217833042145,
      "learning_rate": 0.001,
      "loss": 0.3004,
      "step": 2060
    },
    {
      "epoch": 2.1009174311926606,
      "grad_norm": 0.2758549749851227,
      "learning_rate": 0.001,
      "loss": 0.2911,
      "step": 2061
    },
    {
      "epoch": 2.1019367991845055,
      "grad_norm": 0.17480935156345367,
      "learning_rate": 0.001,
      "loss": 0.2653,
      "step": 2062
    },
    {
      "epoch": 2.102956167176351,
      "grad_norm": 0.23970025777816772,
      "learning_rate": 0.001,
      "loss": 0.2576,
      "step": 2063
    },
    {
      "epoch": 2.1039755351681957,
      "grad_norm": 0.20331037044525146,
      "learning_rate": 0.001,
      "loss": 0.2917,
      "step": 2064
    },
    {
      "epoch": 2.1049949031600406,
      "grad_norm": 0.22369365394115448,
      "learning_rate": 0.001,
      "loss": 0.2852,
      "step": 2065
    },
    {
      "epoch": 2.106014271151886,
      "grad_norm": 0.22508828341960907,
      "learning_rate": 0.001,
      "loss": 0.2717,
      "step": 2066
    },
    {
      "epoch": 2.1070336391437308,
      "grad_norm": 0.24544833600521088,
      "learning_rate": 0.001,
      "loss": 0.2904,
      "step": 2067
    },
    {
      "epoch": 2.108053007135576,
      "grad_norm": 0.24949006736278534,
      "learning_rate": 0.001,
      "loss": 0.3195,
      "step": 2068
    },
    {
      "epoch": 2.109072375127421,
      "grad_norm": 0.1572909653186798,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 2069
    },
    {
      "epoch": 2.1100917431192663,
      "grad_norm": 0.17534321546554565,
      "learning_rate": 0.001,
      "loss": 0.2694,
      "step": 2070
    },
    {
      "epoch": 2.111111111111111,
      "grad_norm": 0.16516593098640442,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2071
    },
    {
      "epoch": 2.112130479102956,
      "grad_norm": 0.15731890499591827,
      "learning_rate": 0.001,
      "loss": 0.2505,
      "step": 2072
    },
    {
      "epoch": 2.1131498470948014,
      "grad_norm": 0.23454540967941284,
      "learning_rate": 0.001,
      "loss": 0.2743,
      "step": 2073
    },
    {
      "epoch": 2.1141692150866462,
      "grad_norm": 0.2142542004585266,
      "learning_rate": 0.001,
      "loss": 0.2998,
      "step": 2074
    },
    {
      "epoch": 2.115188583078491,
      "grad_norm": 0.1841791272163391,
      "learning_rate": 0.001,
      "loss": 0.298,
      "step": 2075
    },
    {
      "epoch": 2.1162079510703364,
      "grad_norm": 0.1596907675266266,
      "learning_rate": 0.001,
      "loss": 0.3153,
      "step": 2076
    },
    {
      "epoch": 2.1172273190621813,
      "grad_norm": 0.27107274532318115,
      "learning_rate": 0.001,
      "loss": 0.2856,
      "step": 2077
    },
    {
      "epoch": 2.1182466870540266,
      "grad_norm": 0.3862301707267761,
      "learning_rate": 0.001,
      "loss": 0.2806,
      "step": 2078
    },
    {
      "epoch": 2.1192660550458715,
      "grad_norm": 0.23295380175113678,
      "learning_rate": 0.001,
      "loss": 0.2581,
      "step": 2079
    },
    {
      "epoch": 2.120285423037717,
      "grad_norm": 0.19036288559436798,
      "learning_rate": 0.001,
      "loss": 0.2618,
      "step": 2080
    },
    {
      "epoch": 2.1213047910295617,
      "grad_norm": 0.19973890483379364,
      "learning_rate": 0.001,
      "loss": 0.2993,
      "step": 2081
    },
    {
      "epoch": 2.1223241590214066,
      "grad_norm": 0.1957586407661438,
      "learning_rate": 0.001,
      "loss": 0.2902,
      "step": 2082
    },
    {
      "epoch": 2.123343527013252,
      "grad_norm": 0.22118839621543884,
      "learning_rate": 0.001,
      "loss": 0.2682,
      "step": 2083
    },
    {
      "epoch": 2.124362895005097,
      "grad_norm": 0.13405387103557587,
      "learning_rate": 0.001,
      "loss": 0.2538,
      "step": 2084
    },
    {
      "epoch": 2.1253822629969417,
      "grad_norm": 0.25050586462020874,
      "learning_rate": 0.001,
      "loss": 0.2609,
      "step": 2085
    },
    {
      "epoch": 2.126401630988787,
      "grad_norm": 0.2525433897972107,
      "learning_rate": 0.001,
      "loss": 0.2985,
      "step": 2086
    },
    {
      "epoch": 2.127420998980632,
      "grad_norm": 0.18761500716209412,
      "learning_rate": 0.001,
      "loss": 0.2747,
      "step": 2087
    },
    {
      "epoch": 2.128440366972477,
      "grad_norm": 0.18216761946678162,
      "learning_rate": 0.001,
      "loss": 0.26,
      "step": 2088
    },
    {
      "epoch": 2.129459734964322,
      "grad_norm": 0.2563931345939636,
      "learning_rate": 0.001,
      "loss": 0.2703,
      "step": 2089
    },
    {
      "epoch": 2.1304791029561674,
      "grad_norm": 0.19968999922275543,
      "learning_rate": 0.001,
      "loss": 0.2971,
      "step": 2090
    },
    {
      "epoch": 2.1314984709480123,
      "grad_norm": 0.2560390830039978,
      "learning_rate": 0.001,
      "loss": 0.2683,
      "step": 2091
    },
    {
      "epoch": 2.132517838939857,
      "grad_norm": 0.3312068283557892,
      "learning_rate": 0.001,
      "loss": 0.2985,
      "step": 2092
    },
    {
      "epoch": 2.1335372069317025,
      "grad_norm": 0.18184839189052582,
      "learning_rate": 0.001,
      "loss": 0.2533,
      "step": 2093
    },
    {
      "epoch": 2.1345565749235473,
      "grad_norm": 0.19601331651210785,
      "learning_rate": 0.001,
      "loss": 0.2717,
      "step": 2094
    },
    {
      "epoch": 2.1355759429153927,
      "grad_norm": 0.2503680884838104,
      "learning_rate": 0.001,
      "loss": 0.272,
      "step": 2095
    },
    {
      "epoch": 2.1365953109072375,
      "grad_norm": 0.2662971019744873,
      "learning_rate": 0.001,
      "loss": 0.2847,
      "step": 2096
    },
    {
      "epoch": 2.1376146788990824,
      "grad_norm": 0.14690837264060974,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2097
    },
    {
      "epoch": 2.1386340468909277,
      "grad_norm": 0.17154239118099213,
      "learning_rate": 0.001,
      "loss": 0.304,
      "step": 2098
    },
    {
      "epoch": 2.1396534148827726,
      "grad_norm": 0.1909654289484024,
      "learning_rate": 0.001,
      "loss": 0.3091,
      "step": 2099
    },
    {
      "epoch": 2.140672782874618,
      "grad_norm": 0.2840012311935425,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2100
    },
    {
      "epoch": 2.141692150866463,
      "grad_norm": 0.2630290687084198,
      "learning_rate": 0.001,
      "loss": 0.2833,
      "step": 2101
    },
    {
      "epoch": 2.1427115188583077,
      "grad_norm": 0.19144484400749207,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2102
    },
    {
      "epoch": 2.143730886850153,
      "grad_norm": 0.17858141660690308,
      "learning_rate": 0.001,
      "loss": 0.269,
      "step": 2103
    },
    {
      "epoch": 2.144750254841998,
      "grad_norm": 0.2837270498275757,
      "learning_rate": 0.001,
      "loss": 0.2512,
      "step": 2104
    },
    {
      "epoch": 2.145769622833843,
      "grad_norm": 0.22186903655529022,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 2105
    },
    {
      "epoch": 2.146788990825688,
      "grad_norm": 0.2825409471988678,
      "learning_rate": 0.001,
      "loss": 0.2589,
      "step": 2106
    },
    {
      "epoch": 2.147808358817533,
      "grad_norm": 0.21712562441825867,
      "learning_rate": 0.001,
      "loss": 0.2896,
      "step": 2107
    },
    {
      "epoch": 2.1488277268093783,
      "grad_norm": 0.15124613046646118,
      "learning_rate": 0.001,
      "loss": 0.2823,
      "step": 2108
    },
    {
      "epoch": 2.149847094801223,
      "grad_norm": 0.29697808623313904,
      "learning_rate": 0.001,
      "loss": 0.2561,
      "step": 2109
    },
    {
      "epoch": 2.1508664627930685,
      "grad_norm": 0.2532642185688019,
      "learning_rate": 0.001,
      "loss": 0.2554,
      "step": 2110
    },
    {
      "epoch": 2.1518858307849134,
      "grad_norm": 0.4121915102005005,
      "learning_rate": 0.001,
      "loss": 0.2686,
      "step": 2111
    },
    {
      "epoch": 2.1529051987767582,
      "grad_norm": 0.2535490095615387,
      "learning_rate": 0.001,
      "loss": 0.2904,
      "step": 2112
    },
    {
      "epoch": 2.1539245667686036,
      "grad_norm": 0.15813510119915009,
      "learning_rate": 0.001,
      "loss": 0.3048,
      "step": 2113
    },
    {
      "epoch": 2.1549439347604484,
      "grad_norm": 0.23390527069568634,
      "learning_rate": 0.001,
      "loss": 0.2974,
      "step": 2114
    },
    {
      "epoch": 2.1559633027522938,
      "grad_norm": 0.29310914874076843,
      "learning_rate": 0.001,
      "loss": 0.2819,
      "step": 2115
    },
    {
      "epoch": 2.1569826707441386,
      "grad_norm": 0.31935012340545654,
      "learning_rate": 0.001,
      "loss": 0.2999,
      "step": 2116
    },
    {
      "epoch": 2.1580020387359835,
      "grad_norm": 0.21761278808116913,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 2117
    },
    {
      "epoch": 2.159021406727829,
      "grad_norm": 0.1303049772977829,
      "learning_rate": 0.001,
      "loss": 0.2639,
      "step": 2118
    },
    {
      "epoch": 2.1600407747196737,
      "grad_norm": 0.17044559121131897,
      "learning_rate": 0.001,
      "loss": 0.274,
      "step": 2119
    },
    {
      "epoch": 2.161060142711519,
      "grad_norm": 0.2144707590341568,
      "learning_rate": 0.001,
      "loss": 0.2648,
      "step": 2120
    },
    {
      "epoch": 2.162079510703364,
      "grad_norm": 0.3452666997909546,
      "learning_rate": 0.001,
      "loss": 0.3264,
      "step": 2121
    },
    {
      "epoch": 2.163098878695209,
      "grad_norm": 0.2571694850921631,
      "learning_rate": 0.001,
      "loss": 0.2766,
      "step": 2122
    },
    {
      "epoch": 2.164118246687054,
      "grad_norm": 0.22109277546405792,
      "learning_rate": 0.001,
      "loss": 0.3029,
      "step": 2123
    },
    {
      "epoch": 2.165137614678899,
      "grad_norm": 0.16953717172145844,
      "learning_rate": 0.001,
      "loss": 0.2792,
      "step": 2124
    },
    {
      "epoch": 2.1661569826707443,
      "grad_norm": 0.38812533020973206,
      "learning_rate": 0.001,
      "loss": 0.2863,
      "step": 2125
    },
    {
      "epoch": 2.167176350662589,
      "grad_norm": 0.39153164625167847,
      "learning_rate": 0.001,
      "loss": 0.2682,
      "step": 2126
    },
    {
      "epoch": 2.168195718654434,
      "grad_norm": 0.25494280457496643,
      "learning_rate": 0.001,
      "loss": 0.283,
      "step": 2127
    },
    {
      "epoch": 2.1692150866462794,
      "grad_norm": 0.17083428800106049,
      "learning_rate": 0.001,
      "loss": 0.2505,
      "step": 2128
    },
    {
      "epoch": 2.1702344546381243,
      "grad_norm": 0.2431563436985016,
      "learning_rate": 0.001,
      "loss": 0.2915,
      "step": 2129
    },
    {
      "epoch": 2.1712538226299696,
      "grad_norm": 0.38593947887420654,
      "learning_rate": 0.001,
      "loss": 0.3158,
      "step": 2130
    },
    {
      "epoch": 2.1722731906218145,
      "grad_norm": 0.1895005702972412,
      "learning_rate": 0.001,
      "loss": 0.303,
      "step": 2131
    },
    {
      "epoch": 2.1732925586136593,
      "grad_norm": 0.22155436873435974,
      "learning_rate": 0.001,
      "loss": 0.2815,
      "step": 2132
    },
    {
      "epoch": 2.1743119266055047,
      "grad_norm": 0.18752191960811615,
      "learning_rate": 0.001,
      "loss": 0.2642,
      "step": 2133
    },
    {
      "epoch": 2.1753312945973495,
      "grad_norm": 0.15392343699932098,
      "learning_rate": 0.001,
      "loss": 0.2616,
      "step": 2134
    },
    {
      "epoch": 2.176350662589195,
      "grad_norm": 0.2518324553966522,
      "learning_rate": 0.001,
      "loss": 0.2747,
      "step": 2135
    },
    {
      "epoch": 2.1773700305810397,
      "grad_norm": 0.19682589173316956,
      "learning_rate": 0.001,
      "loss": 0.2773,
      "step": 2136
    },
    {
      "epoch": 2.1783893985728846,
      "grad_norm": 0.2532200813293457,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 2137
    },
    {
      "epoch": 2.17940876656473,
      "grad_norm": 0.2868855893611908,
      "learning_rate": 0.001,
      "loss": 0.2667,
      "step": 2138
    },
    {
      "epoch": 2.180428134556575,
      "grad_norm": 0.23600994050502777,
      "learning_rate": 0.001,
      "loss": 0.2559,
      "step": 2139
    },
    {
      "epoch": 2.18144750254842,
      "grad_norm": 0.18377947807312012,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 2140
    },
    {
      "epoch": 2.182466870540265,
      "grad_norm": 0.21355414390563965,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 2141
    },
    {
      "epoch": 2.18348623853211,
      "grad_norm": 0.1802760511636734,
      "learning_rate": 0.001,
      "loss": 0.2773,
      "step": 2142
    },
    {
      "epoch": 2.184505606523955,
      "grad_norm": 0.294654905796051,
      "learning_rate": 0.001,
      "loss": 0.2621,
      "step": 2143
    },
    {
      "epoch": 2.1855249745158,
      "grad_norm": 0.1706458330154419,
      "learning_rate": 0.001,
      "loss": 0.3054,
      "step": 2144
    },
    {
      "epoch": 2.1865443425076454,
      "grad_norm": 0.17995566129684448,
      "learning_rate": 0.001,
      "loss": 0.2606,
      "step": 2145
    },
    {
      "epoch": 2.1875637104994903,
      "grad_norm": 0.30992981791496277,
      "learning_rate": 0.001,
      "loss": 0.2694,
      "step": 2146
    },
    {
      "epoch": 2.1885830784913356,
      "grad_norm": 0.3393488824367523,
      "learning_rate": 0.001,
      "loss": 0.2717,
      "step": 2147
    },
    {
      "epoch": 2.1896024464831805,
      "grad_norm": 0.19382774829864502,
      "learning_rate": 0.001,
      "loss": 0.2742,
      "step": 2148
    },
    {
      "epoch": 2.1906218144750254,
      "grad_norm": 0.19760890305042267,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 2149
    },
    {
      "epoch": 2.1916411824668707,
      "grad_norm": 0.31673216819763184,
      "learning_rate": 0.001,
      "loss": 0.2611,
      "step": 2150
    },
    {
      "epoch": 2.1926605504587156,
      "grad_norm": 0.21911576390266418,
      "learning_rate": 0.001,
      "loss": 0.2731,
      "step": 2151
    },
    {
      "epoch": 2.1936799184505604,
      "grad_norm": 0.195311039686203,
      "learning_rate": 0.001,
      "loss": 0.2703,
      "step": 2152
    },
    {
      "epoch": 2.1946992864424058,
      "grad_norm": 0.2067459374666214,
      "learning_rate": 0.001,
      "loss": 0.2726,
      "step": 2153
    },
    {
      "epoch": 2.1957186544342506,
      "grad_norm": 0.14694547653198242,
      "learning_rate": 0.001,
      "loss": 0.2854,
      "step": 2154
    },
    {
      "epoch": 2.196738022426096,
      "grad_norm": 0.29097554087638855,
      "learning_rate": 0.001,
      "loss": 0.2812,
      "step": 2155
    },
    {
      "epoch": 2.197757390417941,
      "grad_norm": 0.2127993255853653,
      "learning_rate": 0.001,
      "loss": 0.3016,
      "step": 2156
    },
    {
      "epoch": 2.198776758409786,
      "grad_norm": 0.255214661359787,
      "learning_rate": 0.001,
      "loss": 0.2721,
      "step": 2157
    },
    {
      "epoch": 2.199796126401631,
      "grad_norm": 0.27950385212898254,
      "learning_rate": 0.001,
      "loss": 0.2715,
      "step": 2158
    },
    {
      "epoch": 2.200815494393476,
      "grad_norm": 0.24034938216209412,
      "learning_rate": 0.001,
      "loss": 0.2722,
      "step": 2159
    },
    {
      "epoch": 2.2018348623853212,
      "grad_norm": 0.1775745004415512,
      "learning_rate": 0.001,
      "loss": 0.2802,
      "step": 2160
    },
    {
      "epoch": 2.202854230377166,
      "grad_norm": 0.18821164965629578,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 2161
    },
    {
      "epoch": 2.203873598369011,
      "grad_norm": 0.24798570573329926,
      "learning_rate": 0.001,
      "loss": 0.3337,
      "step": 2162
    },
    {
      "epoch": 2.2048929663608563,
      "grad_norm": 0.31231945753097534,
      "learning_rate": 0.001,
      "loss": 0.3125,
      "step": 2163
    },
    {
      "epoch": 2.205912334352701,
      "grad_norm": 0.19024138152599335,
      "learning_rate": 0.001,
      "loss": 0.3138,
      "step": 2164
    },
    {
      "epoch": 2.2069317023445465,
      "grad_norm": 0.18018963932991028,
      "learning_rate": 0.001,
      "loss": 0.2601,
      "step": 2165
    },
    {
      "epoch": 2.2079510703363914,
      "grad_norm": 0.17796792089939117,
      "learning_rate": 0.001,
      "loss": 0.2772,
      "step": 2166
    },
    {
      "epoch": 2.2089704383282367,
      "grad_norm": 0.2076520472764969,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 2167
    },
    {
      "epoch": 2.2099898063200816,
      "grad_norm": 0.2704191207885742,
      "learning_rate": 0.001,
      "loss": 0.2596,
      "step": 2168
    },
    {
      "epoch": 2.2110091743119265,
      "grad_norm": 0.29831817746162415,
      "learning_rate": 0.001,
      "loss": 0.3069,
      "step": 2169
    },
    {
      "epoch": 2.2120285423037718,
      "grad_norm": 0.22768156230449677,
      "learning_rate": 0.001,
      "loss": 0.2582,
      "step": 2170
    },
    {
      "epoch": 2.2130479102956166,
      "grad_norm": 0.18467429280281067,
      "learning_rate": 0.001,
      "loss": 0.2631,
      "step": 2171
    },
    {
      "epoch": 2.214067278287462,
      "grad_norm": 0.185702383518219,
      "learning_rate": 0.001,
      "loss": 0.286,
      "step": 2172
    },
    {
      "epoch": 2.215086646279307,
      "grad_norm": 0.18624481558799744,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2173
    },
    {
      "epoch": 2.2161060142711517,
      "grad_norm": 0.21752656996250153,
      "learning_rate": 0.001,
      "loss": 0.2742,
      "step": 2174
    },
    {
      "epoch": 2.217125382262997,
      "grad_norm": 0.2583501636981964,
      "learning_rate": 0.001,
      "loss": 0.2975,
      "step": 2175
    },
    {
      "epoch": 2.218144750254842,
      "grad_norm": 0.30059370398521423,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2176
    },
    {
      "epoch": 2.2191641182466872,
      "grad_norm": 0.18748590350151062,
      "learning_rate": 0.001,
      "loss": 0.2389,
      "step": 2177
    },
    {
      "epoch": 2.220183486238532,
      "grad_norm": 0.22393468022346497,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2178
    },
    {
      "epoch": 2.221202854230377,
      "grad_norm": 0.2514200210571289,
      "learning_rate": 0.001,
      "loss": 0.2716,
      "step": 2179
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.1690705567598343,
      "learning_rate": 0.001,
      "loss": 0.2582,
      "step": 2180
    },
    {
      "epoch": 2.223241590214067,
      "grad_norm": 0.20757648348808289,
      "learning_rate": 0.001,
      "loss": 0.2653,
      "step": 2181
    },
    {
      "epoch": 2.2242609582059125,
      "grad_norm": 0.21540889143943787,
      "learning_rate": 0.001,
      "loss": 0.2701,
      "step": 2182
    },
    {
      "epoch": 2.2252803261977574,
      "grad_norm": 0.202102929353714,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2183
    },
    {
      "epoch": 2.2262996941896023,
      "grad_norm": 0.1426570564508438,
      "learning_rate": 0.001,
      "loss": 0.2885,
      "step": 2184
    },
    {
      "epoch": 2.2273190621814476,
      "grad_norm": 0.20521235466003418,
      "learning_rate": 0.001,
      "loss": 0.2513,
      "step": 2185
    },
    {
      "epoch": 2.2283384301732925,
      "grad_norm": 0.2664530873298645,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2186
    },
    {
      "epoch": 2.229357798165138,
      "grad_norm": 0.1516333520412445,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2187
    },
    {
      "epoch": 2.2303771661569827,
      "grad_norm": 0.15959538519382477,
      "learning_rate": 0.001,
      "loss": 0.2673,
      "step": 2188
    },
    {
      "epoch": 2.2313965341488275,
      "grad_norm": 0.14165551960468292,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 2189
    },
    {
      "epoch": 2.232415902140673,
      "grad_norm": 0.18560737371444702,
      "learning_rate": 0.001,
      "loss": 0.2513,
      "step": 2190
    },
    {
      "epoch": 2.2334352701325177,
      "grad_norm": 0.223138689994812,
      "learning_rate": 0.001,
      "loss": 0.2689,
      "step": 2191
    },
    {
      "epoch": 2.234454638124363,
      "grad_norm": 0.2255358248949051,
      "learning_rate": 0.001,
      "loss": 0.2594,
      "step": 2192
    },
    {
      "epoch": 2.235474006116208,
      "grad_norm": 0.16251592338085175,
      "learning_rate": 0.001,
      "loss": 0.2517,
      "step": 2193
    },
    {
      "epoch": 2.236493374108053,
      "grad_norm": 0.23549897968769073,
      "learning_rate": 0.001,
      "loss": 0.2749,
      "step": 2194
    },
    {
      "epoch": 2.237512742099898,
      "grad_norm": 0.21570387482643127,
      "learning_rate": 0.001,
      "loss": 0.2595,
      "step": 2195
    },
    {
      "epoch": 2.238532110091743,
      "grad_norm": 0.21471545100212097,
      "learning_rate": 0.001,
      "loss": 0.2606,
      "step": 2196
    },
    {
      "epoch": 2.2395514780835883,
      "grad_norm": 0.21988782286643982,
      "learning_rate": 0.001,
      "loss": 0.2545,
      "step": 2197
    },
    {
      "epoch": 2.240570846075433,
      "grad_norm": 0.151760071516037,
      "learning_rate": 0.001,
      "loss": 0.2606,
      "step": 2198
    },
    {
      "epoch": 2.241590214067278,
      "grad_norm": 0.297728955745697,
      "learning_rate": 0.001,
      "loss": 0.2896,
      "step": 2199
    },
    {
      "epoch": 2.2426095820591234,
      "grad_norm": 0.20988190174102783,
      "learning_rate": 0.001,
      "loss": 0.2906,
      "step": 2200
    },
    {
      "epoch": 2.2436289500509683,
      "grad_norm": 0.18414339423179626,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 2201
    },
    {
      "epoch": 2.2446483180428136,
      "grad_norm": 0.23046478629112244,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 2202
    },
    {
      "epoch": 2.2456676860346585,
      "grad_norm": 0.175970196723938,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2203
    },
    {
      "epoch": 2.2466870540265034,
      "grad_norm": 0.19611196219921112,
      "learning_rate": 0.001,
      "loss": 0.2552,
      "step": 2204
    },
    {
      "epoch": 2.2477064220183487,
      "grad_norm": 0.35349491238594055,
      "learning_rate": 0.001,
      "loss": 0.2711,
      "step": 2205
    },
    {
      "epoch": 2.2487257900101936,
      "grad_norm": 0.3415238559246063,
      "learning_rate": 0.001,
      "loss": 0.2861,
      "step": 2206
    },
    {
      "epoch": 2.249745158002039,
      "grad_norm": 0.23275768756866455,
      "learning_rate": 0.001,
      "loss": 0.2648,
      "step": 2207
    },
    {
      "epoch": 2.2507645259938838,
      "grad_norm": 0.206920325756073,
      "learning_rate": 0.001,
      "loss": 0.2909,
      "step": 2208
    },
    {
      "epoch": 2.2517838939857286,
      "grad_norm": 0.24142658710479736,
      "learning_rate": 0.001,
      "loss": 0.3136,
      "step": 2209
    },
    {
      "epoch": 2.252803261977574,
      "grad_norm": 0.23713089525699615,
      "learning_rate": 0.001,
      "loss": 0.2781,
      "step": 2210
    },
    {
      "epoch": 2.253822629969419,
      "grad_norm": 0.13680347800254822,
      "learning_rate": 0.001,
      "loss": 0.2793,
      "step": 2211
    },
    {
      "epoch": 2.254841997961264,
      "grad_norm": 0.17350853979587555,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 2212
    },
    {
      "epoch": 2.255861365953109,
      "grad_norm": 0.2411307394504547,
      "learning_rate": 0.001,
      "loss": 0.3026,
      "step": 2213
    },
    {
      "epoch": 2.2568807339449544,
      "grad_norm": 0.16401340067386627,
      "learning_rate": 0.001,
      "loss": 0.2731,
      "step": 2214
    },
    {
      "epoch": 2.2579001019367992,
      "grad_norm": 0.15384343266487122,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 2215
    },
    {
      "epoch": 2.258919469928644,
      "grad_norm": 0.19121302664279938,
      "learning_rate": 0.001,
      "loss": 0.2852,
      "step": 2216
    },
    {
      "epoch": 2.2599388379204894,
      "grad_norm": 0.21412457525730133,
      "learning_rate": 0.001,
      "loss": 0.3036,
      "step": 2217
    },
    {
      "epoch": 2.2609582059123343,
      "grad_norm": 0.1962146908044815,
      "learning_rate": 0.001,
      "loss": 0.2651,
      "step": 2218
    },
    {
      "epoch": 2.261977573904179,
      "grad_norm": 0.16102902591228485,
      "learning_rate": 0.001,
      "loss": 0.2828,
      "step": 2219
    },
    {
      "epoch": 2.2629969418960245,
      "grad_norm": 0.1945452094078064,
      "learning_rate": 0.001,
      "loss": 0.2738,
      "step": 2220
    },
    {
      "epoch": 2.2640163098878694,
      "grad_norm": 0.22463884949684143,
      "learning_rate": 0.001,
      "loss": 0.2499,
      "step": 2221
    },
    {
      "epoch": 2.2650356778797147,
      "grad_norm": 0.1701536923646927,
      "learning_rate": 0.001,
      "loss": 0.2734,
      "step": 2222
    },
    {
      "epoch": 2.2660550458715596,
      "grad_norm": 0.17982974648475647,
      "learning_rate": 0.001,
      "loss": 0.2557,
      "step": 2223
    },
    {
      "epoch": 2.267074413863405,
      "grad_norm": 0.20449258387088776,
      "learning_rate": 0.001,
      "loss": 0.2463,
      "step": 2224
    },
    {
      "epoch": 2.26809378185525,
      "grad_norm": 0.17304794490337372,
      "learning_rate": 0.001,
      "loss": 0.226,
      "step": 2225
    },
    {
      "epoch": 2.2691131498470947,
      "grad_norm": 0.19257621467113495,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2226
    },
    {
      "epoch": 2.27013251783894,
      "grad_norm": 0.12467668950557709,
      "learning_rate": 0.001,
      "loss": 0.2382,
      "step": 2227
    },
    {
      "epoch": 2.271151885830785,
      "grad_norm": 0.20449872314929962,
      "learning_rate": 0.001,
      "loss": 0.2881,
      "step": 2228
    },
    {
      "epoch": 2.2721712538226297,
      "grad_norm": 0.22599175572395325,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 2229
    },
    {
      "epoch": 2.273190621814475,
      "grad_norm": 0.2795051038265228,
      "learning_rate": 0.001,
      "loss": 0.2605,
      "step": 2230
    },
    {
      "epoch": 2.27420998980632,
      "grad_norm": 0.170296311378479,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 2231
    },
    {
      "epoch": 2.2752293577981653,
      "grad_norm": 0.15140694379806519,
      "learning_rate": 0.001,
      "loss": 0.2603,
      "step": 2232
    },
    {
      "epoch": 2.27624872579001,
      "grad_norm": 0.1898934245109558,
      "learning_rate": 0.001,
      "loss": 0.3179,
      "step": 2233
    },
    {
      "epoch": 2.2772680937818555,
      "grad_norm": 0.19588081538677216,
      "learning_rate": 0.001,
      "loss": 0.2692,
      "step": 2234
    },
    {
      "epoch": 2.2782874617737003,
      "grad_norm": 0.20715244114398956,
      "learning_rate": 0.001,
      "loss": 0.2654,
      "step": 2235
    },
    {
      "epoch": 2.279306829765545,
      "grad_norm": 0.15305714309215546,
      "learning_rate": 0.001,
      "loss": 0.2637,
      "step": 2236
    },
    {
      "epoch": 2.2803261977573905,
      "grad_norm": 0.2237938493490219,
      "learning_rate": 0.001,
      "loss": 0.3036,
      "step": 2237
    },
    {
      "epoch": 2.2813455657492354,
      "grad_norm": 0.2239696979522705,
      "learning_rate": 0.001,
      "loss": 0.2653,
      "step": 2238
    },
    {
      "epoch": 2.2823649337410803,
      "grad_norm": 0.1800038069486618,
      "learning_rate": 0.001,
      "loss": 0.2754,
      "step": 2239
    },
    {
      "epoch": 2.2833843017329256,
      "grad_norm": 0.20440773665905,
      "learning_rate": 0.001,
      "loss": 0.2439,
      "step": 2240
    },
    {
      "epoch": 2.2844036697247705,
      "grad_norm": 0.09817451983690262,
      "learning_rate": 0.001,
      "loss": 0.2615,
      "step": 2241
    },
    {
      "epoch": 2.285423037716616,
      "grad_norm": 0.18573559820652008,
      "learning_rate": 0.001,
      "loss": 0.2786,
      "step": 2242
    },
    {
      "epoch": 2.2864424057084607,
      "grad_norm": 0.21981342136859894,
      "learning_rate": 0.001,
      "loss": 0.2614,
      "step": 2243
    },
    {
      "epoch": 2.287461773700306,
      "grad_norm": 0.22711341083049774,
      "learning_rate": 0.001,
      "loss": 0.2682,
      "step": 2244
    },
    {
      "epoch": 2.288481141692151,
      "grad_norm": 0.21757404506206512,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 2245
    },
    {
      "epoch": 2.2895005096839958,
      "grad_norm": 0.19305235147476196,
      "learning_rate": 0.001,
      "loss": 0.2753,
      "step": 2246
    },
    {
      "epoch": 2.290519877675841,
      "grad_norm": 0.17537255585193634,
      "learning_rate": 0.001,
      "loss": 0.252,
      "step": 2247
    },
    {
      "epoch": 2.291539245667686,
      "grad_norm": 0.3565407693386078,
      "learning_rate": 0.001,
      "loss": 0.2812,
      "step": 2248
    },
    {
      "epoch": 2.292558613659531,
      "grad_norm": 0.18251070380210876,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2249
    },
    {
      "epoch": 2.293577981651376,
      "grad_norm": 0.2610646188259125,
      "learning_rate": 0.001,
      "loss": 0.2726,
      "step": 2250
    },
    {
      "epoch": 2.294597349643221,
      "grad_norm": 0.24435335397720337,
      "learning_rate": 0.001,
      "loss": 0.272,
      "step": 2251
    },
    {
      "epoch": 2.2956167176350664,
      "grad_norm": 0.2634040117263794,
      "learning_rate": 0.001,
      "loss": 0.2944,
      "step": 2252
    },
    {
      "epoch": 2.2966360856269112,
      "grad_norm": 0.2678540349006653,
      "learning_rate": 0.001,
      "loss": 0.2708,
      "step": 2253
    },
    {
      "epoch": 2.2976554536187566,
      "grad_norm": 0.17116381227970123,
      "learning_rate": 0.001,
      "loss": 0.2664,
      "step": 2254
    },
    {
      "epoch": 2.2986748216106014,
      "grad_norm": 0.15209676325321198,
      "learning_rate": 0.001,
      "loss": 0.2585,
      "step": 2255
    },
    {
      "epoch": 2.2996941896024463,
      "grad_norm": 0.19846844673156738,
      "learning_rate": 0.001,
      "loss": 0.2511,
      "step": 2256
    },
    {
      "epoch": 2.3007135575942916,
      "grad_norm": 0.202140212059021,
      "learning_rate": 0.001,
      "loss": 0.3048,
      "step": 2257
    },
    {
      "epoch": 2.3017329255861365,
      "grad_norm": 0.2252667099237442,
      "learning_rate": 0.001,
      "loss": 0.2925,
      "step": 2258
    },
    {
      "epoch": 2.302752293577982,
      "grad_norm": 0.15443895757198334,
      "learning_rate": 0.001,
      "loss": 0.2615,
      "step": 2259
    },
    {
      "epoch": 2.3037716615698267,
      "grad_norm": 0.18900427222251892,
      "learning_rate": 0.001,
      "loss": 0.3046,
      "step": 2260
    },
    {
      "epoch": 2.3047910295616716,
      "grad_norm": 0.22152969241142273,
      "learning_rate": 0.001,
      "loss": 0.2803,
      "step": 2261
    },
    {
      "epoch": 2.305810397553517,
      "grad_norm": 0.14138537645339966,
      "learning_rate": 0.001,
      "loss": 0.2581,
      "step": 2262
    },
    {
      "epoch": 2.306829765545362,
      "grad_norm": 0.1876213699579239,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 2263
    },
    {
      "epoch": 2.307849133537207,
      "grad_norm": 0.31002259254455566,
      "learning_rate": 0.001,
      "loss": 0.2789,
      "step": 2264
    },
    {
      "epoch": 2.308868501529052,
      "grad_norm": 0.16846083104610443,
      "learning_rate": 0.001,
      "loss": 0.2882,
      "step": 2265
    },
    {
      "epoch": 2.309887869520897,
      "grad_norm": 0.1668270230293274,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 2266
    },
    {
      "epoch": 2.310907237512742,
      "grad_norm": 0.13030153512954712,
      "learning_rate": 0.001,
      "loss": 0.2634,
      "step": 2267
    },
    {
      "epoch": 2.311926605504587,
      "grad_norm": 0.22054040431976318,
      "learning_rate": 0.001,
      "loss": 0.2667,
      "step": 2268
    },
    {
      "epoch": 2.3129459734964324,
      "grad_norm": 0.13600462675094604,
      "learning_rate": 0.001,
      "loss": 0.2705,
      "step": 2269
    },
    {
      "epoch": 2.3139653414882773,
      "grad_norm": 0.14281025528907776,
      "learning_rate": 0.001,
      "loss": 0.2826,
      "step": 2270
    },
    {
      "epoch": 2.314984709480122,
      "grad_norm": 0.21185047924518585,
      "learning_rate": 0.001,
      "loss": 0.2852,
      "step": 2271
    },
    {
      "epoch": 2.3160040774719675,
      "grad_norm": 0.2897842526435852,
      "learning_rate": 0.001,
      "loss": 0.2952,
      "step": 2272
    },
    {
      "epoch": 2.3170234454638123,
      "grad_norm": 0.1581517606973648,
      "learning_rate": 0.001,
      "loss": 0.2549,
      "step": 2273
    },
    {
      "epoch": 2.3180428134556577,
      "grad_norm": 0.20342771708965302,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 2274
    },
    {
      "epoch": 2.3190621814475025,
      "grad_norm": 0.17516694962978363,
      "learning_rate": 0.001,
      "loss": 0.271,
      "step": 2275
    },
    {
      "epoch": 2.3200815494393474,
      "grad_norm": 0.18565070629119873,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 2276
    },
    {
      "epoch": 2.3211009174311927,
      "grad_norm": 0.28220421075820923,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 2277
    },
    {
      "epoch": 2.3221202854230376,
      "grad_norm": 0.2304697483778,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 2278
    },
    {
      "epoch": 2.323139653414883,
      "grad_norm": 0.12037073075771332,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 2279
    },
    {
      "epoch": 2.324159021406728,
      "grad_norm": 0.18594804406166077,
      "learning_rate": 0.001,
      "loss": 0.2704,
      "step": 2280
    },
    {
      "epoch": 2.325178389398573,
      "grad_norm": 0.3274765908718109,
      "learning_rate": 0.001,
      "loss": 0.295,
      "step": 2281
    },
    {
      "epoch": 2.326197757390418,
      "grad_norm": 0.24736569821834564,
      "learning_rate": 0.001,
      "loss": 0.306,
      "step": 2282
    },
    {
      "epoch": 2.327217125382263,
      "grad_norm": 0.22902418673038483,
      "learning_rate": 0.001,
      "loss": 0.3021,
      "step": 2283
    },
    {
      "epoch": 2.328236493374108,
      "grad_norm": 0.16912078857421875,
      "learning_rate": 0.001,
      "loss": 0.2805,
      "step": 2284
    },
    {
      "epoch": 2.329255861365953,
      "grad_norm": 0.23133261501789093,
      "learning_rate": 0.001,
      "loss": 0.2823,
      "step": 2285
    },
    {
      "epoch": 2.330275229357798,
      "grad_norm": 0.26443618535995483,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2286
    },
    {
      "epoch": 2.3312945973496433,
      "grad_norm": 0.39230790734291077,
      "learning_rate": 0.001,
      "loss": 0.332,
      "step": 2287
    },
    {
      "epoch": 2.332313965341488,
      "grad_norm": 0.26579341292381287,
      "learning_rate": 0.001,
      "loss": 0.2583,
      "step": 2288
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.12642121315002441,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 2289
    },
    {
      "epoch": 2.3343527013251784,
      "grad_norm": 0.17393210530281067,
      "learning_rate": 0.001,
      "loss": 0.2743,
      "step": 2290
    },
    {
      "epoch": 2.3353720693170237,
      "grad_norm": 0.42730021476745605,
      "learning_rate": 0.001,
      "loss": 0.2809,
      "step": 2291
    },
    {
      "epoch": 2.3363914373088686,
      "grad_norm": 0.4119971990585327,
      "learning_rate": 0.001,
      "loss": 0.2781,
      "step": 2292
    },
    {
      "epoch": 2.3374108053007134,
      "grad_norm": 0.1924583613872528,
      "learning_rate": 0.001,
      "loss": 0.2742,
      "step": 2293
    },
    {
      "epoch": 2.3384301732925588,
      "grad_norm": 0.2366117388010025,
      "learning_rate": 0.001,
      "loss": 0.2443,
      "step": 2294
    },
    {
      "epoch": 2.3394495412844036,
      "grad_norm": 0.21162797510623932,
      "learning_rate": 0.001,
      "loss": 0.254,
      "step": 2295
    },
    {
      "epoch": 2.3404689092762485,
      "grad_norm": 0.27711403369903564,
      "learning_rate": 0.001,
      "loss": 0.2755,
      "step": 2296
    },
    {
      "epoch": 2.341488277268094,
      "grad_norm": 0.2962333858013153,
      "learning_rate": 0.001,
      "loss": 0.2715,
      "step": 2297
    },
    {
      "epoch": 2.3425076452599387,
      "grad_norm": 0.2859586477279663,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 2298
    },
    {
      "epoch": 2.343527013251784,
      "grad_norm": 0.2534693777561188,
      "learning_rate": 0.001,
      "loss": 0.2657,
      "step": 2299
    },
    {
      "epoch": 2.344546381243629,
      "grad_norm": 0.25372952222824097,
      "learning_rate": 0.001,
      "loss": 0.2557,
      "step": 2300
    },
    {
      "epoch": 2.3455657492354742,
      "grad_norm": 0.2696620523929596,
      "learning_rate": 0.001,
      "loss": 0.2776,
      "step": 2301
    },
    {
      "epoch": 2.346585117227319,
      "grad_norm": 0.23841167986392975,
      "learning_rate": 0.001,
      "loss": 0.2535,
      "step": 2302
    },
    {
      "epoch": 2.347604485219164,
      "grad_norm": 0.2543981373310089,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 2303
    },
    {
      "epoch": 2.3486238532110093,
      "grad_norm": 0.17231734097003937,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 2304
    },
    {
      "epoch": 2.349643221202854,
      "grad_norm": 0.14254900813102722,
      "learning_rate": 0.001,
      "loss": 0.274,
      "step": 2305
    },
    {
      "epoch": 2.350662589194699,
      "grad_norm": 0.22262021899223328,
      "learning_rate": 0.001,
      "loss": 0.2947,
      "step": 2306
    },
    {
      "epoch": 2.3516819571865444,
      "grad_norm": 0.1522907018661499,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 2307
    },
    {
      "epoch": 2.3527013251783893,
      "grad_norm": 0.26088747382164,
      "learning_rate": 0.001,
      "loss": 0.2902,
      "step": 2308
    },
    {
      "epoch": 2.3537206931702346,
      "grad_norm": 0.1853700429201126,
      "learning_rate": 0.001,
      "loss": 0.2701,
      "step": 2309
    },
    {
      "epoch": 2.3547400611620795,
      "grad_norm": 0.19188474118709564,
      "learning_rate": 0.001,
      "loss": 0.2842,
      "step": 2310
    },
    {
      "epoch": 2.3557594291539248,
      "grad_norm": 0.19229461252689362,
      "learning_rate": 0.001,
      "loss": 0.2692,
      "step": 2311
    },
    {
      "epoch": 2.3567787971457697,
      "grad_norm": 0.17245951294898987,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 2312
    },
    {
      "epoch": 2.3577981651376145,
      "grad_norm": 0.2292027771472931,
      "learning_rate": 0.001,
      "loss": 0.2748,
      "step": 2313
    },
    {
      "epoch": 2.35881753312946,
      "grad_norm": 0.2949393391609192,
      "learning_rate": 0.001,
      "loss": 0.2601,
      "step": 2314
    },
    {
      "epoch": 2.3598369011213047,
      "grad_norm": 0.24802814424037933,
      "learning_rate": 0.001,
      "loss": 0.2505,
      "step": 2315
    },
    {
      "epoch": 2.3608562691131496,
      "grad_norm": 0.23922203481197357,
      "learning_rate": 0.001,
      "loss": 0.2557,
      "step": 2316
    },
    {
      "epoch": 2.361875637104995,
      "grad_norm": 0.1472354531288147,
      "learning_rate": 0.001,
      "loss": 0.2379,
      "step": 2317
    },
    {
      "epoch": 2.36289500509684,
      "grad_norm": 0.20033153891563416,
      "learning_rate": 0.001,
      "loss": 0.2626,
      "step": 2318
    },
    {
      "epoch": 2.363914373088685,
      "grad_norm": 0.19956351816654205,
      "learning_rate": 0.001,
      "loss": 0.2721,
      "step": 2319
    },
    {
      "epoch": 2.36493374108053,
      "grad_norm": 0.18467657268047333,
      "learning_rate": 0.001,
      "loss": 0.3038,
      "step": 2320
    },
    {
      "epoch": 2.3659531090723753,
      "grad_norm": 0.18467260897159576,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 2321
    },
    {
      "epoch": 2.36697247706422,
      "grad_norm": 0.17284217476844788,
      "learning_rate": 0.001,
      "loss": 0.2483,
      "step": 2322
    },
    {
      "epoch": 2.367991845056065,
      "grad_norm": 0.2068994790315628,
      "learning_rate": 0.001,
      "loss": 0.2888,
      "step": 2323
    },
    {
      "epoch": 2.3690112130479104,
      "grad_norm": 0.20791712403297424,
      "learning_rate": 0.001,
      "loss": 0.304,
      "step": 2324
    },
    {
      "epoch": 2.3700305810397553,
      "grad_norm": 0.19382166862487793,
      "learning_rate": 0.001,
      "loss": 0.248,
      "step": 2325
    },
    {
      "epoch": 2.3710499490316006,
      "grad_norm": 0.15909737348556519,
      "learning_rate": 0.001,
      "loss": 0.2991,
      "step": 2326
    },
    {
      "epoch": 2.3720693170234455,
      "grad_norm": 0.1370539367198944,
      "learning_rate": 0.001,
      "loss": 0.2469,
      "step": 2327
    },
    {
      "epoch": 2.3730886850152904,
      "grad_norm": 0.18038533627986908,
      "learning_rate": 0.001,
      "loss": 0.2684,
      "step": 2328
    },
    {
      "epoch": 2.3741080530071357,
      "grad_norm": 0.23002298176288605,
      "learning_rate": 0.001,
      "loss": 0.2675,
      "step": 2329
    },
    {
      "epoch": 2.3751274209989806,
      "grad_norm": 0.1594618558883667,
      "learning_rate": 0.001,
      "loss": 0.2505,
      "step": 2330
    },
    {
      "epoch": 2.376146788990826,
      "grad_norm": 0.12154479324817657,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 2331
    },
    {
      "epoch": 2.3771661569826708,
      "grad_norm": 0.14787067472934723,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2332
    },
    {
      "epoch": 2.3781855249745156,
      "grad_norm": 0.17960165441036224,
      "learning_rate": 0.001,
      "loss": 0.2841,
      "step": 2333
    },
    {
      "epoch": 2.379204892966361,
      "grad_norm": 0.21387171745300293,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2334
    },
    {
      "epoch": 2.380224260958206,
      "grad_norm": 0.18014667928218842,
      "learning_rate": 0.001,
      "loss": 0.2645,
      "step": 2335
    },
    {
      "epoch": 2.381243628950051,
      "grad_norm": 0.14641520380973816,
      "learning_rate": 0.001,
      "loss": 0.2665,
      "step": 2336
    },
    {
      "epoch": 2.382262996941896,
      "grad_norm": 0.24245932698249817,
      "learning_rate": 0.001,
      "loss": 0.2673,
      "step": 2337
    },
    {
      "epoch": 2.383282364933741,
      "grad_norm": 0.18377579748630524,
      "learning_rate": 0.001,
      "loss": 0.2683,
      "step": 2338
    },
    {
      "epoch": 2.3843017329255862,
      "grad_norm": 0.25816047191619873,
      "learning_rate": 0.001,
      "loss": 0.2896,
      "step": 2339
    },
    {
      "epoch": 2.385321100917431,
      "grad_norm": 0.13870644569396973,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 2340
    },
    {
      "epoch": 2.3863404689092764,
      "grad_norm": 0.25215932726860046,
      "learning_rate": 0.001,
      "loss": 0.264,
      "step": 2341
    },
    {
      "epoch": 2.3873598369011213,
      "grad_norm": 0.1559881567955017,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 2342
    },
    {
      "epoch": 2.388379204892966,
      "grad_norm": 0.18700970709323883,
      "learning_rate": 0.001,
      "loss": 0.2644,
      "step": 2343
    },
    {
      "epoch": 2.3893985728848115,
      "grad_norm": 0.1555837243795395,
      "learning_rate": 0.001,
      "loss": 0.254,
      "step": 2344
    },
    {
      "epoch": 2.3904179408766564,
      "grad_norm": 0.20177917182445526,
      "learning_rate": 0.001,
      "loss": 0.2802,
      "step": 2345
    },
    {
      "epoch": 2.3914373088685017,
      "grad_norm": 0.12230609357357025,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 2346
    },
    {
      "epoch": 2.3924566768603466,
      "grad_norm": 0.1617080420255661,
      "learning_rate": 0.001,
      "loss": 0.2605,
      "step": 2347
    },
    {
      "epoch": 2.3934760448521915,
      "grad_norm": 0.24682560563087463,
      "learning_rate": 0.001,
      "loss": 0.2682,
      "step": 2348
    },
    {
      "epoch": 2.3944954128440368,
      "grad_norm": 0.1996079683303833,
      "learning_rate": 0.001,
      "loss": 0.2648,
      "step": 2349
    },
    {
      "epoch": 2.3955147808358817,
      "grad_norm": 0.17496339976787567,
      "learning_rate": 0.001,
      "loss": 0.2378,
      "step": 2350
    },
    {
      "epoch": 2.396534148827727,
      "grad_norm": 0.20470522344112396,
      "learning_rate": 0.001,
      "loss": 0.2937,
      "step": 2351
    },
    {
      "epoch": 2.397553516819572,
      "grad_norm": 0.17685207724571228,
      "learning_rate": 0.001,
      "loss": 0.2549,
      "step": 2352
    },
    {
      "epoch": 2.3985728848114167,
      "grad_norm": 0.339485228061676,
      "learning_rate": 0.001,
      "loss": 0.2899,
      "step": 2353
    },
    {
      "epoch": 2.399592252803262,
      "grad_norm": 0.1563291996717453,
      "learning_rate": 0.001,
      "loss": 0.2644,
      "step": 2354
    },
    {
      "epoch": 2.400611620795107,
      "grad_norm": 0.16362233459949493,
      "learning_rate": 0.001,
      "loss": 0.2491,
      "step": 2355
    },
    {
      "epoch": 2.4016309887869522,
      "grad_norm": 0.2815362811088562,
      "learning_rate": 0.001,
      "loss": 0.256,
      "step": 2356
    },
    {
      "epoch": 2.402650356778797,
      "grad_norm": 0.1792537122964859,
      "learning_rate": 0.001,
      "loss": 0.2661,
      "step": 2357
    },
    {
      "epoch": 2.4036697247706424,
      "grad_norm": 0.3498579263687134,
      "learning_rate": 0.001,
      "loss": 0.2412,
      "step": 2358
    },
    {
      "epoch": 2.4046890927624873,
      "grad_norm": 0.16863682866096497,
      "learning_rate": 0.001,
      "loss": 0.2595,
      "step": 2359
    },
    {
      "epoch": 2.405708460754332,
      "grad_norm": 0.2592434883117676,
      "learning_rate": 0.001,
      "loss": 0.2607,
      "step": 2360
    },
    {
      "epoch": 2.4067278287461775,
      "grad_norm": 0.20181050896644592,
      "learning_rate": 0.001,
      "loss": 0.2759,
      "step": 2361
    },
    {
      "epoch": 2.4077471967380224,
      "grad_norm": 0.18332944810390472,
      "learning_rate": 0.001,
      "loss": 0.2542,
      "step": 2362
    },
    {
      "epoch": 2.4087665647298673,
      "grad_norm": 0.3198162317276001,
      "learning_rate": 0.001,
      "loss": 0.2788,
      "step": 2363
    },
    {
      "epoch": 2.4097859327217126,
      "grad_norm": 0.22158868610858917,
      "learning_rate": 0.001,
      "loss": 0.2555,
      "step": 2364
    },
    {
      "epoch": 2.4108053007135575,
      "grad_norm": 0.2811865508556366,
      "learning_rate": 0.001,
      "loss": 0.2583,
      "step": 2365
    },
    {
      "epoch": 2.411824668705403,
      "grad_norm": 0.2472025752067566,
      "learning_rate": 0.001,
      "loss": 0.2631,
      "step": 2366
    },
    {
      "epoch": 2.4128440366972477,
      "grad_norm": 0.2764640152454376,
      "learning_rate": 0.001,
      "loss": 0.2698,
      "step": 2367
    },
    {
      "epoch": 2.413863404689093,
      "grad_norm": 0.374749094247818,
      "learning_rate": 0.001,
      "loss": 0.2875,
      "step": 2368
    },
    {
      "epoch": 2.414882772680938,
      "grad_norm": 0.22393402457237244,
      "learning_rate": 0.001,
      "loss": 0.2556,
      "step": 2369
    },
    {
      "epoch": 2.4159021406727827,
      "grad_norm": 0.15362751483917236,
      "learning_rate": 0.001,
      "loss": 0.2773,
      "step": 2370
    },
    {
      "epoch": 2.416921508664628,
      "grad_norm": 0.16221459209918976,
      "learning_rate": 0.001,
      "loss": 0.2614,
      "step": 2371
    },
    {
      "epoch": 2.417940876656473,
      "grad_norm": 0.33675456047058105,
      "learning_rate": 0.001,
      "loss": 0.2555,
      "step": 2372
    },
    {
      "epoch": 2.418960244648318,
      "grad_norm": 0.33259350061416626,
      "learning_rate": 0.001,
      "loss": 0.2914,
      "step": 2373
    },
    {
      "epoch": 2.419979612640163,
      "grad_norm": 0.2561274468898773,
      "learning_rate": 0.001,
      "loss": 0.2621,
      "step": 2374
    },
    {
      "epoch": 2.420998980632008,
      "grad_norm": 0.19455744326114655,
      "learning_rate": 0.001,
      "loss": 0.2689,
      "step": 2375
    },
    {
      "epoch": 2.4220183486238533,
      "grad_norm": 0.33825743198394775,
      "learning_rate": 0.001,
      "loss": 0.314,
      "step": 2376
    },
    {
      "epoch": 2.4230377166156982,
      "grad_norm": 0.14840787649154663,
      "learning_rate": 0.001,
      "loss": 0.2603,
      "step": 2377
    },
    {
      "epoch": 2.4240570846075435,
      "grad_norm": 0.20781567692756653,
      "learning_rate": 0.001,
      "loss": 0.2798,
      "step": 2378
    },
    {
      "epoch": 2.4250764525993884,
      "grad_norm": 0.4372168779373169,
      "learning_rate": 0.001,
      "loss": 0.2959,
      "step": 2379
    },
    {
      "epoch": 2.4260958205912333,
      "grad_norm": 0.2391015887260437,
      "learning_rate": 0.001,
      "loss": 0.2644,
      "step": 2380
    },
    {
      "epoch": 2.4271151885830786,
      "grad_norm": 0.2492189109325409,
      "learning_rate": 0.001,
      "loss": 0.2725,
      "step": 2381
    },
    {
      "epoch": 2.4281345565749235,
      "grad_norm": 0.25074076652526855,
      "learning_rate": 0.001,
      "loss": 0.288,
      "step": 2382
    },
    {
      "epoch": 2.4291539245667684,
      "grad_norm": 0.19830259680747986,
      "learning_rate": 0.001,
      "loss": 0.2705,
      "step": 2383
    },
    {
      "epoch": 2.4301732925586137,
      "grad_norm": 0.14493632316589355,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 2384
    },
    {
      "epoch": 2.4311926605504586,
      "grad_norm": 0.1563408374786377,
      "learning_rate": 0.001,
      "loss": 0.249,
      "step": 2385
    },
    {
      "epoch": 2.432212028542304,
      "grad_norm": 0.16927365958690643,
      "learning_rate": 0.001,
      "loss": 0.2909,
      "step": 2386
    },
    {
      "epoch": 2.4332313965341488,
      "grad_norm": 0.17549054324626923,
      "learning_rate": 0.001,
      "loss": 0.2776,
      "step": 2387
    },
    {
      "epoch": 2.434250764525994,
      "grad_norm": 0.32456281781196594,
      "learning_rate": 0.001,
      "loss": 0.2549,
      "step": 2388
    },
    {
      "epoch": 2.435270132517839,
      "grad_norm": 0.23106998205184937,
      "learning_rate": 0.001,
      "loss": 0.2776,
      "step": 2389
    },
    {
      "epoch": 2.436289500509684,
      "grad_norm": 0.19657932221889496,
      "learning_rate": 0.001,
      "loss": 0.2921,
      "step": 2390
    },
    {
      "epoch": 2.437308868501529,
      "grad_norm": 0.1512880176305771,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 2391
    },
    {
      "epoch": 2.438328236493374,
      "grad_norm": 0.25405511260032654,
      "learning_rate": 0.001,
      "loss": 0.2592,
      "step": 2392
    },
    {
      "epoch": 2.439347604485219,
      "grad_norm": 0.17203795909881592,
      "learning_rate": 0.001,
      "loss": 0.24,
      "step": 2393
    },
    {
      "epoch": 2.4403669724770642,
      "grad_norm": 0.1981617659330368,
      "learning_rate": 0.001,
      "loss": 0.255,
      "step": 2394
    },
    {
      "epoch": 2.441386340468909,
      "grad_norm": 0.1312871277332306,
      "learning_rate": 0.001,
      "loss": 0.2584,
      "step": 2395
    },
    {
      "epoch": 2.4424057084607544,
      "grad_norm": 0.1768922209739685,
      "learning_rate": 0.001,
      "loss": 0.261,
      "step": 2396
    },
    {
      "epoch": 2.4434250764525993,
      "grad_norm": 0.2557253837585449,
      "learning_rate": 0.001,
      "loss": 0.296,
      "step": 2397
    },
    {
      "epoch": 2.4444444444444446,
      "grad_norm": 0.17485614120960236,
      "learning_rate": 0.001,
      "loss": 0.248,
      "step": 2398
    },
    {
      "epoch": 2.4454638124362895,
      "grad_norm": 0.20609460771083832,
      "learning_rate": 0.001,
      "loss": 0.2969,
      "step": 2399
    },
    {
      "epoch": 2.4464831804281344,
      "grad_norm": 0.3365781903266907,
      "learning_rate": 0.001,
      "loss": 0.2787,
      "step": 2400
    },
    {
      "epoch": 2.4475025484199797,
      "grad_norm": 0.28327617049217224,
      "learning_rate": 0.001,
      "loss": 0.3,
      "step": 2401
    },
    {
      "epoch": 2.4485219164118246,
      "grad_norm": 0.17399539053440094,
      "learning_rate": 0.001,
      "loss": 0.2615,
      "step": 2402
    },
    {
      "epoch": 2.44954128440367,
      "grad_norm": 0.18664489686489105,
      "learning_rate": 0.001,
      "loss": 0.2732,
      "step": 2403
    },
    {
      "epoch": 2.450560652395515,
      "grad_norm": 0.14851978421211243,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 2404
    },
    {
      "epoch": 2.4515800203873597,
      "grad_norm": 0.21799829602241516,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2405
    },
    {
      "epoch": 2.452599388379205,
      "grad_norm": 0.25195035338401794,
      "learning_rate": 0.001,
      "loss": 0.2648,
      "step": 2406
    },
    {
      "epoch": 2.45361875637105,
      "grad_norm": 0.15296612679958344,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2407
    },
    {
      "epoch": 2.454638124362895,
      "grad_norm": 0.26912224292755127,
      "learning_rate": 0.001,
      "loss": 0.2826,
      "step": 2408
    },
    {
      "epoch": 2.45565749235474,
      "grad_norm": 0.17098526656627655,
      "learning_rate": 0.001,
      "loss": 0.2845,
      "step": 2409
    },
    {
      "epoch": 2.456676860346585,
      "grad_norm": 0.2089654505252838,
      "learning_rate": 0.001,
      "loss": 0.2761,
      "step": 2410
    },
    {
      "epoch": 2.4576962283384303,
      "grad_norm": 0.2111920714378357,
      "learning_rate": 0.001,
      "loss": 0.2428,
      "step": 2411
    },
    {
      "epoch": 2.458715596330275,
      "grad_norm": 0.2592898905277252,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2412
    },
    {
      "epoch": 2.4597349643221205,
      "grad_norm": 0.22710488736629486,
      "learning_rate": 0.001,
      "loss": 0.2799,
      "step": 2413
    },
    {
      "epoch": 2.4607543323139653,
      "grad_norm": 0.18534189462661743,
      "learning_rate": 0.001,
      "loss": 0.2417,
      "step": 2414
    },
    {
      "epoch": 2.46177370030581,
      "grad_norm": 0.1525334119796753,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 2415
    },
    {
      "epoch": 2.4627930682976555,
      "grad_norm": 0.18895161151885986,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 2416
    },
    {
      "epoch": 2.4638124362895004,
      "grad_norm": 0.21343395113945007,
      "learning_rate": 0.001,
      "loss": 0.2655,
      "step": 2417
    },
    {
      "epoch": 2.4648318042813457,
      "grad_norm": 0.24196738004684448,
      "learning_rate": 0.001,
      "loss": 0.2626,
      "step": 2418
    },
    {
      "epoch": 2.4658511722731906,
      "grad_norm": 0.18403226137161255,
      "learning_rate": 0.001,
      "loss": 0.2566,
      "step": 2419
    },
    {
      "epoch": 2.4668705402650355,
      "grad_norm": 0.14009730517864227,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 2420
    },
    {
      "epoch": 2.467889908256881,
      "grad_norm": 0.17966149747371674,
      "learning_rate": 0.001,
      "loss": 0.2589,
      "step": 2421
    },
    {
      "epoch": 2.4689092762487257,
      "grad_norm": 0.2308301329612732,
      "learning_rate": 0.001,
      "loss": 0.2754,
      "step": 2422
    },
    {
      "epoch": 2.469928644240571,
      "grad_norm": 0.1940280646085739,
      "learning_rate": 0.001,
      "loss": 0.2831,
      "step": 2423
    },
    {
      "epoch": 2.470948012232416,
      "grad_norm": 0.17274697124958038,
      "learning_rate": 0.001,
      "loss": 0.2665,
      "step": 2424
    },
    {
      "epoch": 2.4719673802242608,
      "grad_norm": 0.18122100830078125,
      "learning_rate": 0.001,
      "loss": 0.262,
      "step": 2425
    },
    {
      "epoch": 2.472986748216106,
      "grad_norm": 0.18437980115413666,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 2426
    },
    {
      "epoch": 2.474006116207951,
      "grad_norm": 0.16081911325454712,
      "learning_rate": 0.001,
      "loss": 0.2396,
      "step": 2427
    },
    {
      "epoch": 2.4750254841997963,
      "grad_norm": 0.21446093916893005,
      "learning_rate": 0.001,
      "loss": 0.2655,
      "step": 2428
    },
    {
      "epoch": 2.476044852191641,
      "grad_norm": 0.13344720005989075,
      "learning_rate": 0.001,
      "loss": 0.2629,
      "step": 2429
    },
    {
      "epoch": 2.477064220183486,
      "grad_norm": 0.230949267745018,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 2430
    },
    {
      "epoch": 2.4780835881753314,
      "grad_norm": 0.22595104575157166,
      "learning_rate": 0.001,
      "loss": 0.2886,
      "step": 2431
    },
    {
      "epoch": 2.4791029561671762,
      "grad_norm": 0.12991660833358765,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 2432
    },
    {
      "epoch": 2.4801223241590216,
      "grad_norm": 0.19730421900749207,
      "learning_rate": 0.001,
      "loss": 0.2786,
      "step": 2433
    },
    {
      "epoch": 2.4811416921508664,
      "grad_norm": 0.18746799230575562,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2434
    },
    {
      "epoch": 2.4821610601427118,
      "grad_norm": 0.181930273771286,
      "learning_rate": 0.001,
      "loss": 0.2592,
      "step": 2435
    },
    {
      "epoch": 2.4831804281345566,
      "grad_norm": 0.16420136392116547,
      "learning_rate": 0.001,
      "loss": 0.257,
      "step": 2436
    },
    {
      "epoch": 2.4841997961264015,
      "grad_norm": 0.26577866077423096,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2437
    },
    {
      "epoch": 2.485219164118247,
      "grad_norm": 0.2590504586696625,
      "learning_rate": 0.001,
      "loss": 0.311,
      "step": 2438
    },
    {
      "epoch": 2.4862385321100917,
      "grad_norm": 0.18632183969020844,
      "learning_rate": 0.001,
      "loss": 0.3093,
      "step": 2439
    },
    {
      "epoch": 2.4872579001019366,
      "grad_norm": 0.1700471043586731,
      "learning_rate": 0.001,
      "loss": 0.2643,
      "step": 2440
    },
    {
      "epoch": 2.488277268093782,
      "grad_norm": 0.20679466426372528,
      "learning_rate": 0.001,
      "loss": 0.2599,
      "step": 2441
    },
    {
      "epoch": 2.489296636085627,
      "grad_norm": 0.16098199784755707,
      "learning_rate": 0.001,
      "loss": 0.2675,
      "step": 2442
    },
    {
      "epoch": 2.490316004077472,
      "grad_norm": 0.1528816968202591,
      "learning_rate": 0.001,
      "loss": 0.2734,
      "step": 2443
    },
    {
      "epoch": 2.491335372069317,
      "grad_norm": 0.13702499866485596,
      "learning_rate": 0.001,
      "loss": 0.2695,
      "step": 2444
    },
    {
      "epoch": 2.4923547400611623,
      "grad_norm": 0.12773138284683228,
      "learning_rate": 0.001,
      "loss": 0.2767,
      "step": 2445
    },
    {
      "epoch": 2.493374108053007,
      "grad_norm": 0.16820019483566284,
      "learning_rate": 0.001,
      "loss": 0.2566,
      "step": 2446
    },
    {
      "epoch": 2.494393476044852,
      "grad_norm": 0.15590642392635345,
      "learning_rate": 0.001,
      "loss": 0.2583,
      "step": 2447
    },
    {
      "epoch": 2.4954128440366974,
      "grad_norm": 0.2717154026031494,
      "learning_rate": 0.001,
      "loss": 0.2479,
      "step": 2448
    },
    {
      "epoch": 2.4964322120285423,
      "grad_norm": 0.1565060019493103,
      "learning_rate": 0.001,
      "loss": 0.2478,
      "step": 2449
    },
    {
      "epoch": 2.497451580020387,
      "grad_norm": 0.14648324251174927,
      "learning_rate": 0.001,
      "loss": 0.26,
      "step": 2450
    },
    {
      "epoch": 2.4984709480122325,
      "grad_norm": 0.16864876449108124,
      "learning_rate": 0.001,
      "loss": 0.2687,
      "step": 2451
    },
    {
      "epoch": 2.4994903160040773,
      "grad_norm": 0.14533227682113647,
      "learning_rate": 0.001,
      "loss": 0.2598,
      "step": 2452
    },
    {
      "epoch": 2.5005096839959227,
      "grad_norm": 0.1334117203950882,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2453
    },
    {
      "epoch": 2.5015290519877675,
      "grad_norm": 0.19469839334487915,
      "learning_rate": 0.001,
      "loss": 0.2474,
      "step": 2454
    },
    {
      "epoch": 2.502548419979613,
      "grad_norm": 0.1758657693862915,
      "learning_rate": 0.001,
      "loss": 0.2554,
      "step": 2455
    },
    {
      "epoch": 2.5035677879714577,
      "grad_norm": 0.20992112159729004,
      "learning_rate": 0.001,
      "loss": 0.2616,
      "step": 2456
    },
    {
      "epoch": 2.5045871559633026,
      "grad_norm": 0.2224663645029068,
      "learning_rate": 0.001,
      "loss": 0.2527,
      "step": 2457
    },
    {
      "epoch": 2.505606523955148,
      "grad_norm": 0.1700786054134369,
      "learning_rate": 0.001,
      "loss": 0.234,
      "step": 2458
    },
    {
      "epoch": 2.506625891946993,
      "grad_norm": 0.17368905246257782,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 2459
    },
    {
      "epoch": 2.5076452599388377,
      "grad_norm": 0.19947360455989838,
      "learning_rate": 0.001,
      "loss": 0.291,
      "step": 2460
    },
    {
      "epoch": 2.508664627930683,
      "grad_norm": 0.20107826590538025,
      "learning_rate": 0.001,
      "loss": 0.2493,
      "step": 2461
    },
    {
      "epoch": 2.509683995922528,
      "grad_norm": 0.20620669424533844,
      "learning_rate": 0.001,
      "loss": 0.2816,
      "step": 2462
    },
    {
      "epoch": 2.510703363914373,
      "grad_norm": 0.16265812516212463,
      "learning_rate": 0.001,
      "loss": 0.2723,
      "step": 2463
    },
    {
      "epoch": 2.511722731906218,
      "grad_norm": 0.15011879801750183,
      "learning_rate": 0.001,
      "loss": 0.2423,
      "step": 2464
    },
    {
      "epoch": 2.5127420998980634,
      "grad_norm": 0.15253105759620667,
      "learning_rate": 0.001,
      "loss": 0.267,
      "step": 2465
    },
    {
      "epoch": 2.5137614678899083,
      "grad_norm": 0.23009085655212402,
      "learning_rate": 0.001,
      "loss": 0.2461,
      "step": 2466
    },
    {
      "epoch": 2.514780835881753,
      "grad_norm": 0.20580263435840607,
      "learning_rate": 0.001,
      "loss": 0.2802,
      "step": 2467
    },
    {
      "epoch": 2.5158002038735985,
      "grad_norm": 0.23542417585849762,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2468
    },
    {
      "epoch": 2.5168195718654434,
      "grad_norm": 0.14572742581367493,
      "learning_rate": 0.001,
      "loss": 0.2518,
      "step": 2469
    },
    {
      "epoch": 2.5178389398572882,
      "grad_norm": 0.18140888214111328,
      "learning_rate": 0.001,
      "loss": 0.2698,
      "step": 2470
    },
    {
      "epoch": 2.5188583078491336,
      "grad_norm": 0.15386058390140533,
      "learning_rate": 0.001,
      "loss": 0.249,
      "step": 2471
    },
    {
      "epoch": 2.5198776758409784,
      "grad_norm": 0.12489057332277298,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 2472
    },
    {
      "epoch": 2.5208970438328238,
      "grad_norm": 0.2871166169643402,
      "learning_rate": 0.001,
      "loss": 0.2841,
      "step": 2473
    },
    {
      "epoch": 2.5219164118246686,
      "grad_norm": 0.3050427734851837,
      "learning_rate": 0.001,
      "loss": 0.2622,
      "step": 2474
    },
    {
      "epoch": 2.522935779816514,
      "grad_norm": 0.1516581028699875,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 2475
    },
    {
      "epoch": 2.523955147808359,
      "grad_norm": 0.18939872086048126,
      "learning_rate": 0.001,
      "loss": 0.2762,
      "step": 2476
    },
    {
      "epoch": 2.5249745158002037,
      "grad_norm": 0.17104361951351166,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 2477
    },
    {
      "epoch": 2.525993883792049,
      "grad_norm": 0.22722655534744263,
      "learning_rate": 0.001,
      "loss": 0.2485,
      "step": 2478
    },
    {
      "epoch": 2.527013251783894,
      "grad_norm": 0.19196082651615143,
      "learning_rate": 0.001,
      "loss": 0.2734,
      "step": 2479
    },
    {
      "epoch": 2.528032619775739,
      "grad_norm": 0.24747437238693237,
      "learning_rate": 0.001,
      "loss": 0.2871,
      "step": 2480
    },
    {
      "epoch": 2.529051987767584,
      "grad_norm": 0.2664506137371063,
      "learning_rate": 0.001,
      "loss": 0.2822,
      "step": 2481
    },
    {
      "epoch": 2.5300713557594294,
      "grad_norm": 0.1642260104417801,
      "learning_rate": 0.001,
      "loss": 0.2455,
      "step": 2482
    },
    {
      "epoch": 2.5310907237512743,
      "grad_norm": 0.13676296174526215,
      "learning_rate": 0.001,
      "loss": 0.2584,
      "step": 2483
    },
    {
      "epoch": 2.532110091743119,
      "grad_norm": 0.21073377132415771,
      "learning_rate": 0.001,
      "loss": 0.2422,
      "step": 2484
    },
    {
      "epoch": 2.5331294597349645,
      "grad_norm": 0.24850033223628998,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 2485
    },
    {
      "epoch": 2.5341488277268094,
      "grad_norm": 0.19439660012722015,
      "learning_rate": 0.001,
      "loss": 0.2487,
      "step": 2486
    },
    {
      "epoch": 2.5351681957186543,
      "grad_norm": 0.210554838180542,
      "learning_rate": 0.001,
      "loss": 0.2837,
      "step": 2487
    },
    {
      "epoch": 2.5361875637104996,
      "grad_norm": 0.20362840592861176,
      "learning_rate": 0.001,
      "loss": 0.2849,
      "step": 2488
    },
    {
      "epoch": 2.5372069317023445,
      "grad_norm": 0.20557336509227753,
      "learning_rate": 0.001,
      "loss": 0.2583,
      "step": 2489
    },
    {
      "epoch": 2.5382262996941893,
      "grad_norm": 0.11842547357082367,
      "learning_rate": 0.001,
      "loss": 0.2677,
      "step": 2490
    },
    {
      "epoch": 2.5392456676860347,
      "grad_norm": 0.25311902165412903,
      "learning_rate": 0.001,
      "loss": 0.2714,
      "step": 2491
    },
    {
      "epoch": 2.54026503567788,
      "grad_norm": 0.17606650292873383,
      "learning_rate": 0.001,
      "loss": 0.2611,
      "step": 2492
    },
    {
      "epoch": 2.541284403669725,
      "grad_norm": 0.1697193682193756,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 2493
    },
    {
      "epoch": 2.5423037716615697,
      "grad_norm": 0.11538144946098328,
      "learning_rate": 0.001,
      "loss": 0.2554,
      "step": 2494
    },
    {
      "epoch": 2.543323139653415,
      "grad_norm": 0.21986478567123413,
      "learning_rate": 0.001,
      "loss": 0.2855,
      "step": 2495
    },
    {
      "epoch": 2.54434250764526,
      "grad_norm": 0.21907688677310944,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 2496
    },
    {
      "epoch": 2.545361875637105,
      "grad_norm": 0.16741542518138885,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2497
    },
    {
      "epoch": 2.54638124362895,
      "grad_norm": 0.19834072887897491,
      "learning_rate": 0.001,
      "loss": 0.2509,
      "step": 2498
    },
    {
      "epoch": 2.547400611620795,
      "grad_norm": 0.18630491197109222,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2499
    },
    {
      "epoch": 2.5484199796126403,
      "grad_norm": 0.15200194716453552,
      "learning_rate": 0.001,
      "loss": 0.2671,
      "step": 2500
    },
    {
      "epoch": 2.549439347604485,
      "grad_norm": 0.16602875292301178,
      "learning_rate": 0.001,
      "loss": 0.2516,
      "step": 2501
    },
    {
      "epoch": 2.5504587155963305,
      "grad_norm": 0.23937653005123138,
      "learning_rate": 0.001,
      "loss": 0.2686,
      "step": 2502
    },
    {
      "epoch": 2.5514780835881754,
      "grad_norm": 0.27073147892951965,
      "learning_rate": 0.001,
      "loss": 0.2671,
      "step": 2503
    },
    {
      "epoch": 2.5524974515800203,
      "grad_norm": 0.16128788888454437,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 2504
    },
    {
      "epoch": 2.5535168195718656,
      "grad_norm": 0.3555265963077545,
      "learning_rate": 0.001,
      "loss": 0.3,
      "step": 2505
    },
    {
      "epoch": 2.5545361875637105,
      "grad_norm": 0.2200988531112671,
      "learning_rate": 0.001,
      "loss": 0.2935,
      "step": 2506
    },
    {
      "epoch": 2.5555555555555554,
      "grad_norm": 0.2759791910648346,
      "learning_rate": 0.001,
      "loss": 0.2848,
      "step": 2507
    },
    {
      "epoch": 2.5565749235474007,
      "grad_norm": 0.37100115418434143,
      "learning_rate": 0.001,
      "loss": 0.2516,
      "step": 2508
    },
    {
      "epoch": 2.5575942915392456,
      "grad_norm": 0.22145064175128937,
      "learning_rate": 0.001,
      "loss": 0.2795,
      "step": 2509
    },
    {
      "epoch": 2.558613659531091,
      "grad_norm": 0.2464490681886673,
      "learning_rate": 0.001,
      "loss": 0.2924,
      "step": 2510
    },
    {
      "epoch": 2.5596330275229358,
      "grad_norm": 0.2825392782688141,
      "learning_rate": 0.001,
      "loss": 0.2609,
      "step": 2511
    },
    {
      "epoch": 2.560652395514781,
      "grad_norm": 0.1422843635082245,
      "learning_rate": 0.001,
      "loss": 0.2528,
      "step": 2512
    },
    {
      "epoch": 2.561671763506626,
      "grad_norm": 0.17743678390979767,
      "learning_rate": 0.001,
      "loss": 0.2709,
      "step": 2513
    },
    {
      "epoch": 2.562691131498471,
      "grad_norm": 0.23223590850830078,
      "learning_rate": 0.001,
      "loss": 0.243,
      "step": 2514
    },
    {
      "epoch": 2.563710499490316,
      "grad_norm": 0.14394555985927582,
      "learning_rate": 0.001,
      "loss": 0.2399,
      "step": 2515
    },
    {
      "epoch": 2.564729867482161,
      "grad_norm": 0.21090306341648102,
      "learning_rate": 0.001,
      "loss": 0.3057,
      "step": 2516
    },
    {
      "epoch": 2.565749235474006,
      "grad_norm": 0.12342997640371323,
      "learning_rate": 0.001,
      "loss": 0.2535,
      "step": 2517
    },
    {
      "epoch": 2.5667686034658512,
      "grad_norm": 0.17699375748634338,
      "learning_rate": 0.001,
      "loss": 0.245,
      "step": 2518
    },
    {
      "epoch": 2.567787971457696,
      "grad_norm": 0.24179358780384064,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 2519
    },
    {
      "epoch": 2.5688073394495414,
      "grad_norm": 0.17606401443481445,
      "learning_rate": 0.001,
      "loss": 0.2853,
      "step": 2520
    },
    {
      "epoch": 2.5698267074413863,
      "grad_norm": 0.12524467706680298,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 2521
    },
    {
      "epoch": 2.5708460754332316,
      "grad_norm": 0.24062110483646393,
      "learning_rate": 0.001,
      "loss": 0.2659,
      "step": 2522
    },
    {
      "epoch": 2.5718654434250765,
      "grad_norm": 0.26470330357551575,
      "learning_rate": 0.001,
      "loss": 0.2776,
      "step": 2523
    },
    {
      "epoch": 2.5728848114169214,
      "grad_norm": 0.1392105370759964,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 2524
    },
    {
      "epoch": 2.5739041794087667,
      "grad_norm": 0.20288850367069244,
      "learning_rate": 0.001,
      "loss": 0.2388,
      "step": 2525
    },
    {
      "epoch": 2.5749235474006116,
      "grad_norm": 0.266207218170166,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 2526
    },
    {
      "epoch": 2.5759429153924565,
      "grad_norm": 0.3067633807659149,
      "learning_rate": 0.001,
      "loss": 0.2865,
      "step": 2527
    },
    {
      "epoch": 2.5769622833843018,
      "grad_norm": 0.16506409645080566,
      "learning_rate": 0.001,
      "loss": 0.2371,
      "step": 2528
    },
    {
      "epoch": 2.5779816513761467,
      "grad_norm": 0.13028256595134735,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 2529
    },
    {
      "epoch": 2.579001019367992,
      "grad_norm": 0.2393524944782257,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 2530
    },
    {
      "epoch": 2.580020387359837,
      "grad_norm": 0.296270489692688,
      "learning_rate": 0.001,
      "loss": 0.296,
      "step": 2531
    },
    {
      "epoch": 2.581039755351682,
      "grad_norm": 0.2544344663619995,
      "learning_rate": 0.001,
      "loss": 0.2853,
      "step": 2532
    },
    {
      "epoch": 2.582059123343527,
      "grad_norm": 0.16437961161136627,
      "learning_rate": 0.001,
      "loss": 0.2643,
      "step": 2533
    },
    {
      "epoch": 2.583078491335372,
      "grad_norm": 0.2634912431240082,
      "learning_rate": 0.001,
      "loss": 0.2677,
      "step": 2534
    },
    {
      "epoch": 2.5840978593272173,
      "grad_norm": 0.2634105086326599,
      "learning_rate": 0.001,
      "loss": 0.2489,
      "step": 2535
    },
    {
      "epoch": 2.585117227319062,
      "grad_norm": 0.13601012527942657,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 2536
    },
    {
      "epoch": 2.586136595310907,
      "grad_norm": 0.17545898258686066,
      "learning_rate": 0.001,
      "loss": 0.255,
      "step": 2537
    },
    {
      "epoch": 2.5871559633027523,
      "grad_norm": 0.39177873730659485,
      "learning_rate": 0.001,
      "loss": 0.2578,
      "step": 2538
    },
    {
      "epoch": 2.588175331294597,
      "grad_norm": 0.27277401089668274,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 2539
    },
    {
      "epoch": 2.5891946992864425,
      "grad_norm": 0.18416643142700195,
      "learning_rate": 0.001,
      "loss": 0.2438,
      "step": 2540
    },
    {
      "epoch": 2.5902140672782874,
      "grad_norm": 0.2644491195678711,
      "learning_rate": 0.001,
      "loss": 0.2522,
      "step": 2541
    },
    {
      "epoch": 2.5912334352701327,
      "grad_norm": 0.2769264876842499,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 2542
    },
    {
      "epoch": 2.5922528032619776,
      "grad_norm": 0.22344337403774261,
      "learning_rate": 0.001,
      "loss": 0.2649,
      "step": 2543
    },
    {
      "epoch": 2.5932721712538225,
      "grad_norm": 0.197422057390213,
      "learning_rate": 0.001,
      "loss": 0.2782,
      "step": 2544
    },
    {
      "epoch": 2.594291539245668,
      "grad_norm": 0.20013977587223053,
      "learning_rate": 0.001,
      "loss": 0.2832,
      "step": 2545
    },
    {
      "epoch": 2.5953109072375127,
      "grad_norm": 0.1856127381324768,
      "learning_rate": 0.001,
      "loss": 0.2451,
      "step": 2546
    },
    {
      "epoch": 2.5963302752293576,
      "grad_norm": 0.147956982254982,
      "learning_rate": 0.001,
      "loss": 0.2471,
      "step": 2547
    },
    {
      "epoch": 2.597349643221203,
      "grad_norm": 0.14878354966640472,
      "learning_rate": 0.001,
      "loss": 0.2614,
      "step": 2548
    },
    {
      "epoch": 2.5983690112130478,
      "grad_norm": 0.18924641609191895,
      "learning_rate": 0.001,
      "loss": 0.2599,
      "step": 2549
    },
    {
      "epoch": 2.599388379204893,
      "grad_norm": 0.17142078280448914,
      "learning_rate": 0.001,
      "loss": 0.2491,
      "step": 2550
    },
    {
      "epoch": 2.600407747196738,
      "grad_norm": 0.15584971010684967,
      "learning_rate": 0.001,
      "loss": 0.228,
      "step": 2551
    },
    {
      "epoch": 2.6014271151885833,
      "grad_norm": 0.15526649355888367,
      "learning_rate": 0.001,
      "loss": 0.2648,
      "step": 2552
    },
    {
      "epoch": 2.602446483180428,
      "grad_norm": 0.2003365010023117,
      "learning_rate": 0.001,
      "loss": 0.2367,
      "step": 2553
    },
    {
      "epoch": 2.603465851172273,
      "grad_norm": 0.20775362849235535,
      "learning_rate": 0.001,
      "loss": 0.277,
      "step": 2554
    },
    {
      "epoch": 2.6044852191641183,
      "grad_norm": 0.16540801525115967,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 2555
    },
    {
      "epoch": 2.6055045871559632,
      "grad_norm": 0.24138274788856506,
      "learning_rate": 0.001,
      "loss": 0.2772,
      "step": 2556
    },
    {
      "epoch": 2.606523955147808,
      "grad_norm": 0.1950685828924179,
      "learning_rate": 0.001,
      "loss": 0.2471,
      "step": 2557
    },
    {
      "epoch": 2.6075433231396534,
      "grad_norm": 0.2419736683368683,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2558
    },
    {
      "epoch": 2.6085626911314987,
      "grad_norm": 0.15650872886180878,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 2559
    },
    {
      "epoch": 2.6095820591233436,
      "grad_norm": 0.27067863941192627,
      "learning_rate": 0.001,
      "loss": 0.2576,
      "step": 2560
    },
    {
      "epoch": 2.6106014271151885,
      "grad_norm": 0.14750225841999054,
      "learning_rate": 0.001,
      "loss": 0.2474,
      "step": 2561
    },
    {
      "epoch": 2.611620795107034,
      "grad_norm": 0.21056610345840454,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 2562
    },
    {
      "epoch": 2.6126401630988787,
      "grad_norm": 0.16715885698795319,
      "learning_rate": 0.001,
      "loss": 0.2532,
      "step": 2563
    },
    {
      "epoch": 2.6136595310907236,
      "grad_norm": 0.20605099201202393,
      "learning_rate": 0.001,
      "loss": 0.2639,
      "step": 2564
    },
    {
      "epoch": 2.614678899082569,
      "grad_norm": 0.21306981146335602,
      "learning_rate": 0.001,
      "loss": 0.269,
      "step": 2565
    },
    {
      "epoch": 2.6156982670744138,
      "grad_norm": 0.20243103802204132,
      "learning_rate": 0.001,
      "loss": 0.2703,
      "step": 2566
    },
    {
      "epoch": 2.6167176350662587,
      "grad_norm": 0.245144322514534,
      "learning_rate": 0.001,
      "loss": 0.2847,
      "step": 2567
    },
    {
      "epoch": 2.617737003058104,
      "grad_norm": 0.1502724438905716,
      "learning_rate": 0.001,
      "loss": 0.2484,
      "step": 2568
    },
    {
      "epoch": 2.6187563710499493,
      "grad_norm": 0.22360004484653473,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 2569
    },
    {
      "epoch": 2.619775739041794,
      "grad_norm": 0.1855233609676361,
      "learning_rate": 0.001,
      "loss": 0.2716,
      "step": 2570
    },
    {
      "epoch": 2.620795107033639,
      "grad_norm": 0.1426858752965927,
      "learning_rate": 0.001,
      "loss": 0.2489,
      "step": 2571
    },
    {
      "epoch": 2.6218144750254844,
      "grad_norm": 0.12418417632579803,
      "learning_rate": 0.001,
      "loss": 0.2777,
      "step": 2572
    },
    {
      "epoch": 2.6228338430173292,
      "grad_norm": 0.2002241015434265,
      "learning_rate": 0.001,
      "loss": 0.2511,
      "step": 2573
    },
    {
      "epoch": 2.623853211009174,
      "grad_norm": 0.173706516623497,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 2574
    },
    {
      "epoch": 2.6248725790010194,
      "grad_norm": 0.16393141448497772,
      "learning_rate": 0.001,
      "loss": 0.2781,
      "step": 2575
    },
    {
      "epoch": 2.6258919469928643,
      "grad_norm": 0.14152611792087555,
      "learning_rate": 0.001,
      "loss": 0.2592,
      "step": 2576
    },
    {
      "epoch": 2.6269113149847096,
      "grad_norm": 0.21278217434883118,
      "learning_rate": 0.001,
      "loss": 0.2831,
      "step": 2577
    },
    {
      "epoch": 2.6279306829765545,
      "grad_norm": 0.13909901678562164,
      "learning_rate": 0.001,
      "loss": 0.2535,
      "step": 2578
    },
    {
      "epoch": 2.6289500509684,
      "grad_norm": 0.2859526574611664,
      "learning_rate": 0.001,
      "loss": 0.2439,
      "step": 2579
    },
    {
      "epoch": 2.6299694189602447,
      "grad_norm": 0.25553396344184875,
      "learning_rate": 0.001,
      "loss": 0.2822,
      "step": 2580
    },
    {
      "epoch": 2.6309887869520896,
      "grad_norm": 0.12453091144561768,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 2581
    },
    {
      "epoch": 2.632008154943935,
      "grad_norm": 0.1314067840576172,
      "learning_rate": 0.001,
      "loss": 0.259,
      "step": 2582
    },
    {
      "epoch": 2.63302752293578,
      "grad_norm": 0.28206488490104675,
      "learning_rate": 0.001,
      "loss": 0.2853,
      "step": 2583
    },
    {
      "epoch": 2.6340468909276247,
      "grad_norm": 0.19172710180282593,
      "learning_rate": 0.001,
      "loss": 0.2791,
      "step": 2584
    },
    {
      "epoch": 2.63506625891947,
      "grad_norm": 0.14093239605426788,
      "learning_rate": 0.001,
      "loss": 0.2555,
      "step": 2585
    },
    {
      "epoch": 2.636085626911315,
      "grad_norm": 0.26009467244148254,
      "learning_rate": 0.001,
      "loss": 0.28,
      "step": 2586
    },
    {
      "epoch": 2.63710499490316,
      "grad_norm": 0.1697998195886612,
      "learning_rate": 0.001,
      "loss": 0.2976,
      "step": 2587
    },
    {
      "epoch": 2.638124362895005,
      "grad_norm": 0.23719899356365204,
      "learning_rate": 0.001,
      "loss": 0.2843,
      "step": 2588
    },
    {
      "epoch": 2.6391437308868504,
      "grad_norm": 0.2399696707725525,
      "learning_rate": 0.001,
      "loss": 0.2649,
      "step": 2589
    },
    {
      "epoch": 2.6401630988786953,
      "grad_norm": 0.1614696979522705,
      "learning_rate": 0.001,
      "loss": 0.2629,
      "step": 2590
    },
    {
      "epoch": 2.64118246687054,
      "grad_norm": 0.14821194112300873,
      "learning_rate": 0.001,
      "loss": 0.301,
      "step": 2591
    },
    {
      "epoch": 2.6422018348623855,
      "grad_norm": 0.15140312910079956,
      "learning_rate": 0.001,
      "loss": 0.2406,
      "step": 2592
    },
    {
      "epoch": 2.6432212028542303,
      "grad_norm": 0.14681804180145264,
      "learning_rate": 0.001,
      "loss": 0.2683,
      "step": 2593
    },
    {
      "epoch": 2.6442405708460752,
      "grad_norm": 0.1418900340795517,
      "learning_rate": 0.001,
      "loss": 0.2324,
      "step": 2594
    },
    {
      "epoch": 2.6452599388379205,
      "grad_norm": 0.2184145748615265,
      "learning_rate": 0.001,
      "loss": 0.2476,
      "step": 2595
    },
    {
      "epoch": 2.6462793068297654,
      "grad_norm": 0.25755181908607483,
      "learning_rate": 0.001,
      "loss": 0.2643,
      "step": 2596
    },
    {
      "epoch": 2.6472986748216107,
      "grad_norm": 0.1470230370759964,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2597
    },
    {
      "epoch": 2.6483180428134556,
      "grad_norm": 0.19443918764591217,
      "learning_rate": 0.001,
      "loss": 0.2485,
      "step": 2598
    },
    {
      "epoch": 2.649337410805301,
      "grad_norm": 0.19725824892520905,
      "learning_rate": 0.001,
      "loss": 0.2611,
      "step": 2599
    },
    {
      "epoch": 2.650356778797146,
      "grad_norm": 0.13701339066028595,
      "learning_rate": 0.001,
      "loss": 0.2489,
      "step": 2600
    },
    {
      "epoch": 2.6513761467889907,
      "grad_norm": 0.16278469562530518,
      "learning_rate": 0.001,
      "loss": 0.2603,
      "step": 2601
    },
    {
      "epoch": 2.652395514780836,
      "grad_norm": 0.1774408221244812,
      "learning_rate": 0.001,
      "loss": 0.2725,
      "step": 2602
    },
    {
      "epoch": 2.653414882772681,
      "grad_norm": 0.22003372013568878,
      "learning_rate": 0.001,
      "loss": 0.262,
      "step": 2603
    },
    {
      "epoch": 2.6544342507645258,
      "grad_norm": 0.17502403259277344,
      "learning_rate": 0.001,
      "loss": 0.2596,
      "step": 2604
    },
    {
      "epoch": 2.655453618756371,
      "grad_norm": 0.13944362103939056,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 2605
    },
    {
      "epoch": 2.656472986748216,
      "grad_norm": 0.28710639476776123,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2606
    },
    {
      "epoch": 2.6574923547400613,
      "grad_norm": 0.2585366368293762,
      "learning_rate": 0.001,
      "loss": 0.3206,
      "step": 2607
    },
    {
      "epoch": 2.658511722731906,
      "grad_norm": 0.20027883350849152,
      "learning_rate": 0.001,
      "loss": 0.2526,
      "step": 2608
    },
    {
      "epoch": 2.6595310907237515,
      "grad_norm": 0.154415562748909,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2609
    },
    {
      "epoch": 2.6605504587155964,
      "grad_norm": 0.19514478743076324,
      "learning_rate": 0.001,
      "loss": 0.2838,
      "step": 2610
    },
    {
      "epoch": 2.6615698267074412,
      "grad_norm": 0.2191537469625473,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 2611
    },
    {
      "epoch": 2.6625891946992866,
      "grad_norm": 0.14637528359889984,
      "learning_rate": 0.001,
      "loss": 0.2534,
      "step": 2612
    },
    {
      "epoch": 2.6636085626911314,
      "grad_norm": 0.18247787654399872,
      "learning_rate": 0.001,
      "loss": 0.2627,
      "step": 2613
    },
    {
      "epoch": 2.6646279306829763,
      "grad_norm": 0.18135209381580353,
      "learning_rate": 0.001,
      "loss": 0.2667,
      "step": 2614
    },
    {
      "epoch": 2.6656472986748216,
      "grad_norm": 0.12372826784849167,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 2615
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.17386968433856964,
      "learning_rate": 0.001,
      "loss": 0.2673,
      "step": 2616
    },
    {
      "epoch": 2.667686034658512,
      "grad_norm": 0.16525915265083313,
      "learning_rate": 0.001,
      "loss": 0.2443,
      "step": 2617
    },
    {
      "epoch": 2.6687054026503567,
      "grad_norm": 0.14874330163002014,
      "learning_rate": 0.001,
      "loss": 0.2356,
      "step": 2618
    },
    {
      "epoch": 2.669724770642202,
      "grad_norm": 0.3232751786708832,
      "learning_rate": 0.001,
      "loss": 0.2393,
      "step": 2619
    },
    {
      "epoch": 2.670744138634047,
      "grad_norm": 0.1673712134361267,
      "learning_rate": 0.001,
      "loss": 0.2714,
      "step": 2620
    },
    {
      "epoch": 2.671763506625892,
      "grad_norm": 0.17986160516738892,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 2621
    },
    {
      "epoch": 2.672782874617737,
      "grad_norm": 0.19740214943885803,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 2622
    },
    {
      "epoch": 2.673802242609582,
      "grad_norm": 0.23069444298744202,
      "learning_rate": 0.001,
      "loss": 0.2885,
      "step": 2623
    },
    {
      "epoch": 2.674821610601427,
      "grad_norm": 0.18722018599510193,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 2624
    },
    {
      "epoch": 2.675840978593272,
      "grad_norm": 0.27661794424057007,
      "learning_rate": 0.001,
      "loss": 0.2556,
      "step": 2625
    },
    {
      "epoch": 2.676860346585117,
      "grad_norm": 0.13810305297374725,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2626
    },
    {
      "epoch": 2.6778797145769624,
      "grad_norm": 0.22980017960071564,
      "learning_rate": 0.001,
      "loss": 0.2791,
      "step": 2627
    },
    {
      "epoch": 2.6788990825688073,
      "grad_norm": 0.15424790978431702,
      "learning_rate": 0.001,
      "loss": 0.2535,
      "step": 2628
    },
    {
      "epoch": 2.6799184505606526,
      "grad_norm": 0.15479031205177307,
      "learning_rate": 0.001,
      "loss": 0.252,
      "step": 2629
    },
    {
      "epoch": 2.6809378185524975,
      "grad_norm": 0.3379334509372711,
      "learning_rate": 0.001,
      "loss": 0.2965,
      "step": 2630
    },
    {
      "epoch": 2.6819571865443423,
      "grad_norm": 0.1152617558836937,
      "learning_rate": 0.001,
      "loss": 0.2653,
      "step": 2631
    },
    {
      "epoch": 2.6829765545361877,
      "grad_norm": 0.16522660851478577,
      "learning_rate": 0.001,
      "loss": 0.2443,
      "step": 2632
    },
    {
      "epoch": 2.6839959225280325,
      "grad_norm": 0.17687806487083435,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 2633
    },
    {
      "epoch": 2.6850152905198774,
      "grad_norm": 0.17273521423339844,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 2634
    },
    {
      "epoch": 2.6860346585117227,
      "grad_norm": 0.1822677105665207,
      "learning_rate": 0.001,
      "loss": 0.2452,
      "step": 2635
    },
    {
      "epoch": 2.687054026503568,
      "grad_norm": 0.2484133094549179,
      "learning_rate": 0.001,
      "loss": 0.2726,
      "step": 2636
    },
    {
      "epoch": 2.688073394495413,
      "grad_norm": 0.1992737203836441,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2637
    },
    {
      "epoch": 2.689092762487258,
      "grad_norm": 0.16796278953552246,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 2638
    },
    {
      "epoch": 2.690112130479103,
      "grad_norm": 0.17220132052898407,
      "learning_rate": 0.001,
      "loss": 0.2351,
      "step": 2639
    },
    {
      "epoch": 2.691131498470948,
      "grad_norm": 0.2869657278060913,
      "learning_rate": 0.001,
      "loss": 0.2428,
      "step": 2640
    },
    {
      "epoch": 2.692150866462793,
      "grad_norm": 0.20262950658798218,
      "learning_rate": 0.001,
      "loss": 0.2675,
      "step": 2641
    },
    {
      "epoch": 2.693170234454638,
      "grad_norm": 0.16124001145362854,
      "learning_rate": 0.001,
      "loss": 0.2413,
      "step": 2642
    },
    {
      "epoch": 2.694189602446483,
      "grad_norm": 0.13475899398326874,
      "learning_rate": 0.001,
      "loss": 0.2469,
      "step": 2643
    },
    {
      "epoch": 2.695208970438328,
      "grad_norm": 0.178415909409523,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 2644
    },
    {
      "epoch": 2.6962283384301733,
      "grad_norm": 0.23457413911819458,
      "learning_rate": 0.001,
      "loss": 0.2443,
      "step": 2645
    },
    {
      "epoch": 2.6972477064220186,
      "grad_norm": 0.19219666719436646,
      "learning_rate": 0.001,
      "loss": 0.2861,
      "step": 2646
    },
    {
      "epoch": 2.6982670744138635,
      "grad_norm": 0.19504638016223907,
      "learning_rate": 0.001,
      "loss": 0.254,
      "step": 2647
    },
    {
      "epoch": 2.6992864424057084,
      "grad_norm": 0.17775996029376984,
      "learning_rate": 0.001,
      "loss": 0.2622,
      "step": 2648
    },
    {
      "epoch": 2.7003058103975537,
      "grad_norm": 0.14007098972797394,
      "learning_rate": 0.001,
      "loss": 0.2562,
      "step": 2649
    },
    {
      "epoch": 2.7013251783893986,
      "grad_norm": 0.23579657077789307,
      "learning_rate": 0.001,
      "loss": 0.2645,
      "step": 2650
    },
    {
      "epoch": 2.7023445463812434,
      "grad_norm": 0.20113693177700043,
      "learning_rate": 0.001,
      "loss": 0.2621,
      "step": 2651
    },
    {
      "epoch": 2.7033639143730888,
      "grad_norm": 0.20228344202041626,
      "learning_rate": 0.001,
      "loss": 0.254,
      "step": 2652
    },
    {
      "epoch": 2.7043832823649336,
      "grad_norm": 0.15052609145641327,
      "learning_rate": 0.001,
      "loss": 0.2906,
      "step": 2653
    },
    {
      "epoch": 2.705402650356779,
      "grad_norm": 0.16323785483837128,
      "learning_rate": 0.001,
      "loss": 0.2502,
      "step": 2654
    },
    {
      "epoch": 2.706422018348624,
      "grad_norm": 0.19385914504528046,
      "learning_rate": 0.001,
      "loss": 0.2614,
      "step": 2655
    },
    {
      "epoch": 2.707441386340469,
      "grad_norm": 0.24031886458396912,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 2656
    },
    {
      "epoch": 2.708460754332314,
      "grad_norm": 0.21852976083755493,
      "learning_rate": 0.001,
      "loss": 0.2832,
      "step": 2657
    },
    {
      "epoch": 2.709480122324159,
      "grad_norm": 0.2100582867860794,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 2658
    },
    {
      "epoch": 2.7104994903160042,
      "grad_norm": 0.22636474668979645,
      "learning_rate": 0.001,
      "loss": 0.2273,
      "step": 2659
    },
    {
      "epoch": 2.711518858307849,
      "grad_norm": 0.175042986869812,
      "learning_rate": 0.001,
      "loss": 0.2656,
      "step": 2660
    },
    {
      "epoch": 2.712538226299694,
      "grad_norm": 0.16708321869373322,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2661
    },
    {
      "epoch": 2.7135575942915393,
      "grad_norm": 0.3133200407028198,
      "learning_rate": 0.001,
      "loss": 0.2721,
      "step": 2662
    },
    {
      "epoch": 2.714576962283384,
      "grad_norm": 0.23019300401210785,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 2663
    },
    {
      "epoch": 2.7155963302752295,
      "grad_norm": 0.24910327792167664,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2664
    },
    {
      "epoch": 2.7166156982670744,
      "grad_norm": 0.25590863823890686,
      "learning_rate": 0.001,
      "loss": 0.2601,
      "step": 2665
    },
    {
      "epoch": 2.7176350662589197,
      "grad_norm": 0.2271462082862854,
      "learning_rate": 0.001,
      "loss": 0.2339,
      "step": 2666
    },
    {
      "epoch": 2.7186544342507646,
      "grad_norm": 0.1690673679113388,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 2667
    },
    {
      "epoch": 2.7196738022426095,
      "grad_norm": 0.12019938230514526,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 2668
    },
    {
      "epoch": 2.720693170234455,
      "grad_norm": 0.1772756576538086,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 2669
    },
    {
      "epoch": 2.7217125382262997,
      "grad_norm": 0.2397068291902542,
      "learning_rate": 0.001,
      "loss": 0.262,
      "step": 2670
    },
    {
      "epoch": 2.7227319062181445,
      "grad_norm": 0.19834505021572113,
      "learning_rate": 0.001,
      "loss": 0.2823,
      "step": 2671
    },
    {
      "epoch": 2.72375127420999,
      "grad_norm": 0.19075946509838104,
      "learning_rate": 0.001,
      "loss": 0.2708,
      "step": 2672
    },
    {
      "epoch": 2.7247706422018347,
      "grad_norm": 0.15793044865131378,
      "learning_rate": 0.001,
      "loss": 0.2688,
      "step": 2673
    },
    {
      "epoch": 2.72579001019368,
      "grad_norm": 0.23245732486248016,
      "learning_rate": 0.001,
      "loss": 0.2877,
      "step": 2674
    },
    {
      "epoch": 2.726809378185525,
      "grad_norm": 0.17331741750240326,
      "learning_rate": 0.001,
      "loss": 0.2615,
      "step": 2675
    },
    {
      "epoch": 2.7278287461773703,
      "grad_norm": 0.15836076438426971,
      "learning_rate": 0.001,
      "loss": 0.2412,
      "step": 2676
    },
    {
      "epoch": 2.728848114169215,
      "grad_norm": 0.30149737000465393,
      "learning_rate": 0.001,
      "loss": 0.2925,
      "step": 2677
    },
    {
      "epoch": 2.72986748216106,
      "grad_norm": 0.2994574308395386,
      "learning_rate": 0.001,
      "loss": 0.2467,
      "step": 2678
    },
    {
      "epoch": 2.7308868501529053,
      "grad_norm": 0.1677204966545105,
      "learning_rate": 0.001,
      "loss": 0.2543,
      "step": 2679
    },
    {
      "epoch": 2.73190621814475,
      "grad_norm": 0.16424265503883362,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 2680
    },
    {
      "epoch": 2.732925586136595,
      "grad_norm": 0.1476251184940338,
      "learning_rate": 0.001,
      "loss": 0.2323,
      "step": 2681
    },
    {
      "epoch": 2.7339449541284404,
      "grad_norm": 0.1894368827342987,
      "learning_rate": 0.001,
      "loss": 0.2645,
      "step": 2682
    },
    {
      "epoch": 2.7349643221202853,
      "grad_norm": 0.12469252198934555,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 2683
    },
    {
      "epoch": 2.7359836901121306,
      "grad_norm": 0.13758957386016846,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 2684
    },
    {
      "epoch": 2.7370030581039755,
      "grad_norm": 0.15705502033233643,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 2685
    },
    {
      "epoch": 2.738022426095821,
      "grad_norm": 0.2300785332918167,
      "learning_rate": 0.001,
      "loss": 0.265,
      "step": 2686
    },
    {
      "epoch": 2.7390417940876657,
      "grad_norm": 0.17431297898292542,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 2687
    },
    {
      "epoch": 2.7400611620795106,
      "grad_norm": 0.17091992497444153,
      "learning_rate": 0.001,
      "loss": 0.2382,
      "step": 2688
    },
    {
      "epoch": 2.741080530071356,
      "grad_norm": 0.15877431631088257,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 2689
    },
    {
      "epoch": 2.7420998980632008,
      "grad_norm": 0.24266913533210754,
      "learning_rate": 0.001,
      "loss": 0.2378,
      "step": 2690
    },
    {
      "epoch": 2.7431192660550456,
      "grad_norm": 0.15819281339645386,
      "learning_rate": 0.001,
      "loss": 0.249,
      "step": 2691
    },
    {
      "epoch": 2.744138634046891,
      "grad_norm": 0.22168760001659393,
      "learning_rate": 0.001,
      "loss": 0.2677,
      "step": 2692
    },
    {
      "epoch": 2.745158002038736,
      "grad_norm": 0.17997805774211884,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 2693
    },
    {
      "epoch": 2.746177370030581,
      "grad_norm": 0.1470533311367035,
      "learning_rate": 0.001,
      "loss": 0.2417,
      "step": 2694
    },
    {
      "epoch": 2.747196738022426,
      "grad_norm": 0.24844565987586975,
      "learning_rate": 0.001,
      "loss": 0.2509,
      "step": 2695
    },
    {
      "epoch": 2.7482161060142714,
      "grad_norm": 0.25647690892219543,
      "learning_rate": 0.001,
      "loss": 0.2823,
      "step": 2696
    },
    {
      "epoch": 2.7492354740061162,
      "grad_norm": 0.16012583673000336,
      "learning_rate": 0.001,
      "loss": 0.2725,
      "step": 2697
    },
    {
      "epoch": 2.750254841997961,
      "grad_norm": 0.1287762075662613,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 2698
    },
    {
      "epoch": 2.7512742099898064,
      "grad_norm": 0.1646638810634613,
      "learning_rate": 0.001,
      "loss": 0.2683,
      "step": 2699
    },
    {
      "epoch": 2.7522935779816513,
      "grad_norm": 0.20194607973098755,
      "learning_rate": 0.001,
      "loss": 0.2517,
      "step": 2700
    },
    {
      "epoch": 2.753312945973496,
      "grad_norm": 0.15461839735507965,
      "learning_rate": 0.001,
      "loss": 0.2456,
      "step": 2701
    },
    {
      "epoch": 2.7543323139653415,
      "grad_norm": 0.18356813490390778,
      "learning_rate": 0.001,
      "loss": 0.2651,
      "step": 2702
    },
    {
      "epoch": 2.7553516819571864,
      "grad_norm": 0.16647620499134064,
      "learning_rate": 0.001,
      "loss": 0.2573,
      "step": 2703
    },
    {
      "epoch": 2.7563710499490317,
      "grad_norm": 0.21102561056613922,
      "learning_rate": 0.001,
      "loss": 0.2659,
      "step": 2704
    },
    {
      "epoch": 2.7573904179408766,
      "grad_norm": 0.18819600343704224,
      "learning_rate": 0.001,
      "loss": 0.2531,
      "step": 2705
    },
    {
      "epoch": 2.758409785932722,
      "grad_norm": 0.26044607162475586,
      "learning_rate": 0.001,
      "loss": 0.2534,
      "step": 2706
    },
    {
      "epoch": 2.759429153924567,
      "grad_norm": 0.2055239975452423,
      "learning_rate": 0.001,
      "loss": 0.2687,
      "step": 2707
    },
    {
      "epoch": 2.7604485219164117,
      "grad_norm": 0.2477983683347702,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 2708
    },
    {
      "epoch": 2.761467889908257,
      "grad_norm": 0.13352805376052856,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 2709
    },
    {
      "epoch": 2.762487257900102,
      "grad_norm": 0.18093647062778473,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 2710
    },
    {
      "epoch": 2.7635066258919467,
      "grad_norm": 0.16339048743247986,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 2711
    },
    {
      "epoch": 2.764525993883792,
      "grad_norm": 0.21533016860485077,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 2712
    },
    {
      "epoch": 2.7655453618756374,
      "grad_norm": 0.11611289530992508,
      "learning_rate": 0.001,
      "loss": 0.238,
      "step": 2713
    },
    {
      "epoch": 2.7665647298674823,
      "grad_norm": 0.13390697538852692,
      "learning_rate": 0.001,
      "loss": 0.2667,
      "step": 2714
    },
    {
      "epoch": 2.767584097859327,
      "grad_norm": 0.20075127482414246,
      "learning_rate": 0.001,
      "loss": 0.2479,
      "step": 2715
    },
    {
      "epoch": 2.7686034658511725,
      "grad_norm": 0.16346290707588196,
      "learning_rate": 0.001,
      "loss": 0.2498,
      "step": 2716
    },
    {
      "epoch": 2.7696228338430173,
      "grad_norm": 0.16068628430366516,
      "learning_rate": 0.001,
      "loss": 0.2441,
      "step": 2717
    },
    {
      "epoch": 2.770642201834862,
      "grad_norm": 0.12995220720767975,
      "learning_rate": 0.001,
      "loss": 0.2413,
      "step": 2718
    },
    {
      "epoch": 2.7716615698267075,
      "grad_norm": 0.20848099887371063,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 2719
    },
    {
      "epoch": 2.7726809378185524,
      "grad_norm": 0.23365344107151031,
      "learning_rate": 0.001,
      "loss": 0.2687,
      "step": 2720
    },
    {
      "epoch": 2.7737003058103973,
      "grad_norm": 0.2216302454471588,
      "learning_rate": 0.001,
      "loss": 0.3044,
      "step": 2721
    },
    {
      "epoch": 2.7747196738022426,
      "grad_norm": 0.18475699424743652,
      "learning_rate": 0.001,
      "loss": 0.2419,
      "step": 2722
    },
    {
      "epoch": 2.775739041794088,
      "grad_norm": 0.22538229823112488,
      "learning_rate": 0.001,
      "loss": 0.2555,
      "step": 2723
    },
    {
      "epoch": 2.776758409785933,
      "grad_norm": 0.14287704229354858,
      "learning_rate": 0.001,
      "loss": 0.2812,
      "step": 2724
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 0.24049511551856995,
      "learning_rate": 0.001,
      "loss": 0.261,
      "step": 2725
    },
    {
      "epoch": 2.778797145769623,
      "grad_norm": 0.1372218281030655,
      "learning_rate": 0.001,
      "loss": 0.2411,
      "step": 2726
    },
    {
      "epoch": 2.779816513761468,
      "grad_norm": 0.1731409877538681,
      "learning_rate": 0.001,
      "loss": 0.2454,
      "step": 2727
    },
    {
      "epoch": 2.7808358817533128,
      "grad_norm": 0.17952638864517212,
      "learning_rate": 0.001,
      "loss": 0.2432,
      "step": 2728
    },
    {
      "epoch": 2.781855249745158,
      "grad_norm": 0.12550945580005646,
      "learning_rate": 0.001,
      "loss": 0.2358,
      "step": 2729
    },
    {
      "epoch": 2.782874617737003,
      "grad_norm": 0.17719128727912903,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 2730
    },
    {
      "epoch": 2.7838939857288483,
      "grad_norm": 0.17080973088741302,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 2731
    },
    {
      "epoch": 2.784913353720693,
      "grad_norm": 0.18084847927093506,
      "learning_rate": 0.001,
      "loss": 0.252,
      "step": 2732
    },
    {
      "epoch": 2.7859327217125385,
      "grad_norm": 0.20886848866939545,
      "learning_rate": 0.001,
      "loss": 0.2842,
      "step": 2733
    },
    {
      "epoch": 2.7869520897043834,
      "grad_norm": 0.14146234095096588,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2734
    },
    {
      "epoch": 2.7879714576962282,
      "grad_norm": 0.174895241856575,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 2735
    },
    {
      "epoch": 2.7889908256880735,
      "grad_norm": 0.20676203072071075,
      "learning_rate": 0.001,
      "loss": 0.2419,
      "step": 2736
    },
    {
      "epoch": 2.7900101936799184,
      "grad_norm": 0.1254301369190216,
      "learning_rate": 0.001,
      "loss": 0.2412,
      "step": 2737
    },
    {
      "epoch": 2.7910295616717633,
      "grad_norm": 0.20094211399555206,
      "learning_rate": 0.001,
      "loss": 0.2443,
      "step": 2738
    },
    {
      "epoch": 2.7920489296636086,
      "grad_norm": 0.3220744729042053,
      "learning_rate": 0.001,
      "loss": 0.2878,
      "step": 2739
    },
    {
      "epoch": 2.7930682976554535,
      "grad_norm": 0.16436852514743805,
      "learning_rate": 0.001,
      "loss": 0.2418,
      "step": 2740
    },
    {
      "epoch": 2.794087665647299,
      "grad_norm": 0.25147879123687744,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 2741
    },
    {
      "epoch": 2.7951070336391437,
      "grad_norm": 0.26393139362335205,
      "learning_rate": 0.001,
      "loss": 0.2532,
      "step": 2742
    },
    {
      "epoch": 2.796126401630989,
      "grad_norm": 0.1849796175956726,
      "learning_rate": 0.001,
      "loss": 0.2784,
      "step": 2743
    },
    {
      "epoch": 2.797145769622834,
      "grad_norm": 0.20932814478874207,
      "learning_rate": 0.001,
      "loss": 0.2747,
      "step": 2744
    },
    {
      "epoch": 2.7981651376146788,
      "grad_norm": 0.18716716766357422,
      "learning_rate": 0.001,
      "loss": 0.2433,
      "step": 2745
    },
    {
      "epoch": 2.799184505606524,
      "grad_norm": 0.17415457963943481,
      "learning_rate": 0.001,
      "loss": 0.2723,
      "step": 2746
    },
    {
      "epoch": 2.800203873598369,
      "grad_norm": 0.2173442840576172,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 2747
    },
    {
      "epoch": 2.801223241590214,
      "grad_norm": 0.2378070056438446,
      "learning_rate": 0.001,
      "loss": 0.2347,
      "step": 2748
    },
    {
      "epoch": 2.802242609582059,
      "grad_norm": 0.2861396372318268,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 2749
    },
    {
      "epoch": 2.803261977573904,
      "grad_norm": 0.16243021190166473,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 2750
    },
    {
      "epoch": 2.8042813455657494,
      "grad_norm": 0.1670328676700592,
      "learning_rate": 0.001,
      "loss": 0.2566,
      "step": 2751
    },
    {
      "epoch": 2.8053007135575942,
      "grad_norm": 0.1787651628255844,
      "learning_rate": 0.001,
      "loss": 0.2599,
      "step": 2752
    },
    {
      "epoch": 2.8063200815494396,
      "grad_norm": 0.16084440052509308,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 2753
    },
    {
      "epoch": 2.8073394495412844,
      "grad_norm": 0.29062318801879883,
      "learning_rate": 0.001,
      "loss": 0.2495,
      "step": 2754
    },
    {
      "epoch": 2.8083588175331293,
      "grad_norm": 0.2082710564136505,
      "learning_rate": 0.001,
      "loss": 0.2544,
      "step": 2755
    },
    {
      "epoch": 2.8093781855249746,
      "grad_norm": 0.15859255194664001,
      "learning_rate": 0.001,
      "loss": 0.2577,
      "step": 2756
    },
    {
      "epoch": 2.8103975535168195,
      "grad_norm": 0.123993419110775,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2757
    },
    {
      "epoch": 2.8114169215086644,
      "grad_norm": 0.14507657289505005,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 2758
    },
    {
      "epoch": 2.8124362895005097,
      "grad_norm": 0.2765743136405945,
      "learning_rate": 0.001,
      "loss": 0.2512,
      "step": 2759
    },
    {
      "epoch": 2.8134556574923546,
      "grad_norm": 0.3815629482269287,
      "learning_rate": 0.001,
      "loss": 0.2684,
      "step": 2760
    },
    {
      "epoch": 2.8144750254842,
      "grad_norm": 0.24991531670093536,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 2761
    },
    {
      "epoch": 2.815494393476045,
      "grad_norm": 0.172972172498703,
      "learning_rate": 0.001,
      "loss": 0.2499,
      "step": 2762
    },
    {
      "epoch": 2.81651376146789,
      "grad_norm": 0.15448766946792603,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 2763
    },
    {
      "epoch": 2.817533129459735,
      "grad_norm": 0.29814350605010986,
      "learning_rate": 0.001,
      "loss": 0.2679,
      "step": 2764
    },
    {
      "epoch": 2.81855249745158,
      "grad_norm": 0.22073495388031006,
      "learning_rate": 0.001,
      "loss": 0.2759,
      "step": 2765
    },
    {
      "epoch": 2.819571865443425,
      "grad_norm": 0.18666931986808777,
      "learning_rate": 0.001,
      "loss": 0.2365,
      "step": 2766
    },
    {
      "epoch": 2.82059123343527,
      "grad_norm": 0.14160491526126862,
      "learning_rate": 0.001,
      "loss": 0.238,
      "step": 2767
    },
    {
      "epoch": 2.821610601427115,
      "grad_norm": 0.2537078559398651,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 2768
    },
    {
      "epoch": 2.8226299694189603,
      "grad_norm": 0.0977805033326149,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 2769
    },
    {
      "epoch": 2.823649337410805,
      "grad_norm": 0.194149911403656,
      "learning_rate": 0.001,
      "loss": 0.2527,
      "step": 2770
    },
    {
      "epoch": 2.8246687054026505,
      "grad_norm": 0.17491625249385834,
      "learning_rate": 0.001,
      "loss": 0.2247,
      "step": 2771
    },
    {
      "epoch": 2.8256880733944953,
      "grad_norm": 0.18940100073814392,
      "learning_rate": 0.001,
      "loss": 0.2454,
      "step": 2772
    },
    {
      "epoch": 2.8267074413863407,
      "grad_norm": 0.18226221203804016,
      "learning_rate": 0.001,
      "loss": 0.245,
      "step": 2773
    },
    {
      "epoch": 2.8277268093781855,
      "grad_norm": 0.18979744613170624,
      "learning_rate": 0.001,
      "loss": 0.2599,
      "step": 2774
    },
    {
      "epoch": 2.8287461773700304,
      "grad_norm": 0.20104879140853882,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 2775
    },
    {
      "epoch": 2.8297655453618757,
      "grad_norm": 0.2085319310426712,
      "learning_rate": 0.001,
      "loss": 0.2703,
      "step": 2776
    },
    {
      "epoch": 2.8307849133537206,
      "grad_norm": 0.1394176185131073,
      "learning_rate": 0.001,
      "loss": 0.2374,
      "step": 2777
    },
    {
      "epoch": 2.8318042813455655,
      "grad_norm": 0.20330685377120972,
      "learning_rate": 0.001,
      "loss": 0.2467,
      "step": 2778
    },
    {
      "epoch": 2.832823649337411,
      "grad_norm": 0.1574341058731079,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 2779
    },
    {
      "epoch": 2.8338430173292557,
      "grad_norm": 0.17128369212150574,
      "learning_rate": 0.001,
      "loss": 0.2697,
      "step": 2780
    },
    {
      "epoch": 2.834862385321101,
      "grad_norm": 0.20945167541503906,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 2781
    },
    {
      "epoch": 2.835881753312946,
      "grad_norm": 0.13910691440105438,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 2782
    },
    {
      "epoch": 2.836901121304791,
      "grad_norm": 0.15600886940956116,
      "learning_rate": 0.001,
      "loss": 0.2552,
      "step": 2783
    },
    {
      "epoch": 2.837920489296636,
      "grad_norm": 0.2211911976337433,
      "learning_rate": 0.001,
      "loss": 0.2552,
      "step": 2784
    },
    {
      "epoch": 2.838939857288481,
      "grad_norm": 0.17960801720619202,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 2785
    },
    {
      "epoch": 2.8399592252803263,
      "grad_norm": 0.16983424127101898,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 2786
    },
    {
      "epoch": 2.840978593272171,
      "grad_norm": 0.20454640686511993,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 2787
    },
    {
      "epoch": 2.841997961264016,
      "grad_norm": 0.10735008865594864,
      "learning_rate": 0.001,
      "loss": 0.2334,
      "step": 2788
    },
    {
      "epoch": 2.8430173292558614,
      "grad_norm": 0.12972408533096313,
      "learning_rate": 0.001,
      "loss": 0.2247,
      "step": 2789
    },
    {
      "epoch": 2.8440366972477067,
      "grad_norm": 0.19646193087100983,
      "learning_rate": 0.001,
      "loss": 0.2334,
      "step": 2790
    },
    {
      "epoch": 2.8450560652395516,
      "grad_norm": 0.16300655901432037,
      "learning_rate": 0.001,
      "loss": 0.2737,
      "step": 2791
    },
    {
      "epoch": 2.8460754332313964,
      "grad_norm": 0.15504921972751617,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 2792
    },
    {
      "epoch": 2.8470948012232418,
      "grad_norm": 0.2380562126636505,
      "learning_rate": 0.001,
      "loss": 0.278,
      "step": 2793
    },
    {
      "epoch": 2.8481141692150866,
      "grad_norm": 0.12341775000095367,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 2794
    },
    {
      "epoch": 2.8491335372069315,
      "grad_norm": 0.23976898193359375,
      "learning_rate": 0.001,
      "loss": 0.2631,
      "step": 2795
    },
    {
      "epoch": 2.850152905198777,
      "grad_norm": 0.17368200421333313,
      "learning_rate": 0.001,
      "loss": 0.27,
      "step": 2796
    },
    {
      "epoch": 2.8511722731906217,
      "grad_norm": 0.2542700469493866,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 2797
    },
    {
      "epoch": 2.8521916411824666,
      "grad_norm": 0.19733159244060516,
      "learning_rate": 0.001,
      "loss": 0.2438,
      "step": 2798
    },
    {
      "epoch": 2.853211009174312,
      "grad_norm": 0.12177316844463348,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 2799
    },
    {
      "epoch": 2.8542303771661572,
      "grad_norm": 0.19830065965652466,
      "learning_rate": 0.001,
      "loss": 0.2623,
      "step": 2800
    },
    {
      "epoch": 2.855249745158002,
      "grad_norm": 0.2266739010810852,
      "learning_rate": 0.001,
      "loss": 0.2821,
      "step": 2801
    },
    {
      "epoch": 2.856269113149847,
      "grad_norm": 0.20911207795143127,
      "learning_rate": 0.001,
      "loss": 0.2839,
      "step": 2802
    },
    {
      "epoch": 2.8572884811416923,
      "grad_norm": 0.27367067337036133,
      "learning_rate": 0.001,
      "loss": 0.2655,
      "step": 2803
    },
    {
      "epoch": 2.858307849133537,
      "grad_norm": 0.1468556970357895,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 2804
    },
    {
      "epoch": 2.859327217125382,
      "grad_norm": 0.16762395203113556,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 2805
    },
    {
      "epoch": 2.8603465851172274,
      "grad_norm": 0.1822841614484787,
      "learning_rate": 0.001,
      "loss": 0.2755,
      "step": 2806
    },
    {
      "epoch": 2.8613659531090723,
      "grad_norm": 0.16513364017009735,
      "learning_rate": 0.001,
      "loss": 0.2534,
      "step": 2807
    },
    {
      "epoch": 2.8623853211009176,
      "grad_norm": 0.16367100179195404,
      "learning_rate": 0.001,
      "loss": 0.2816,
      "step": 2808
    },
    {
      "epoch": 2.8634046890927625,
      "grad_norm": 0.13956838846206665,
      "learning_rate": 0.001,
      "loss": 0.2598,
      "step": 2809
    },
    {
      "epoch": 2.864424057084608,
      "grad_norm": 0.2043394297361374,
      "learning_rate": 0.001,
      "loss": 0.2732,
      "step": 2810
    },
    {
      "epoch": 2.8654434250764527,
      "grad_norm": 0.1919734627008438,
      "learning_rate": 0.001,
      "loss": 0.2728,
      "step": 2811
    },
    {
      "epoch": 2.8664627930682975,
      "grad_norm": 0.24185039103031158,
      "learning_rate": 0.001,
      "loss": 0.2683,
      "step": 2812
    },
    {
      "epoch": 2.867482161060143,
      "grad_norm": 0.18890303373336792,
      "learning_rate": 0.001,
      "loss": 0.2288,
      "step": 2813
    },
    {
      "epoch": 2.8685015290519877,
      "grad_norm": 0.175039142370224,
      "learning_rate": 0.001,
      "loss": 0.2487,
      "step": 2814
    },
    {
      "epoch": 2.8695208970438326,
      "grad_norm": 0.1779453307390213,
      "learning_rate": 0.001,
      "loss": 0.2374,
      "step": 2815
    },
    {
      "epoch": 2.870540265035678,
      "grad_norm": 0.2059384137392044,
      "learning_rate": 0.001,
      "loss": 0.249,
      "step": 2816
    },
    {
      "epoch": 2.871559633027523,
      "grad_norm": 0.16453847289085388,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 2817
    },
    {
      "epoch": 2.872579001019368,
      "grad_norm": 0.22773031890392303,
      "learning_rate": 0.001,
      "loss": 0.2842,
      "step": 2818
    },
    {
      "epoch": 2.873598369011213,
      "grad_norm": 0.1065838485956192,
      "learning_rate": 0.001,
      "loss": 0.2358,
      "step": 2819
    },
    {
      "epoch": 2.8746177370030583,
      "grad_norm": 0.1379489302635193,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 2820
    },
    {
      "epoch": 2.875637104994903,
      "grad_norm": 0.3375786542892456,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 2821
    },
    {
      "epoch": 2.876656472986748,
      "grad_norm": 0.18031352758407593,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 2822
    },
    {
      "epoch": 2.8776758409785934,
      "grad_norm": 0.21137970685958862,
      "learning_rate": 0.001,
      "loss": 0.2367,
      "step": 2823
    },
    {
      "epoch": 2.8786952089704383,
      "grad_norm": 0.20412160456180573,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 2824
    },
    {
      "epoch": 2.879714576962283,
      "grad_norm": 0.12023890763521194,
      "learning_rate": 0.001,
      "loss": 0.2419,
      "step": 2825
    },
    {
      "epoch": 2.8807339449541285,
      "grad_norm": 0.18952645361423492,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 2826
    },
    {
      "epoch": 2.8817533129459734,
      "grad_norm": 0.2134949415922165,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 2827
    },
    {
      "epoch": 2.8827726809378187,
      "grad_norm": 0.20237624645233154,
      "learning_rate": 0.001,
      "loss": 0.2578,
      "step": 2828
    },
    {
      "epoch": 2.8837920489296636,
      "grad_norm": 0.14752846956253052,
      "learning_rate": 0.001,
      "loss": 0.2744,
      "step": 2829
    },
    {
      "epoch": 2.884811416921509,
      "grad_norm": 0.14619405567646027,
      "learning_rate": 0.001,
      "loss": 0.2401,
      "step": 2830
    },
    {
      "epoch": 2.8858307849133538,
      "grad_norm": 0.23595841228961945,
      "learning_rate": 0.001,
      "loss": 0.2605,
      "step": 2831
    },
    {
      "epoch": 2.8868501529051986,
      "grad_norm": 0.16091665625572205,
      "learning_rate": 0.001,
      "loss": 0.2524,
      "step": 2832
    },
    {
      "epoch": 2.887869520897044,
      "grad_norm": 0.1490781456232071,
      "learning_rate": 0.001,
      "loss": 0.2693,
      "step": 2833
    },
    {
      "epoch": 2.888888888888889,
      "grad_norm": 0.2267652302980423,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 2834
    },
    {
      "epoch": 2.8899082568807337,
      "grad_norm": 0.13954965770244598,
      "learning_rate": 0.001,
      "loss": 0.2579,
      "step": 2835
    },
    {
      "epoch": 2.890927624872579,
      "grad_norm": 0.16540499031543732,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 2836
    },
    {
      "epoch": 2.891946992864424,
      "grad_norm": 0.1804470717906952,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 2837
    },
    {
      "epoch": 2.8929663608562692,
      "grad_norm": 0.2314239740371704,
      "learning_rate": 0.001,
      "loss": 0.2953,
      "step": 2838
    },
    {
      "epoch": 2.893985728848114,
      "grad_norm": 0.23257552087306976,
      "learning_rate": 0.001,
      "loss": 0.2484,
      "step": 2839
    },
    {
      "epoch": 2.8950050968399594,
      "grad_norm": 0.197269469499588,
      "learning_rate": 0.001,
      "loss": 0.2753,
      "step": 2840
    },
    {
      "epoch": 2.8960244648318043,
      "grad_norm": 0.14869551360607147,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 2841
    },
    {
      "epoch": 2.897043832823649,
      "grad_norm": 0.19731220602989197,
      "learning_rate": 0.001,
      "loss": 0.2543,
      "step": 2842
    },
    {
      "epoch": 2.8980632008154945,
      "grad_norm": 0.1924627125263214,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 2843
    },
    {
      "epoch": 2.8990825688073394,
      "grad_norm": 0.1428840607404709,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 2844
    },
    {
      "epoch": 2.9001019367991843,
      "grad_norm": 0.14494003355503082,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 2845
    },
    {
      "epoch": 2.9011213047910296,
      "grad_norm": 0.1527463048696518,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 2846
    },
    {
      "epoch": 2.9021406727828745,
      "grad_norm": 0.1261935830116272,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 2847
    },
    {
      "epoch": 2.90316004077472,
      "grad_norm": 0.1853807270526886,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 2848
    },
    {
      "epoch": 2.9041794087665647,
      "grad_norm": 0.1696520745754242,
      "learning_rate": 0.001,
      "loss": 0.2432,
      "step": 2849
    },
    {
      "epoch": 2.90519877675841,
      "grad_norm": 0.15622322261333466,
      "learning_rate": 0.001,
      "loss": 0.261,
      "step": 2850
    },
    {
      "epoch": 2.906218144750255,
      "grad_norm": 0.21465490758419037,
      "learning_rate": 0.001,
      "loss": 0.26,
      "step": 2851
    },
    {
      "epoch": 2.9072375127420997,
      "grad_norm": 0.18104371428489685,
      "learning_rate": 0.001,
      "loss": 0.2789,
      "step": 2852
    },
    {
      "epoch": 2.908256880733945,
      "grad_norm": 0.1775127649307251,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 2853
    },
    {
      "epoch": 2.90927624872579,
      "grad_norm": 0.12280545383691788,
      "learning_rate": 0.001,
      "loss": 0.2338,
      "step": 2854
    },
    {
      "epoch": 2.910295616717635,
      "grad_norm": 0.14611873030662537,
      "learning_rate": 0.001,
      "loss": 0.2488,
      "step": 2855
    },
    {
      "epoch": 2.91131498470948,
      "grad_norm": 0.1927463561296463,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 2856
    },
    {
      "epoch": 2.912334352701325,
      "grad_norm": 0.16428494453430176,
      "learning_rate": 0.001,
      "loss": 0.2656,
      "step": 2857
    },
    {
      "epoch": 2.9133537206931703,
      "grad_norm": 0.16332650184631348,
      "learning_rate": 0.001,
      "loss": 0.2581,
      "step": 2858
    },
    {
      "epoch": 2.914373088685015,
      "grad_norm": 0.11381878703832626,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2859
    },
    {
      "epoch": 2.9153924566768605,
      "grad_norm": 0.14788569509983063,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 2860
    },
    {
      "epoch": 2.9164118246687054,
      "grad_norm": 0.19527895748615265,
      "learning_rate": 0.001,
      "loss": 0.2471,
      "step": 2861
    },
    {
      "epoch": 2.9174311926605503,
      "grad_norm": 0.11862971633672714,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 2862
    },
    {
      "epoch": 2.9184505606523956,
      "grad_norm": 0.4322960376739502,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 2863
    },
    {
      "epoch": 2.9194699286442405,
      "grad_norm": 0.10380588471889496,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 2864
    },
    {
      "epoch": 2.9204892966360854,
      "grad_norm": 0.11450540274381638,
      "learning_rate": 0.001,
      "loss": 0.2384,
      "step": 2865
    },
    {
      "epoch": 2.9215086646279307,
      "grad_norm": 0.11516589671373367,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 2866
    },
    {
      "epoch": 2.922528032619776,
      "grad_norm": 0.23090551793575287,
      "learning_rate": 0.001,
      "loss": 0.2712,
      "step": 2867
    },
    {
      "epoch": 2.923547400611621,
      "grad_norm": 0.14154469966888428,
      "learning_rate": 0.001,
      "loss": 0.2427,
      "step": 2868
    },
    {
      "epoch": 2.9245667686034658,
      "grad_norm": 0.18466253578662872,
      "learning_rate": 0.001,
      "loss": 0.2549,
      "step": 2869
    },
    {
      "epoch": 2.925586136595311,
      "grad_norm": 0.13149946928024292,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 2870
    },
    {
      "epoch": 2.926605504587156,
      "grad_norm": 0.21623489260673523,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 2871
    },
    {
      "epoch": 2.927624872579001,
      "grad_norm": 0.13077624142169952,
      "learning_rate": 0.001,
      "loss": 0.2681,
      "step": 2872
    },
    {
      "epoch": 2.928644240570846,
      "grad_norm": 0.1560865193605423,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 2873
    },
    {
      "epoch": 2.929663608562691,
      "grad_norm": 0.11828181892633438,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 2874
    },
    {
      "epoch": 2.930682976554536,
      "grad_norm": 0.1802694946527481,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 2875
    },
    {
      "epoch": 2.9317023445463812,
      "grad_norm": 0.1542883962392807,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 2876
    },
    {
      "epoch": 2.9327217125382266,
      "grad_norm": 0.11070366948843002,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 2877
    },
    {
      "epoch": 2.9337410805300714,
      "grad_norm": 0.3217179775238037,
      "learning_rate": 0.001,
      "loss": 0.2506,
      "step": 2878
    },
    {
      "epoch": 2.9347604485219163,
      "grad_norm": 0.14038531482219696,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 2879
    },
    {
      "epoch": 2.9357798165137616,
      "grad_norm": 0.17462046444416046,
      "learning_rate": 0.001,
      "loss": 0.251,
      "step": 2880
    },
    {
      "epoch": 2.9367991845056065,
      "grad_norm": 0.23137542605400085,
      "learning_rate": 0.001,
      "loss": 0.2772,
      "step": 2881
    },
    {
      "epoch": 2.9378185524974514,
      "grad_norm": 0.1238422617316246,
      "learning_rate": 0.001,
      "loss": 0.2288,
      "step": 2882
    },
    {
      "epoch": 2.9388379204892967,
      "grad_norm": 0.23208212852478027,
      "learning_rate": 0.001,
      "loss": 0.2957,
      "step": 2883
    },
    {
      "epoch": 2.9398572884811416,
      "grad_norm": 0.14152121543884277,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 2884
    },
    {
      "epoch": 2.940876656472987,
      "grad_norm": 0.17987675964832306,
      "learning_rate": 0.001,
      "loss": 0.2391,
      "step": 2885
    },
    {
      "epoch": 2.941896024464832,
      "grad_norm": 0.19028903543949127,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 2886
    },
    {
      "epoch": 2.942915392456677,
      "grad_norm": 0.13679738342761993,
      "learning_rate": 0.001,
      "loss": 0.2637,
      "step": 2887
    },
    {
      "epoch": 2.943934760448522,
      "grad_norm": 0.3296997845172882,
      "learning_rate": 0.001,
      "loss": 0.2374,
      "step": 2888
    },
    {
      "epoch": 2.944954128440367,
      "grad_norm": 0.1409624218940735,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 2889
    },
    {
      "epoch": 2.945973496432212,
      "grad_norm": 0.13215892016887665,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 2890
    },
    {
      "epoch": 2.946992864424057,
      "grad_norm": 0.23228567838668823,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 2891
    },
    {
      "epoch": 2.948012232415902,
      "grad_norm": 0.1882484257221222,
      "learning_rate": 0.001,
      "loss": 0.2704,
      "step": 2892
    },
    {
      "epoch": 2.9490316004077473,
      "grad_norm": 0.1566627323627472,
      "learning_rate": 0.001,
      "loss": 0.2499,
      "step": 2893
    },
    {
      "epoch": 2.950050968399592,
      "grad_norm": 0.30833154916763306,
      "learning_rate": 0.001,
      "loss": 0.2725,
      "step": 2894
    },
    {
      "epoch": 2.9510703363914375,
      "grad_norm": 0.13559316098690033,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 2895
    },
    {
      "epoch": 2.9520897043832823,
      "grad_norm": 0.13862130045890808,
      "learning_rate": 0.001,
      "loss": 0.2435,
      "step": 2896
    },
    {
      "epoch": 2.9531090723751277,
      "grad_norm": 0.13204462826251984,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 2897
    },
    {
      "epoch": 2.9541284403669725,
      "grad_norm": 0.16420765221118927,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 2898
    },
    {
      "epoch": 2.9551478083588174,
      "grad_norm": 0.12514664232730865,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 2899
    },
    {
      "epoch": 2.9561671763506627,
      "grad_norm": 0.11877191811800003,
      "learning_rate": 0.001,
      "loss": 0.2522,
      "step": 2900
    },
    {
      "epoch": 2.9571865443425076,
      "grad_norm": 0.14243090152740479,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 2901
    },
    {
      "epoch": 2.9582059123343525,
      "grad_norm": 0.1575058549642563,
      "learning_rate": 0.001,
      "loss": 0.2461,
      "step": 2902
    },
    {
      "epoch": 2.959225280326198,
      "grad_norm": 0.23708030581474304,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 2903
    },
    {
      "epoch": 2.9602446483180427,
      "grad_norm": 0.16458335518836975,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 2904
    },
    {
      "epoch": 2.961264016309888,
      "grad_norm": 0.1792917549610138,
      "learning_rate": 0.001,
      "loss": 0.2335,
      "step": 2905
    },
    {
      "epoch": 2.962283384301733,
      "grad_norm": 0.1235509067773819,
      "learning_rate": 0.001,
      "loss": 0.2444,
      "step": 2906
    },
    {
      "epoch": 2.963302752293578,
      "grad_norm": 0.17546309530735016,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 2907
    },
    {
      "epoch": 2.964322120285423,
      "grad_norm": 0.2042313516139984,
      "learning_rate": 0.001,
      "loss": 0.2406,
      "step": 2908
    },
    {
      "epoch": 2.965341488277268,
      "grad_norm": 0.17141537368297577,
      "learning_rate": 0.001,
      "loss": 0.2278,
      "step": 2909
    },
    {
      "epoch": 2.9663608562691133,
      "grad_norm": 0.15065734088420868,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 2910
    },
    {
      "epoch": 2.967380224260958,
      "grad_norm": 0.24276547133922577,
      "learning_rate": 0.001,
      "loss": 0.2263,
      "step": 2911
    },
    {
      "epoch": 2.968399592252803,
      "grad_norm": 0.292173832654953,
      "learning_rate": 0.001,
      "loss": 0.2579,
      "step": 2912
    },
    {
      "epoch": 2.9694189602446484,
      "grad_norm": 0.17291371524333954,
      "learning_rate": 0.001,
      "loss": 0.2389,
      "step": 2913
    },
    {
      "epoch": 2.9704383282364932,
      "grad_norm": 0.13726221024990082,
      "learning_rate": 0.001,
      "loss": 0.2354,
      "step": 2914
    },
    {
      "epoch": 2.9714576962283386,
      "grad_norm": 0.13609440624713898,
      "learning_rate": 0.001,
      "loss": 0.2498,
      "step": 2915
    },
    {
      "epoch": 2.9724770642201834,
      "grad_norm": 0.24159394204616547,
      "learning_rate": 0.001,
      "loss": 0.2539,
      "step": 2916
    },
    {
      "epoch": 2.9734964322120288,
      "grad_norm": 0.21620921790599823,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 2917
    },
    {
      "epoch": 2.9745158002038736,
      "grad_norm": 0.2577897608280182,
      "learning_rate": 0.001,
      "loss": 0.2572,
      "step": 2918
    },
    {
      "epoch": 2.9755351681957185,
      "grad_norm": 0.12085191160440445,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 2919
    },
    {
      "epoch": 2.976554536187564,
      "grad_norm": 0.20152737200260162,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 2920
    },
    {
      "epoch": 2.9775739041794087,
      "grad_norm": 0.24236994981765747,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 2921
    },
    {
      "epoch": 2.9785932721712536,
      "grad_norm": 0.17805035412311554,
      "learning_rate": 0.001,
      "loss": 0.2463,
      "step": 2922
    },
    {
      "epoch": 2.979612640163099,
      "grad_norm": 0.17162638902664185,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 2923
    },
    {
      "epoch": 2.980632008154944,
      "grad_norm": 0.13175104558467865,
      "learning_rate": 0.001,
      "loss": 0.2478,
      "step": 2924
    },
    {
      "epoch": 2.981651376146789,
      "grad_norm": 0.20824380218982697,
      "learning_rate": 0.001,
      "loss": 0.2423,
      "step": 2925
    },
    {
      "epoch": 2.982670744138634,
      "grad_norm": 0.18222825229167938,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 2926
    },
    {
      "epoch": 2.9836901121304793,
      "grad_norm": 0.1487654447555542,
      "learning_rate": 0.001,
      "loss": 0.2257,
      "step": 2927
    },
    {
      "epoch": 2.984709480122324,
      "grad_norm": 0.19842734932899475,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 2928
    },
    {
      "epoch": 2.985728848114169,
      "grad_norm": 0.21063055098056793,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 2929
    },
    {
      "epoch": 2.9867482161060144,
      "grad_norm": 0.19519279897212982,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 2930
    },
    {
      "epoch": 2.9877675840978593,
      "grad_norm": 0.2209552526473999,
      "learning_rate": 0.001,
      "loss": 0.2614,
      "step": 2931
    },
    {
      "epoch": 2.988786952089704,
      "grad_norm": 0.1822178214788437,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 2932
    },
    {
      "epoch": 2.9898063200815495,
      "grad_norm": 0.190198615193367,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 2933
    },
    {
      "epoch": 2.9908256880733948,
      "grad_norm": 0.15834656357765198,
      "learning_rate": 0.001,
      "loss": 0.2427,
      "step": 2934
    },
    {
      "epoch": 2.9918450560652396,
      "grad_norm": 0.16319556534290314,
      "learning_rate": 0.001,
      "loss": 0.2476,
      "step": 2935
    },
    {
      "epoch": 2.9928644240570845,
      "grad_norm": 0.20029577612876892,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 2936
    },
    {
      "epoch": 2.99388379204893,
      "grad_norm": 0.22390374541282654,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 2937
    },
    {
      "epoch": 2.9949031600407747,
      "grad_norm": 0.2052851766347885,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 2938
    },
    {
      "epoch": 2.9959225280326196,
      "grad_norm": 0.16710439324378967,
      "learning_rate": 0.001,
      "loss": 0.2764,
      "step": 2939
    },
    {
      "epoch": 2.996941896024465,
      "grad_norm": 0.26686954498291016,
      "learning_rate": 0.001,
      "loss": 0.2611,
      "step": 2940
    },
    {
      "epoch": 2.99796126401631,
      "grad_norm": 0.2388540655374527,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 2941
    },
    {
      "epoch": 2.9989806320081547,
      "grad_norm": 0.2672629952430725,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 2942
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.23651905357837677,
      "learning_rate": 0.001,
      "loss": 0.2609,
      "step": 2943
    },
    {
      "epoch": 3.0,
      "eval_-_f1-score": 0.0,
      "eval_-_precision": 0.0,
      "eval_-_recall": 0.0,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9409360310647864,
      "eval_<_precision": 0.9355821987400935,
      "eval_<_recall": 0.9463514902363823,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.6718446601941748,
      "eval_=_precision": 0.6479400749063671,
      "eval_=_recall": 0.6975806451612904,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.941200785367366,
      "eval_>_precision": 0.9463840399002493,
      "eval_>_recall": 0.9360739979445015,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9331,
      "eval_loss": 0.13615000247955322,
      "eval_macro_avg_f1-score": 0.6384953691565818,
      "eval_macro_avg_precision": 0.6324765783866775,
      "eval_macro_avg_recall": 0.6450015333355436,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9141,
      "eval_samples_per_second": 774.346,
      "eval_steps_per_second": 3.097,
      "eval_weighted_avg_f1-score": 0.9323213087670575,
      "eval_weighted_avg_precision": 0.9316454889562048,
      "eval_weighted_avg_recall": 0.9331,
      "eval_weighted_avg_support": 10000.0,
      "step": 2943
    },
    {
      "epoch": 3.001019367991845,
      "grad_norm": 0.2559351623058319,
      "learning_rate": 0.001,
      "loss": 0.2423,
      "step": 2944
    },
    {
      "epoch": 3.00203873598369,
      "grad_norm": 0.20539256930351257,
      "learning_rate": 0.001,
      "loss": 0.2378,
      "step": 2945
    },
    {
      "epoch": 3.003058103975535,
      "grad_norm": 0.203640416264534,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 2946
    },
    {
      "epoch": 3.0040774719673804,
      "grad_norm": 0.15612360835075378,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 2947
    },
    {
      "epoch": 3.0050968399592253,
      "grad_norm": 0.20009823143482208,
      "learning_rate": 0.001,
      "loss": 0.2391,
      "step": 2948
    },
    {
      "epoch": 3.00611620795107,
      "grad_norm": 0.19728432595729828,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 2949
    },
    {
      "epoch": 3.0071355759429155,
      "grad_norm": 0.2225896716117859,
      "learning_rate": 0.001,
      "loss": 0.2273,
      "step": 2950
    },
    {
      "epoch": 3.0081549439347604,
      "grad_norm": 0.21926110982894897,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 2951
    },
    {
      "epoch": 3.0091743119266057,
      "grad_norm": 0.16515882313251495,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 2952
    },
    {
      "epoch": 3.0101936799184505,
      "grad_norm": 0.18708020448684692,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 2953
    },
    {
      "epoch": 3.0112130479102954,
      "grad_norm": 0.15063272416591644,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 2954
    },
    {
      "epoch": 3.0122324159021407,
      "grad_norm": 0.26393210887908936,
      "learning_rate": 0.001,
      "loss": 0.2588,
      "step": 2955
    },
    {
      "epoch": 3.0132517838939856,
      "grad_norm": 0.10249759256839752,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 2956
    },
    {
      "epoch": 3.014271151885831,
      "grad_norm": 0.22702573239803314,
      "learning_rate": 0.001,
      "loss": 0.2394,
      "step": 2957
    },
    {
      "epoch": 3.015290519877676,
      "grad_norm": 0.1907406449317932,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 2958
    },
    {
      "epoch": 3.0163098878695207,
      "grad_norm": 0.18419082462787628,
      "learning_rate": 0.001,
      "loss": 0.2368,
      "step": 2959
    },
    {
      "epoch": 3.017329255861366,
      "grad_norm": 0.16751953959465027,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 2960
    },
    {
      "epoch": 3.018348623853211,
      "grad_norm": 0.12930093705654144,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 2961
    },
    {
      "epoch": 3.019367991845056,
      "grad_norm": 0.1799861192703247,
      "learning_rate": 0.001,
      "loss": 0.2509,
      "step": 2962
    },
    {
      "epoch": 3.020387359836901,
      "grad_norm": 0.1377931535243988,
      "learning_rate": 0.001,
      "loss": 0.2407,
      "step": 2963
    },
    {
      "epoch": 3.021406727828746,
      "grad_norm": 0.14071005582809448,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 2964
    },
    {
      "epoch": 3.0224260958205913,
      "grad_norm": 0.1752602756023407,
      "learning_rate": 0.001,
      "loss": 0.2471,
      "step": 2965
    },
    {
      "epoch": 3.023445463812436,
      "grad_norm": 0.1782093495130539,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 2966
    },
    {
      "epoch": 3.0244648318042815,
      "grad_norm": 0.2598726749420166,
      "learning_rate": 0.001,
      "loss": 0.266,
      "step": 2967
    },
    {
      "epoch": 3.0254841997961264,
      "grad_norm": 0.18776725232601166,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 2968
    },
    {
      "epoch": 3.0265035677879712,
      "grad_norm": 0.15383414924144745,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 2969
    },
    {
      "epoch": 3.0275229357798166,
      "grad_norm": 0.15253986418247223,
      "learning_rate": 0.001,
      "loss": 0.2485,
      "step": 2970
    },
    {
      "epoch": 3.0285423037716614,
      "grad_norm": 0.2274961918592453,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 2971
    },
    {
      "epoch": 3.0295616717635068,
      "grad_norm": 0.20624075829982758,
      "learning_rate": 0.001,
      "loss": 0.234,
      "step": 2972
    },
    {
      "epoch": 3.0305810397553516,
      "grad_norm": 0.17561231553554535,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 2973
    },
    {
      "epoch": 3.0316004077471965,
      "grad_norm": 0.19347147643566132,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 2974
    },
    {
      "epoch": 3.032619775739042,
      "grad_norm": 0.2118704915046692,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 2975
    },
    {
      "epoch": 3.0336391437308867,
      "grad_norm": 0.13573484122753143,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 2976
    },
    {
      "epoch": 3.034658511722732,
      "grad_norm": 0.12481085956096649,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 2977
    },
    {
      "epoch": 3.035677879714577,
      "grad_norm": 0.20330171287059784,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 2978
    },
    {
      "epoch": 3.036697247706422,
      "grad_norm": 0.3370579183101654,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 2979
    },
    {
      "epoch": 3.037716615698267,
      "grad_norm": 0.2622975707054138,
      "learning_rate": 0.001,
      "loss": 0.2751,
      "step": 2980
    },
    {
      "epoch": 3.038735983690112,
      "grad_norm": 0.1233883649110794,
      "learning_rate": 0.001,
      "loss": 0.238,
      "step": 2981
    },
    {
      "epoch": 3.0397553516819573,
      "grad_norm": 0.2984537184238434,
      "learning_rate": 0.001,
      "loss": 0.2822,
      "step": 2982
    },
    {
      "epoch": 3.040774719673802,
      "grad_norm": 0.1923927217721939,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 2983
    },
    {
      "epoch": 3.0417940876656475,
      "grad_norm": 0.14962762594223022,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 2984
    },
    {
      "epoch": 3.0428134556574924,
      "grad_norm": 0.19790135324001312,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 2985
    },
    {
      "epoch": 3.0438328236493373,
      "grad_norm": 0.16194944083690643,
      "learning_rate": 0.001,
      "loss": 0.2498,
      "step": 2986
    },
    {
      "epoch": 3.0448521916411826,
      "grad_norm": 0.1507425606250763,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 2987
    },
    {
      "epoch": 3.0458715596330275,
      "grad_norm": 0.11280440539121628,
      "learning_rate": 0.001,
      "loss": 0.2156,
      "step": 2988
    },
    {
      "epoch": 3.046890927624873,
      "grad_norm": 0.12585847079753876,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 2989
    },
    {
      "epoch": 3.0479102956167177,
      "grad_norm": 0.22845572233200073,
      "learning_rate": 0.001,
      "loss": 0.2415,
      "step": 2990
    },
    {
      "epoch": 3.0489296636085625,
      "grad_norm": 0.15086379647254944,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 2991
    },
    {
      "epoch": 3.049949031600408,
      "grad_norm": 0.13957129418849945,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 2992
    },
    {
      "epoch": 3.0509683995922527,
      "grad_norm": 0.27173882722854614,
      "learning_rate": 0.001,
      "loss": 0.2491,
      "step": 2993
    },
    {
      "epoch": 3.051987767584098,
      "grad_norm": 0.11115239560604095,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 2994
    },
    {
      "epoch": 3.053007135575943,
      "grad_norm": 0.15729165077209473,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 2995
    },
    {
      "epoch": 3.054026503567788,
      "grad_norm": 0.19836324453353882,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 2996
    },
    {
      "epoch": 3.055045871559633,
      "grad_norm": 0.12208788841962814,
      "learning_rate": 0.001,
      "loss": 0.2349,
      "step": 2997
    },
    {
      "epoch": 3.056065239551478,
      "grad_norm": 0.1392744928598404,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 2998
    },
    {
      "epoch": 3.0570846075433233,
      "grad_norm": 0.2030337005853653,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 2999
    },
    {
      "epoch": 3.058103975535168,
      "grad_norm": 0.14414605498313904,
      "learning_rate": 0.001,
      "loss": 0.2461,
      "step": 3000
    },
    {
      "epoch": 3.059123343527013,
      "grad_norm": 0.17272880673408508,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 3001
    },
    {
      "epoch": 3.0601427115188584,
      "grad_norm": 0.26711076498031616,
      "learning_rate": 0.001,
      "loss": 0.2458,
      "step": 3002
    },
    {
      "epoch": 3.0611620795107033,
      "grad_norm": 0.17640823125839233,
      "learning_rate": 0.001,
      "loss": 0.2456,
      "step": 3003
    },
    {
      "epoch": 3.0621814475025486,
      "grad_norm": 0.15950438380241394,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 3004
    },
    {
      "epoch": 3.0632008154943935,
      "grad_norm": 0.13913460075855255,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 3005
    },
    {
      "epoch": 3.0642201834862384,
      "grad_norm": 0.12948739528656006,
      "learning_rate": 0.001,
      "loss": 0.2446,
      "step": 3006
    },
    {
      "epoch": 3.0652395514780837,
      "grad_norm": 0.14729759097099304,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 3007
    },
    {
      "epoch": 3.0662589194699286,
      "grad_norm": 0.14577236771583557,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 3008
    },
    {
      "epoch": 3.067278287461774,
      "grad_norm": 0.16762208938598633,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 3009
    },
    {
      "epoch": 3.0682976554536188,
      "grad_norm": 0.19392836093902588,
      "learning_rate": 0.001,
      "loss": 0.257,
      "step": 3010
    },
    {
      "epoch": 3.0693170234454636,
      "grad_norm": 0.18784074485301971,
      "learning_rate": 0.001,
      "loss": 0.2452,
      "step": 3011
    },
    {
      "epoch": 3.070336391437309,
      "grad_norm": 0.19144657254219055,
      "learning_rate": 0.001,
      "loss": 0.2373,
      "step": 3012
    },
    {
      "epoch": 3.071355759429154,
      "grad_norm": 0.1598043143749237,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3013
    },
    {
      "epoch": 3.072375127420999,
      "grad_norm": 0.1401902288198471,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 3014
    },
    {
      "epoch": 3.073394495412844,
      "grad_norm": 0.2781071066856384,
      "learning_rate": 0.001,
      "loss": 0.2401,
      "step": 3015
    },
    {
      "epoch": 3.074413863404689,
      "grad_norm": 0.20487390458583832,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 3016
    },
    {
      "epoch": 3.0754332313965342,
      "grad_norm": 0.10754261165857315,
      "learning_rate": 0.001,
      "loss": 0.2253,
      "step": 3017
    },
    {
      "epoch": 3.076452599388379,
      "grad_norm": 0.2620506286621094,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 3018
    },
    {
      "epoch": 3.0774719673802244,
      "grad_norm": 0.2238447517156601,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 3019
    },
    {
      "epoch": 3.0784913353720693,
      "grad_norm": 0.13112354278564453,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 3020
    },
    {
      "epoch": 3.079510703363914,
      "grad_norm": 0.21250756084918976,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 3021
    },
    {
      "epoch": 3.0805300713557595,
      "grad_norm": 0.1403166502714157,
      "learning_rate": 0.001,
      "loss": 0.2432,
      "step": 3022
    },
    {
      "epoch": 3.0815494393476044,
      "grad_norm": 0.2279776781797409,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 3023
    },
    {
      "epoch": 3.0825688073394497,
      "grad_norm": 0.10879751294851303,
      "learning_rate": 0.001,
      "loss": 0.2472,
      "step": 3024
    },
    {
      "epoch": 3.0835881753312946,
      "grad_norm": 0.25316154956817627,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 3025
    },
    {
      "epoch": 3.0846075433231395,
      "grad_norm": 0.16150082647800446,
      "learning_rate": 0.001,
      "loss": 0.2224,
      "step": 3026
    },
    {
      "epoch": 3.085626911314985,
      "grad_norm": 0.24361397325992584,
      "learning_rate": 0.001,
      "loss": 0.2324,
      "step": 3027
    },
    {
      "epoch": 3.0866462793068297,
      "grad_norm": 0.2047276347875595,
      "learning_rate": 0.001,
      "loss": 0.2377,
      "step": 3028
    },
    {
      "epoch": 3.087665647298675,
      "grad_norm": 0.1534796804189682,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 3029
    },
    {
      "epoch": 3.08868501529052,
      "grad_norm": 0.14831863343715668,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3030
    },
    {
      "epoch": 3.0897043832823647,
      "grad_norm": 0.1544838398694992,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 3031
    },
    {
      "epoch": 3.09072375127421,
      "grad_norm": 0.1687256097793579,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 3032
    },
    {
      "epoch": 3.091743119266055,
      "grad_norm": 0.20160898566246033,
      "learning_rate": 0.001,
      "loss": 0.2656,
      "step": 3033
    },
    {
      "epoch": 3.0927624872579003,
      "grad_norm": 0.10987985134124756,
      "learning_rate": 0.001,
      "loss": 0.2467,
      "step": 3034
    },
    {
      "epoch": 3.093781855249745,
      "grad_norm": 0.12330826371908188,
      "learning_rate": 0.001,
      "loss": 0.2534,
      "step": 3035
    },
    {
      "epoch": 3.09480122324159,
      "grad_norm": 0.18442288041114807,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 3036
    },
    {
      "epoch": 3.0958205912334353,
      "grad_norm": 0.15775799751281738,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 3037
    },
    {
      "epoch": 3.09683995922528,
      "grad_norm": 0.144988015294075,
      "learning_rate": 0.001,
      "loss": 0.2349,
      "step": 3038
    },
    {
      "epoch": 3.0978593272171255,
      "grad_norm": 0.13499534130096436,
      "learning_rate": 0.001,
      "loss": 0.2452,
      "step": 3039
    },
    {
      "epoch": 3.0988786952089704,
      "grad_norm": 0.11554485559463501,
      "learning_rate": 0.001,
      "loss": 0.2367,
      "step": 3040
    },
    {
      "epoch": 3.0998980632008153,
      "grad_norm": 0.14568927884101868,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 3041
    },
    {
      "epoch": 3.1009174311926606,
      "grad_norm": 0.14782139658927917,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 3042
    },
    {
      "epoch": 3.1019367991845055,
      "grad_norm": 0.18111392855644226,
      "learning_rate": 0.001,
      "loss": 0.2316,
      "step": 3043
    },
    {
      "epoch": 3.102956167176351,
      "grad_norm": 0.14292584359645844,
      "learning_rate": 0.001,
      "loss": 0.2528,
      "step": 3044
    },
    {
      "epoch": 3.1039755351681957,
      "grad_norm": 0.21173784136772156,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 3045
    },
    {
      "epoch": 3.1049949031600406,
      "grad_norm": 0.16195271909236908,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 3046
    },
    {
      "epoch": 3.106014271151886,
      "grad_norm": 0.1458110511302948,
      "learning_rate": 0.001,
      "loss": 0.2412,
      "step": 3047
    },
    {
      "epoch": 3.1070336391437308,
      "grad_norm": 0.18956081569194794,
      "learning_rate": 0.001,
      "loss": 0.2432,
      "step": 3048
    },
    {
      "epoch": 3.108053007135576,
      "grad_norm": 0.12564301490783691,
      "learning_rate": 0.001,
      "loss": 0.2399,
      "step": 3049
    },
    {
      "epoch": 3.109072375127421,
      "grad_norm": 0.13871753215789795,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 3050
    },
    {
      "epoch": 3.1100917431192663,
      "grad_norm": 0.27314290404319763,
      "learning_rate": 0.001,
      "loss": 0.2422,
      "step": 3051
    },
    {
      "epoch": 3.111111111111111,
      "grad_norm": 0.19714714586734772,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 3052
    },
    {
      "epoch": 3.112130479102956,
      "grad_norm": 0.18254928290843964,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3053
    },
    {
      "epoch": 3.1131498470948014,
      "grad_norm": 0.18653926253318787,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 3054
    },
    {
      "epoch": 3.1141692150866462,
      "grad_norm": 0.30404022336006165,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3055
    },
    {
      "epoch": 3.115188583078491,
      "grad_norm": 0.2418963462114334,
      "learning_rate": 0.001,
      "loss": 0.2322,
      "step": 3056
    },
    {
      "epoch": 3.1162079510703364,
      "grad_norm": 0.2284497618675232,
      "learning_rate": 0.001,
      "loss": 0.2495,
      "step": 3057
    },
    {
      "epoch": 3.1172273190621813,
      "grad_norm": 0.21460847556591034,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3058
    },
    {
      "epoch": 3.1182466870540266,
      "grad_norm": 0.17416024208068848,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 3059
    },
    {
      "epoch": 3.1192660550458715,
      "grad_norm": 0.22890673577785492,
      "learning_rate": 0.001,
      "loss": 0.2437,
      "step": 3060
    },
    {
      "epoch": 3.120285423037717,
      "grad_norm": 0.26611924171447754,
      "learning_rate": 0.001,
      "loss": 0.2371,
      "step": 3061
    },
    {
      "epoch": 3.1213047910295617,
      "grad_norm": 0.15972135961055756,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 3062
    },
    {
      "epoch": 3.1223241590214066,
      "grad_norm": 0.1679026335477829,
      "learning_rate": 0.001,
      "loss": 0.2625,
      "step": 3063
    },
    {
      "epoch": 3.123343527013252,
      "grad_norm": 0.1546526551246643,
      "learning_rate": 0.001,
      "loss": 0.2449,
      "step": 3064
    },
    {
      "epoch": 3.124362895005097,
      "grad_norm": 0.16761749982833862,
      "learning_rate": 0.001,
      "loss": 0.2333,
      "step": 3065
    },
    {
      "epoch": 3.1253822629969417,
      "grad_norm": 0.16978193819522858,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 3066
    },
    {
      "epoch": 3.126401630988787,
      "grad_norm": 0.16302375495433807,
      "learning_rate": 0.001,
      "loss": 0.2367,
      "step": 3067
    },
    {
      "epoch": 3.127420998980632,
      "grad_norm": 0.1561983823776245,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 3068
    },
    {
      "epoch": 3.128440366972477,
      "grad_norm": 0.14447680115699768,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3069
    },
    {
      "epoch": 3.129459734964322,
      "grad_norm": 0.22815902531147003,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 3070
    },
    {
      "epoch": 3.1304791029561674,
      "grad_norm": 0.240149587392807,
      "learning_rate": 0.001,
      "loss": 0.2418,
      "step": 3071
    },
    {
      "epoch": 3.1314984709480123,
      "grad_norm": 0.18606425821781158,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 3072
    },
    {
      "epoch": 3.132517838939857,
      "grad_norm": 0.16812048852443695,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 3073
    },
    {
      "epoch": 3.1335372069317025,
      "grad_norm": 0.18203161656856537,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 3074
    },
    {
      "epoch": 3.1345565749235473,
      "grad_norm": 0.15327808260917664,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3075
    },
    {
      "epoch": 3.1355759429153927,
      "grad_norm": 0.15079930424690247,
      "learning_rate": 0.001,
      "loss": 0.2365,
      "step": 3076
    },
    {
      "epoch": 3.1365953109072375,
      "grad_norm": 0.10708754509687424,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 3077
    },
    {
      "epoch": 3.1376146788990824,
      "grad_norm": 0.160716250538826,
      "learning_rate": 0.001,
      "loss": 0.2406,
      "step": 3078
    },
    {
      "epoch": 3.1386340468909277,
      "grad_norm": 0.14116406440734863,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 3079
    },
    {
      "epoch": 3.1396534148827726,
      "grad_norm": 0.14128315448760986,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 3080
    },
    {
      "epoch": 3.140672782874618,
      "grad_norm": 0.21549716591835022,
      "learning_rate": 0.001,
      "loss": 0.2458,
      "step": 3081
    },
    {
      "epoch": 3.141692150866463,
      "grad_norm": 0.274649977684021,
      "learning_rate": 0.001,
      "loss": 0.2509,
      "step": 3082
    },
    {
      "epoch": 3.1427115188583077,
      "grad_norm": 0.15094804763793945,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 3083
    },
    {
      "epoch": 3.143730886850153,
      "grad_norm": 0.14833560585975647,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 3084
    },
    {
      "epoch": 3.144750254841998,
      "grad_norm": 0.19839394092559814,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 3085
    },
    {
      "epoch": 3.145769622833843,
      "grad_norm": 0.29428303241729736,
      "learning_rate": 0.001,
      "loss": 0.271,
      "step": 3086
    },
    {
      "epoch": 3.146788990825688,
      "grad_norm": 0.22903287410736084,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 3087
    },
    {
      "epoch": 3.147808358817533,
      "grad_norm": 0.33704349398612976,
      "learning_rate": 0.001,
      "loss": 0.2585,
      "step": 3088
    },
    {
      "epoch": 3.1488277268093783,
      "grad_norm": 0.29207873344421387,
      "learning_rate": 0.001,
      "loss": 0.254,
      "step": 3089
    },
    {
      "epoch": 3.149847094801223,
      "grad_norm": 0.14158368110656738,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 3090
    },
    {
      "epoch": 3.1508664627930685,
      "grad_norm": 0.15025471150875092,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 3091
    },
    {
      "epoch": 3.1518858307849134,
      "grad_norm": 0.21652349829673767,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 3092
    },
    {
      "epoch": 3.1529051987767582,
      "grad_norm": 0.2916257977485657,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3093
    },
    {
      "epoch": 3.1539245667686036,
      "grad_norm": 0.28134605288505554,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 3094
    },
    {
      "epoch": 3.1549439347604484,
      "grad_norm": 0.1958288848400116,
      "learning_rate": 0.001,
      "loss": 0.2377,
      "step": 3095
    },
    {
      "epoch": 3.1559633027522938,
      "grad_norm": 0.17025376856327057,
      "learning_rate": 0.001,
      "loss": 0.2278,
      "step": 3096
    },
    {
      "epoch": 3.1569826707441386,
      "grad_norm": 0.14919212460517883,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 3097
    },
    {
      "epoch": 3.1580020387359835,
      "grad_norm": 0.12296143174171448,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 3098
    },
    {
      "epoch": 3.159021406727829,
      "grad_norm": 0.20099963247776031,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 3099
    },
    {
      "epoch": 3.1600407747196737,
      "grad_norm": 0.2747562527656555,
      "learning_rate": 0.001,
      "loss": 0.2461,
      "step": 3100
    },
    {
      "epoch": 3.161060142711519,
      "grad_norm": 0.2000507265329361,
      "learning_rate": 0.001,
      "loss": 0.2324,
      "step": 3101
    },
    {
      "epoch": 3.162079510703364,
      "grad_norm": 0.274245023727417,
      "learning_rate": 0.001,
      "loss": 0.2401,
      "step": 3102
    },
    {
      "epoch": 3.163098878695209,
      "grad_norm": 0.13289089500904083,
      "learning_rate": 0.001,
      "loss": 0.2759,
      "step": 3103
    },
    {
      "epoch": 3.164118246687054,
      "grad_norm": 0.1731019914150238,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 3104
    },
    {
      "epoch": 3.165137614678899,
      "grad_norm": 0.12216909229755402,
      "learning_rate": 0.001,
      "loss": 0.2261,
      "step": 3105
    },
    {
      "epoch": 3.1661569826707443,
      "grad_norm": 0.189054474234581,
      "learning_rate": 0.001,
      "loss": 0.2448,
      "step": 3106
    },
    {
      "epoch": 3.167176350662589,
      "grad_norm": 0.2338932752609253,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 3107
    },
    {
      "epoch": 3.168195718654434,
      "grad_norm": 0.16205836832523346,
      "learning_rate": 0.001,
      "loss": 0.2437,
      "step": 3108
    },
    {
      "epoch": 3.1692150866462794,
      "grad_norm": 0.12357673048973083,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3109
    },
    {
      "epoch": 3.1702344546381243,
      "grad_norm": 0.15321636199951172,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 3110
    },
    {
      "epoch": 3.1712538226299696,
      "grad_norm": 0.1743987500667572,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 3111
    },
    {
      "epoch": 3.1722731906218145,
      "grad_norm": 0.2360658049583435,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 3112
    },
    {
      "epoch": 3.1732925586136593,
      "grad_norm": 0.13313953578472137,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 3113
    },
    {
      "epoch": 3.1743119266055047,
      "grad_norm": 0.12636448442935944,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 3114
    },
    {
      "epoch": 3.1753312945973495,
      "grad_norm": 0.20814953744411469,
      "learning_rate": 0.001,
      "loss": 0.2719,
      "step": 3115
    },
    {
      "epoch": 3.176350662589195,
      "grad_norm": 0.19353839755058289,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 3116
    },
    {
      "epoch": 3.1773700305810397,
      "grad_norm": 0.2896386981010437,
      "learning_rate": 0.001,
      "loss": 0.2512,
      "step": 3117
    },
    {
      "epoch": 3.1783893985728846,
      "grad_norm": 0.19568465650081635,
      "learning_rate": 0.001,
      "loss": 0.24,
      "step": 3118
    },
    {
      "epoch": 3.17940876656473,
      "grad_norm": 0.15397454798221588,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 3119
    },
    {
      "epoch": 3.180428134556575,
      "grad_norm": 0.200154647231102,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 3120
    },
    {
      "epoch": 3.18144750254842,
      "grad_norm": 0.3544217050075531,
      "learning_rate": 0.001,
      "loss": 0.2642,
      "step": 3121
    },
    {
      "epoch": 3.182466870540265,
      "grad_norm": 0.205071821808815,
      "learning_rate": 0.001,
      "loss": 0.2518,
      "step": 3122
    },
    {
      "epoch": 3.18348623853211,
      "grad_norm": 0.1609482318162918,
      "learning_rate": 0.001,
      "loss": 0.2263,
      "step": 3123
    },
    {
      "epoch": 3.184505606523955,
      "grad_norm": 0.160455584526062,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 3124
    },
    {
      "epoch": 3.1855249745158,
      "grad_norm": 0.15453366935253143,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3125
    },
    {
      "epoch": 3.1865443425076454,
      "grad_norm": 0.14479468762874603,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 3126
    },
    {
      "epoch": 3.1875637104994903,
      "grad_norm": 0.1831963211297989,
      "learning_rate": 0.001,
      "loss": 0.2588,
      "step": 3127
    },
    {
      "epoch": 3.1885830784913356,
      "grad_norm": 0.15715868771076202,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 3128
    },
    {
      "epoch": 3.1896024464831805,
      "grad_norm": 0.14224788546562195,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3129
    },
    {
      "epoch": 3.1906218144750254,
      "grad_norm": 0.324277400970459,
      "learning_rate": 0.001,
      "loss": 0.2816,
      "step": 3130
    },
    {
      "epoch": 3.1916411824668707,
      "grad_norm": 0.17455536127090454,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 3131
    },
    {
      "epoch": 3.1926605504587156,
      "grad_norm": 0.1508304923772812,
      "learning_rate": 0.001,
      "loss": 0.2477,
      "step": 3132
    },
    {
      "epoch": 3.1936799184505604,
      "grad_norm": 0.1285187304019928,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3133
    },
    {
      "epoch": 3.1946992864424058,
      "grad_norm": 0.18280623853206635,
      "learning_rate": 0.001,
      "loss": 0.2419,
      "step": 3134
    },
    {
      "epoch": 3.1957186544342506,
      "grad_norm": 0.09984707832336426,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 3135
    },
    {
      "epoch": 3.196738022426096,
      "grad_norm": 0.22319725155830383,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 3136
    },
    {
      "epoch": 3.197757390417941,
      "grad_norm": 0.17078851163387299,
      "learning_rate": 0.001,
      "loss": 0.2339,
      "step": 3137
    },
    {
      "epoch": 3.198776758409786,
      "grad_norm": 0.14742662012577057,
      "learning_rate": 0.001,
      "loss": 0.2427,
      "step": 3138
    },
    {
      "epoch": 3.199796126401631,
      "grad_norm": 0.1581573486328125,
      "learning_rate": 0.001,
      "loss": 0.2399,
      "step": 3139
    },
    {
      "epoch": 3.200815494393476,
      "grad_norm": 0.13829541206359863,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 3140
    },
    {
      "epoch": 3.2018348623853212,
      "grad_norm": 0.1447078436613083,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 3141
    },
    {
      "epoch": 3.202854230377166,
      "grad_norm": 0.20892488956451416,
      "learning_rate": 0.001,
      "loss": 0.2604,
      "step": 3142
    },
    {
      "epoch": 3.203873598369011,
      "grad_norm": 0.1152532696723938,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 3143
    },
    {
      "epoch": 3.2048929663608563,
      "grad_norm": 0.15596874058246613,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 3144
    },
    {
      "epoch": 3.205912334352701,
      "grad_norm": 0.1414225697517395,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 3145
    },
    {
      "epoch": 3.2069317023445465,
      "grad_norm": 0.14759215712547302,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 3146
    },
    {
      "epoch": 3.2079510703363914,
      "grad_norm": 0.12116191536188126,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 3147
    },
    {
      "epoch": 3.2089704383282367,
      "grad_norm": 0.11831221729516983,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 3148
    },
    {
      "epoch": 3.2099898063200816,
      "grad_norm": 0.17215532064437866,
      "learning_rate": 0.001,
      "loss": 0.2589,
      "step": 3149
    },
    {
      "epoch": 3.2110091743119265,
      "grad_norm": 0.17426255345344543,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3150
    },
    {
      "epoch": 3.2120285423037718,
      "grad_norm": 0.11907439678907394,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 3151
    },
    {
      "epoch": 3.2130479102956166,
      "grad_norm": 0.13656677305698395,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 3152
    },
    {
      "epoch": 3.214067278287462,
      "grad_norm": 0.13789884746074677,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 3153
    },
    {
      "epoch": 3.215086646279307,
      "grad_norm": 0.16360631585121155,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 3154
    },
    {
      "epoch": 3.2161060142711517,
      "grad_norm": 0.1815907061100006,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3155
    },
    {
      "epoch": 3.217125382262997,
      "grad_norm": 0.21981501579284668,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 3156
    },
    {
      "epoch": 3.218144750254842,
      "grad_norm": 0.22858162224292755,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 3157
    },
    {
      "epoch": 3.2191641182466872,
      "grad_norm": 0.1297800987958908,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 3158
    },
    {
      "epoch": 3.220183486238532,
      "grad_norm": 0.15262064337730408,
      "learning_rate": 0.001,
      "loss": 0.2354,
      "step": 3159
    },
    {
      "epoch": 3.221202854230377,
      "grad_norm": 0.19643083214759827,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 3160
    },
    {
      "epoch": 3.2222222222222223,
      "grad_norm": 0.14609363675117493,
      "learning_rate": 0.001,
      "loss": 0.2318,
      "step": 3161
    },
    {
      "epoch": 3.223241590214067,
      "grad_norm": 0.134856715798378,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 3162
    },
    {
      "epoch": 3.2242609582059125,
      "grad_norm": 0.17860503494739532,
      "learning_rate": 0.001,
      "loss": 0.2628,
      "step": 3163
    },
    {
      "epoch": 3.2252803261977574,
      "grad_norm": 0.24988806247711182,
      "learning_rate": 0.001,
      "loss": 0.2645,
      "step": 3164
    },
    {
      "epoch": 3.2262996941896023,
      "grad_norm": 0.2171124368906021,
      "learning_rate": 0.001,
      "loss": 0.2576,
      "step": 3165
    },
    {
      "epoch": 3.2273190621814476,
      "grad_norm": 0.10807805508375168,
      "learning_rate": 0.001,
      "loss": 0.2388,
      "step": 3166
    },
    {
      "epoch": 3.2283384301732925,
      "grad_norm": 0.1629541963338852,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 3167
    },
    {
      "epoch": 3.229357798165138,
      "grad_norm": 0.16172485053539276,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 3168
    },
    {
      "epoch": 3.2303771661569827,
      "grad_norm": 0.1562802791595459,
      "learning_rate": 0.001,
      "loss": 0.2521,
      "step": 3169
    },
    {
      "epoch": 3.2313965341488275,
      "grad_norm": 0.1807313710451126,
      "learning_rate": 0.001,
      "loss": 0.251,
      "step": 3170
    },
    {
      "epoch": 3.232415902140673,
      "grad_norm": 0.1405470222234726,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 3171
    },
    {
      "epoch": 3.2334352701325177,
      "grad_norm": 0.22218286991119385,
      "learning_rate": 0.001,
      "loss": 0.2574,
      "step": 3172
    },
    {
      "epoch": 3.234454638124363,
      "grad_norm": 0.18389248847961426,
      "learning_rate": 0.001,
      "loss": 0.2582,
      "step": 3173
    },
    {
      "epoch": 3.235474006116208,
      "grad_norm": 0.17102232575416565,
      "learning_rate": 0.001,
      "loss": 0.2316,
      "step": 3174
    },
    {
      "epoch": 3.236493374108053,
      "grad_norm": 0.15561595559120178,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 3175
    },
    {
      "epoch": 3.237512742099898,
      "grad_norm": 0.14903505146503448,
      "learning_rate": 0.001,
      "loss": 0.2377,
      "step": 3176
    },
    {
      "epoch": 3.238532110091743,
      "grad_norm": 0.1735512763261795,
      "learning_rate": 0.001,
      "loss": 0.2448,
      "step": 3177
    },
    {
      "epoch": 3.2395514780835883,
      "grad_norm": 0.15215863287448883,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 3178
    },
    {
      "epoch": 3.240570846075433,
      "grad_norm": 0.19802868366241455,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 3179
    },
    {
      "epoch": 3.241590214067278,
      "grad_norm": 0.1947115659713745,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 3180
    },
    {
      "epoch": 3.2426095820591234,
      "grad_norm": 0.2423096001148224,
      "learning_rate": 0.001,
      "loss": 0.2561,
      "step": 3181
    },
    {
      "epoch": 3.2436289500509683,
      "grad_norm": 0.17621439695358276,
      "learning_rate": 0.001,
      "loss": 0.2433,
      "step": 3182
    },
    {
      "epoch": 3.2446483180428136,
      "grad_norm": 0.15061055123806,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 3183
    },
    {
      "epoch": 3.2456676860346585,
      "grad_norm": 0.18510805070400238,
      "learning_rate": 0.001,
      "loss": 0.2357,
      "step": 3184
    },
    {
      "epoch": 3.2466870540265034,
      "grad_norm": 0.1484590768814087,
      "learning_rate": 0.001,
      "loss": 0.2253,
      "step": 3185
    },
    {
      "epoch": 3.2477064220183487,
      "grad_norm": 0.12688298523426056,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 3186
    },
    {
      "epoch": 3.2487257900101936,
      "grad_norm": 0.20709002017974854,
      "learning_rate": 0.001,
      "loss": 0.2266,
      "step": 3187
    },
    {
      "epoch": 3.249745158002039,
      "grad_norm": 0.15031015872955322,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 3188
    },
    {
      "epoch": 3.2507645259938838,
      "grad_norm": 0.1559736132621765,
      "learning_rate": 0.001,
      "loss": 0.2515,
      "step": 3189
    },
    {
      "epoch": 3.2517838939857286,
      "grad_norm": 0.2955808937549591,
      "learning_rate": 0.001,
      "loss": 0.2533,
      "step": 3190
    },
    {
      "epoch": 3.252803261977574,
      "grad_norm": 0.1419321894645691,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 3191
    },
    {
      "epoch": 3.253822629969419,
      "grad_norm": 0.16656777262687683,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 3192
    },
    {
      "epoch": 3.254841997961264,
      "grad_norm": 0.1315765380859375,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 3193
    },
    {
      "epoch": 3.255861365953109,
      "grad_norm": 0.13716493546962738,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 3194
    },
    {
      "epoch": 3.2568807339449544,
      "grad_norm": 0.24354784190654755,
      "learning_rate": 0.001,
      "loss": 0.2454,
      "step": 3195
    },
    {
      "epoch": 3.2579001019367992,
      "grad_norm": 0.10406254976987839,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 3196
    },
    {
      "epoch": 3.258919469928644,
      "grad_norm": 0.11727282404899597,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 3197
    },
    {
      "epoch": 3.2599388379204894,
      "grad_norm": 0.15447673201560974,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 3198
    },
    {
      "epoch": 3.2609582059123343,
      "grad_norm": 0.21605321764945984,
      "learning_rate": 0.001,
      "loss": 0.2588,
      "step": 3199
    },
    {
      "epoch": 3.261977573904179,
      "grad_norm": 0.17575514316558838,
      "learning_rate": 0.001,
      "loss": 0.2463,
      "step": 3200
    },
    {
      "epoch": 3.2629969418960245,
      "grad_norm": 0.17876684665679932,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 3201
    },
    {
      "epoch": 3.2640163098878694,
      "grad_norm": 0.16849645972251892,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 3202
    },
    {
      "epoch": 3.2650356778797147,
      "grad_norm": 0.20639050006866455,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3203
    },
    {
      "epoch": 3.2660550458715596,
      "grad_norm": 0.1521211564540863,
      "learning_rate": 0.001,
      "loss": 0.2329,
      "step": 3204
    },
    {
      "epoch": 3.267074413863405,
      "grad_norm": 0.17744041979312897,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 3205
    },
    {
      "epoch": 3.26809378185525,
      "grad_norm": 0.22908566892147064,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 3206
    },
    {
      "epoch": 3.2691131498470947,
      "grad_norm": 0.1224418580532074,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 3207
    },
    {
      "epoch": 3.27013251783894,
      "grad_norm": 0.1276283860206604,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 3208
    },
    {
      "epoch": 3.271151885830785,
      "grad_norm": 0.23756735026836395,
      "learning_rate": 0.001,
      "loss": 0.2222,
      "step": 3209
    },
    {
      "epoch": 3.2721712538226297,
      "grad_norm": 0.13331276178359985,
      "learning_rate": 0.001,
      "loss": 0.226,
      "step": 3210
    },
    {
      "epoch": 3.273190621814475,
      "grad_norm": 0.1212911605834961,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 3211
    },
    {
      "epoch": 3.27420998980632,
      "grad_norm": 0.17611946165561676,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 3212
    },
    {
      "epoch": 3.2752293577981653,
      "grad_norm": 0.2758904695510864,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 3213
    },
    {
      "epoch": 3.27624872579001,
      "grad_norm": 0.2457580417394638,
      "learning_rate": 0.001,
      "loss": 0.2623,
      "step": 3214
    },
    {
      "epoch": 3.2772680937818555,
      "grad_norm": 0.18424886465072632,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3215
    },
    {
      "epoch": 3.2782874617737003,
      "grad_norm": 0.19205957651138306,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 3216
    },
    {
      "epoch": 3.279306829765545,
      "grad_norm": 0.19023235142230988,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 3217
    },
    {
      "epoch": 3.2803261977573905,
      "grad_norm": 0.37138527631759644,
      "learning_rate": 0.001,
      "loss": 0.2642,
      "step": 3218
    },
    {
      "epoch": 3.2813455657492354,
      "grad_norm": 0.15370556712150574,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 3219
    },
    {
      "epoch": 3.2823649337410803,
      "grad_norm": 0.24759376049041748,
      "learning_rate": 0.001,
      "loss": 0.2295,
      "step": 3220
    },
    {
      "epoch": 3.2833843017329256,
      "grad_norm": 0.15114226937294006,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 3221
    },
    {
      "epoch": 3.2844036697247705,
      "grad_norm": 0.17869842052459717,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 3222
    },
    {
      "epoch": 3.285423037716616,
      "grad_norm": 0.19551879167556763,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 3223
    },
    {
      "epoch": 3.2864424057084607,
      "grad_norm": 0.1759539097547531,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 3224
    },
    {
      "epoch": 3.287461773700306,
      "grad_norm": 0.2413000911474228,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 3225
    },
    {
      "epoch": 3.288481141692151,
      "grad_norm": 0.20311078429222107,
      "learning_rate": 0.001,
      "loss": 0.2328,
      "step": 3226
    },
    {
      "epoch": 3.2895005096839958,
      "grad_norm": 0.2074536681175232,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 3227
    },
    {
      "epoch": 3.290519877675841,
      "grad_norm": 0.12403395771980286,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 3228
    },
    {
      "epoch": 3.291539245667686,
      "grad_norm": 0.11740019172430038,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 3229
    },
    {
      "epoch": 3.292558613659531,
      "grad_norm": 0.2160695493221283,
      "learning_rate": 0.001,
      "loss": 0.2467,
      "step": 3230
    },
    {
      "epoch": 3.293577981651376,
      "grad_norm": 0.23986463248729706,
      "learning_rate": 0.001,
      "loss": 0.2388,
      "step": 3231
    },
    {
      "epoch": 3.294597349643221,
      "grad_norm": 0.471049964427948,
      "learning_rate": 0.001,
      "loss": 0.2866,
      "step": 3232
    },
    {
      "epoch": 3.2956167176350664,
      "grad_norm": 0.16477566957473755,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 3233
    },
    {
      "epoch": 3.2966360856269112,
      "grad_norm": 0.17338716983795166,
      "learning_rate": 0.001,
      "loss": 0.2378,
      "step": 3234
    },
    {
      "epoch": 3.2976554536187566,
      "grad_norm": 0.2479526400566101,
      "learning_rate": 0.001,
      "loss": 0.2244,
      "step": 3235
    },
    {
      "epoch": 3.2986748216106014,
      "grad_norm": 0.19000981748104095,
      "learning_rate": 0.001,
      "loss": 0.2379,
      "step": 3236
    },
    {
      "epoch": 3.2996941896024463,
      "grad_norm": 0.12251615524291992,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 3237
    },
    {
      "epoch": 3.3007135575942916,
      "grad_norm": 0.3705193102359772,
      "learning_rate": 0.001,
      "loss": 0.2633,
      "step": 3238
    },
    {
      "epoch": 3.3017329255861365,
      "grad_norm": 0.2016730010509491,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 3239
    },
    {
      "epoch": 3.302752293577982,
      "grad_norm": 0.17470189929008484,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 3240
    },
    {
      "epoch": 3.3037716615698267,
      "grad_norm": 0.2040429413318634,
      "learning_rate": 0.001,
      "loss": 0.2426,
      "step": 3241
    },
    {
      "epoch": 3.3047910295616716,
      "grad_norm": 0.14993080496788025,
      "learning_rate": 0.001,
      "loss": 0.2476,
      "step": 3242
    },
    {
      "epoch": 3.305810397553517,
      "grad_norm": 0.13477426767349243,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 3243
    },
    {
      "epoch": 3.306829765545362,
      "grad_norm": 0.17552024126052856,
      "learning_rate": 0.001,
      "loss": 0.2317,
      "step": 3244
    },
    {
      "epoch": 3.307849133537207,
      "grad_norm": 0.19637976586818695,
      "learning_rate": 0.001,
      "loss": 0.2456,
      "step": 3245
    },
    {
      "epoch": 3.308868501529052,
      "grad_norm": 0.18659040331840515,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 3246
    },
    {
      "epoch": 3.309887869520897,
      "grad_norm": 0.1657595932483673,
      "learning_rate": 0.001,
      "loss": 0.2236,
      "step": 3247
    },
    {
      "epoch": 3.310907237512742,
      "grad_norm": 0.14436280727386475,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 3248
    },
    {
      "epoch": 3.311926605504587,
      "grad_norm": 0.20619900524616241,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 3249
    },
    {
      "epoch": 3.3129459734964324,
      "grad_norm": 0.14441277086734772,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 3250
    },
    {
      "epoch": 3.3139653414882773,
      "grad_norm": 0.19244664907455444,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 3251
    },
    {
      "epoch": 3.314984709480122,
      "grad_norm": 0.21742920577526093,
      "learning_rate": 0.001,
      "loss": 0.2551,
      "step": 3252
    },
    {
      "epoch": 3.3160040774719675,
      "grad_norm": 0.15637439489364624,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 3253
    },
    {
      "epoch": 3.3170234454638123,
      "grad_norm": 0.197850301861763,
      "learning_rate": 0.001,
      "loss": 0.2579,
      "step": 3254
    },
    {
      "epoch": 3.3180428134556577,
      "grad_norm": 0.18466293811798096,
      "learning_rate": 0.001,
      "loss": 0.2413,
      "step": 3255
    },
    {
      "epoch": 3.3190621814475025,
      "grad_norm": 0.20382051169872284,
      "learning_rate": 0.001,
      "loss": 0.2747,
      "step": 3256
    },
    {
      "epoch": 3.3200815494393474,
      "grad_norm": 0.1597529947757721,
      "learning_rate": 0.001,
      "loss": 0.2324,
      "step": 3257
    },
    {
      "epoch": 3.3211009174311927,
      "grad_norm": 0.17073725163936615,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 3258
    },
    {
      "epoch": 3.3221202854230376,
      "grad_norm": 0.1510152965784073,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3259
    },
    {
      "epoch": 3.323139653414883,
      "grad_norm": 0.10950585454702377,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 3260
    },
    {
      "epoch": 3.324159021406728,
      "grad_norm": 0.15311814844608307,
      "learning_rate": 0.001,
      "loss": 0.2321,
      "step": 3261
    },
    {
      "epoch": 3.325178389398573,
      "grad_norm": 0.1525598168373108,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 3262
    },
    {
      "epoch": 3.326197757390418,
      "grad_norm": 0.12440311163663864,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 3263
    },
    {
      "epoch": 3.327217125382263,
      "grad_norm": 0.12472979724407196,
      "learning_rate": 0.001,
      "loss": 0.2555,
      "step": 3264
    },
    {
      "epoch": 3.328236493374108,
      "grad_norm": 0.13188205659389496,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 3265
    },
    {
      "epoch": 3.329255861365953,
      "grad_norm": 0.16955633461475372,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 3266
    },
    {
      "epoch": 3.330275229357798,
      "grad_norm": 0.2018713653087616,
      "learning_rate": 0.001,
      "loss": 0.2461,
      "step": 3267
    },
    {
      "epoch": 3.3312945973496433,
      "grad_norm": 0.13363268971443176,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 3268
    },
    {
      "epoch": 3.332313965341488,
      "grad_norm": 0.14442749321460724,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 3269
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.21023999154567719,
      "learning_rate": 0.001,
      "loss": 0.246,
      "step": 3270
    },
    {
      "epoch": 3.3343527013251784,
      "grad_norm": 0.16331970691680908,
      "learning_rate": 0.001,
      "loss": 0.2604,
      "step": 3271
    },
    {
      "epoch": 3.3353720693170237,
      "grad_norm": 0.13765162229537964,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 3272
    },
    {
      "epoch": 3.3363914373088686,
      "grad_norm": 0.16569645702838898,
      "learning_rate": 0.001,
      "loss": 0.2426,
      "step": 3273
    },
    {
      "epoch": 3.3374108053007134,
      "grad_norm": 0.17635273933410645,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 3274
    },
    {
      "epoch": 3.3384301732925588,
      "grad_norm": 0.12636959552764893,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 3275
    },
    {
      "epoch": 3.3394495412844036,
      "grad_norm": 0.08645212650299072,
      "learning_rate": 0.001,
      "loss": 0.2334,
      "step": 3276
    },
    {
      "epoch": 3.3404689092762485,
      "grad_norm": 0.19207189977169037,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 3277
    },
    {
      "epoch": 3.341488277268094,
      "grad_norm": 0.15759915113449097,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 3278
    },
    {
      "epoch": 3.3425076452599387,
      "grad_norm": 0.13805247843265533,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 3279
    },
    {
      "epoch": 3.343527013251784,
      "grad_norm": 0.10637775808572769,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 3280
    },
    {
      "epoch": 3.344546381243629,
      "grad_norm": 0.21705806255340576,
      "learning_rate": 0.001,
      "loss": 0.2478,
      "step": 3281
    },
    {
      "epoch": 3.3455657492354742,
      "grad_norm": 0.22018638253211975,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 3282
    },
    {
      "epoch": 3.346585117227319,
      "grad_norm": 0.21447262167930603,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 3283
    },
    {
      "epoch": 3.347604485219164,
      "grad_norm": 0.23427751660346985,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 3284
    },
    {
      "epoch": 3.3486238532110093,
      "grad_norm": 0.12883271276950836,
      "learning_rate": 0.001,
      "loss": 0.2518,
      "step": 3285
    },
    {
      "epoch": 3.349643221202854,
      "grad_norm": 0.185047447681427,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 3286
    },
    {
      "epoch": 3.350662589194699,
      "grad_norm": 0.21873433887958527,
      "learning_rate": 0.001,
      "loss": 0.2426,
      "step": 3287
    },
    {
      "epoch": 3.3516819571865444,
      "grad_norm": 0.2631344497203827,
      "learning_rate": 0.001,
      "loss": 0.2817,
      "step": 3288
    },
    {
      "epoch": 3.3527013251783893,
      "grad_norm": 0.18487082421779633,
      "learning_rate": 0.001,
      "loss": 0.2316,
      "step": 3289
    },
    {
      "epoch": 3.3537206931702346,
      "grad_norm": 0.19313378632068634,
      "learning_rate": 0.001,
      "loss": 0.2368,
      "step": 3290
    },
    {
      "epoch": 3.3547400611620795,
      "grad_norm": 0.19764220714569092,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 3291
    },
    {
      "epoch": 3.3557594291539248,
      "grad_norm": 0.1596767008304596,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 3292
    },
    {
      "epoch": 3.3567787971457697,
      "grad_norm": 0.15029968321323395,
      "learning_rate": 0.001,
      "loss": 0.2527,
      "step": 3293
    },
    {
      "epoch": 3.3577981651376145,
      "grad_norm": 0.2945421636104584,
      "learning_rate": 0.001,
      "loss": 0.2721,
      "step": 3294
    },
    {
      "epoch": 3.35881753312946,
      "grad_norm": 0.30466461181640625,
      "learning_rate": 0.001,
      "loss": 0.2449,
      "step": 3295
    },
    {
      "epoch": 3.3598369011213047,
      "grad_norm": 0.16947893798351288,
      "learning_rate": 0.001,
      "loss": 0.2432,
      "step": 3296
    },
    {
      "epoch": 3.3608562691131496,
      "grad_norm": 0.1659306287765503,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 3297
    },
    {
      "epoch": 3.361875637104995,
      "grad_norm": 0.16592085361480713,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 3298
    },
    {
      "epoch": 3.36289500509684,
      "grad_norm": 0.09319982677698135,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 3299
    },
    {
      "epoch": 3.363914373088685,
      "grad_norm": 0.1125582680106163,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 3300
    },
    {
      "epoch": 3.36493374108053,
      "grad_norm": 0.2079322338104248,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 3301
    },
    {
      "epoch": 3.3659531090723753,
      "grad_norm": 0.12488619238138199,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 3302
    },
    {
      "epoch": 3.36697247706422,
      "grad_norm": 0.22748716175556183,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 3303
    },
    {
      "epoch": 3.367991845056065,
      "grad_norm": 0.15016859769821167,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 3304
    },
    {
      "epoch": 3.3690112130479104,
      "grad_norm": 0.20200315117835999,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 3305
    },
    {
      "epoch": 3.3700305810397553,
      "grad_norm": 0.1735815852880478,
      "learning_rate": 0.001,
      "loss": 0.2211,
      "step": 3306
    },
    {
      "epoch": 3.3710499490316006,
      "grad_norm": 0.12974520027637482,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 3307
    },
    {
      "epoch": 3.3720693170234455,
      "grad_norm": 0.15201246738433838,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 3308
    },
    {
      "epoch": 3.3730886850152904,
      "grad_norm": 0.22321350872516632,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 3309
    },
    {
      "epoch": 3.3741080530071357,
      "grad_norm": 0.26222577691078186,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 3310
    },
    {
      "epoch": 3.3751274209989806,
      "grad_norm": 0.13371893763542175,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 3311
    },
    {
      "epoch": 3.376146788990826,
      "grad_norm": 0.19485175609588623,
      "learning_rate": 0.001,
      "loss": 0.2261,
      "step": 3312
    },
    {
      "epoch": 3.3771661569826708,
      "grad_norm": 0.13882961869239807,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 3313
    },
    {
      "epoch": 3.3781855249745156,
      "grad_norm": 0.14299026131629944,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 3314
    },
    {
      "epoch": 3.379204892966361,
      "grad_norm": 0.2293347418308258,
      "learning_rate": 0.001,
      "loss": 0.2377,
      "step": 3315
    },
    {
      "epoch": 3.380224260958206,
      "grad_norm": 0.15658743679523468,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 3316
    },
    {
      "epoch": 3.381243628950051,
      "grad_norm": 0.157723531126976,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 3317
    },
    {
      "epoch": 3.382262996941896,
      "grad_norm": 0.21659962832927704,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 3318
    },
    {
      "epoch": 3.383282364933741,
      "grad_norm": 0.16324608027935028,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 3319
    },
    {
      "epoch": 3.3843017329255862,
      "grad_norm": 0.17673081159591675,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 3320
    },
    {
      "epoch": 3.385321100917431,
      "grad_norm": 0.12243764847517014,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 3321
    },
    {
      "epoch": 3.3863404689092764,
      "grad_norm": 0.12565851211547852,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 3322
    },
    {
      "epoch": 3.3873598369011213,
      "grad_norm": 0.1329982578754425,
      "learning_rate": 0.001,
      "loss": 0.2396,
      "step": 3323
    },
    {
      "epoch": 3.388379204892966,
      "grad_norm": 0.15998102724552155,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 3324
    },
    {
      "epoch": 3.3893985728848115,
      "grad_norm": 0.17475083470344543,
      "learning_rate": 0.001,
      "loss": 0.2311,
      "step": 3325
    },
    {
      "epoch": 3.3904179408766564,
      "grad_norm": 0.17577525973320007,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 3326
    },
    {
      "epoch": 3.3914373088685017,
      "grad_norm": 0.16336041688919067,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 3327
    },
    {
      "epoch": 3.3924566768603466,
      "grad_norm": 0.20140771567821503,
      "learning_rate": 0.001,
      "loss": 0.267,
      "step": 3328
    },
    {
      "epoch": 3.3934760448521915,
      "grad_norm": 0.20654700696468353,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 3329
    },
    {
      "epoch": 3.3944954128440368,
      "grad_norm": 0.21907803416252136,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 3330
    },
    {
      "epoch": 3.3955147808358817,
      "grad_norm": 0.14585651457309723,
      "learning_rate": 0.001,
      "loss": 0.2418,
      "step": 3331
    },
    {
      "epoch": 3.396534148827727,
      "grad_norm": 0.2022620588541031,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 3332
    },
    {
      "epoch": 3.397553516819572,
      "grad_norm": 0.1250881850719452,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 3333
    },
    {
      "epoch": 3.3985728848114167,
      "grad_norm": 0.09769827127456665,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 3334
    },
    {
      "epoch": 3.399592252803262,
      "grad_norm": 0.24908176064491272,
      "learning_rate": 0.001,
      "loss": 0.2794,
      "step": 3335
    },
    {
      "epoch": 3.400611620795107,
      "grad_norm": 0.14269587397575378,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 3336
    },
    {
      "epoch": 3.4016309887869522,
      "grad_norm": 0.15363159775733948,
      "learning_rate": 0.001,
      "loss": 0.2609,
      "step": 3337
    },
    {
      "epoch": 3.402650356778797,
      "grad_norm": 0.16651974618434906,
      "learning_rate": 0.001,
      "loss": 0.2344,
      "step": 3338
    },
    {
      "epoch": 3.4036697247706424,
      "grad_norm": 0.11570604890584946,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 3339
    },
    {
      "epoch": 3.4046890927624873,
      "grad_norm": 0.17642895877361298,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 3340
    },
    {
      "epoch": 3.405708460754332,
      "grad_norm": 0.19208595156669617,
      "learning_rate": 0.001,
      "loss": 0.2556,
      "step": 3341
    },
    {
      "epoch": 3.4067278287461775,
      "grad_norm": 0.11758836358785629,
      "learning_rate": 0.001,
      "loss": 0.262,
      "step": 3342
    },
    {
      "epoch": 3.4077471967380224,
      "grad_norm": 0.13258583843708038,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 3343
    },
    {
      "epoch": 3.4087665647298673,
      "grad_norm": 0.1414518505334854,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 3344
    },
    {
      "epoch": 3.4097859327217126,
      "grad_norm": 0.12369917333126068,
      "learning_rate": 0.001,
      "loss": 0.2433,
      "step": 3345
    },
    {
      "epoch": 3.4108053007135575,
      "grad_norm": 0.11531196534633636,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 3346
    },
    {
      "epoch": 3.411824668705403,
      "grad_norm": 0.11628960072994232,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3347
    },
    {
      "epoch": 3.4128440366972477,
      "grad_norm": 0.09391969442367554,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 3348
    },
    {
      "epoch": 3.413863404689093,
      "grad_norm": 0.16905446350574493,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 3349
    },
    {
      "epoch": 3.414882772680938,
      "grad_norm": 0.2169143408536911,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 3350
    },
    {
      "epoch": 3.4159021406727827,
      "grad_norm": 0.2267119139432907,
      "learning_rate": 0.001,
      "loss": 0.234,
      "step": 3351
    },
    {
      "epoch": 3.416921508664628,
      "grad_norm": 0.12238892912864685,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 3352
    },
    {
      "epoch": 3.417940876656473,
      "grad_norm": 0.17309632897377014,
      "learning_rate": 0.001,
      "loss": 0.2285,
      "step": 3353
    },
    {
      "epoch": 3.418960244648318,
      "grad_norm": 0.17445214092731476,
      "learning_rate": 0.001,
      "loss": 0.2388,
      "step": 3354
    },
    {
      "epoch": 3.419979612640163,
      "grad_norm": 0.15583409368991852,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 3355
    },
    {
      "epoch": 3.420998980632008,
      "grad_norm": 0.16619905829429626,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 3356
    },
    {
      "epoch": 3.4220183486238533,
      "grad_norm": 0.23926898837089539,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 3357
    },
    {
      "epoch": 3.4230377166156982,
      "grad_norm": 0.11174026876688004,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 3358
    },
    {
      "epoch": 3.4240570846075435,
      "grad_norm": 0.15943822264671326,
      "learning_rate": 0.001,
      "loss": 0.2452,
      "step": 3359
    },
    {
      "epoch": 3.4250764525993884,
      "grad_norm": 0.10638094693422318,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 3360
    },
    {
      "epoch": 3.4260958205912333,
      "grad_norm": 0.17684835195541382,
      "learning_rate": 0.001,
      "loss": 0.2699,
      "step": 3361
    },
    {
      "epoch": 3.4271151885830786,
      "grad_norm": 0.1702449768781662,
      "learning_rate": 0.001,
      "loss": 0.2408,
      "step": 3362
    },
    {
      "epoch": 3.4281345565749235,
      "grad_norm": 0.10517147183418274,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 3363
    },
    {
      "epoch": 3.4291539245667684,
      "grad_norm": 0.20039430260658264,
      "learning_rate": 0.001,
      "loss": 0.2561,
      "step": 3364
    },
    {
      "epoch": 3.4301732925586137,
      "grad_norm": 0.10546161979436874,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 3365
    },
    {
      "epoch": 3.4311926605504586,
      "grad_norm": 0.13836029171943665,
      "learning_rate": 0.001,
      "loss": 0.2396,
      "step": 3366
    },
    {
      "epoch": 3.432212028542304,
      "grad_norm": 0.16036827862262726,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3367
    },
    {
      "epoch": 3.4332313965341488,
      "grad_norm": 0.13196563720703125,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 3368
    },
    {
      "epoch": 3.434250764525994,
      "grad_norm": 0.17561368644237518,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 3369
    },
    {
      "epoch": 3.435270132517839,
      "grad_norm": 0.1365033984184265,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 3370
    },
    {
      "epoch": 3.436289500509684,
      "grad_norm": 0.20356839895248413,
      "learning_rate": 0.001,
      "loss": 0.2261,
      "step": 3371
    },
    {
      "epoch": 3.437308868501529,
      "grad_norm": 0.22824011743068695,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 3372
    },
    {
      "epoch": 3.438328236493374,
      "grad_norm": 0.17434681951999664,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3373
    },
    {
      "epoch": 3.439347604485219,
      "grad_norm": 0.1408754140138626,
      "learning_rate": 0.001,
      "loss": 0.252,
      "step": 3374
    },
    {
      "epoch": 3.4403669724770642,
      "grad_norm": 0.14509347081184387,
      "learning_rate": 0.001,
      "loss": 0.2356,
      "step": 3375
    },
    {
      "epoch": 3.441386340468909,
      "grad_norm": 0.17564590275287628,
      "learning_rate": 0.001,
      "loss": 0.2194,
      "step": 3376
    },
    {
      "epoch": 3.4424057084607544,
      "grad_norm": 0.21426448225975037,
      "learning_rate": 0.001,
      "loss": 0.264,
      "step": 3377
    },
    {
      "epoch": 3.4434250764525993,
      "grad_norm": 0.20073796808719635,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 3378
    },
    {
      "epoch": 3.4444444444444446,
      "grad_norm": 0.17749637365341187,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 3379
    },
    {
      "epoch": 3.4454638124362895,
      "grad_norm": 0.14796549081802368,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 3380
    },
    {
      "epoch": 3.4464831804281344,
      "grad_norm": 0.12334666401147842,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 3381
    },
    {
      "epoch": 3.4475025484199797,
      "grad_norm": 0.22551919519901276,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3382
    },
    {
      "epoch": 3.4485219164118246,
      "grad_norm": 0.1916416585445404,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 3383
    },
    {
      "epoch": 3.44954128440367,
      "grad_norm": 0.17543652653694153,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 3384
    },
    {
      "epoch": 3.450560652395515,
      "grad_norm": 0.15490064024925232,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 3385
    },
    {
      "epoch": 3.4515800203873597,
      "grad_norm": 0.11193990707397461,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 3386
    },
    {
      "epoch": 3.452599388379205,
      "grad_norm": 0.13269825279712677,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 3387
    },
    {
      "epoch": 3.45361875637105,
      "grad_norm": 0.1251910924911499,
      "learning_rate": 0.001,
      "loss": 0.228,
      "step": 3388
    },
    {
      "epoch": 3.454638124362895,
      "grad_norm": 0.16908946633338928,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 3389
    },
    {
      "epoch": 3.45565749235474,
      "grad_norm": 0.13645482063293457,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 3390
    },
    {
      "epoch": 3.456676860346585,
      "grad_norm": 0.17152026295661926,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3391
    },
    {
      "epoch": 3.4576962283384303,
      "grad_norm": 0.1775655746459961,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 3392
    },
    {
      "epoch": 3.458715596330275,
      "grad_norm": 0.19377358257770538,
      "learning_rate": 0.001,
      "loss": 0.2561,
      "step": 3393
    },
    {
      "epoch": 3.4597349643221205,
      "grad_norm": 0.12936674058437347,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 3394
    },
    {
      "epoch": 3.4607543323139653,
      "grad_norm": 0.14683780074119568,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 3395
    },
    {
      "epoch": 3.46177370030581,
      "grad_norm": 0.1109560877084732,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 3396
    },
    {
      "epoch": 3.4627930682976555,
      "grad_norm": 0.14036612212657928,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 3397
    },
    {
      "epoch": 3.4638124362895004,
      "grad_norm": 0.21074847877025604,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 3398
    },
    {
      "epoch": 3.4648318042813457,
      "grad_norm": 0.14025679230690002,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 3399
    },
    {
      "epoch": 3.4658511722731906,
      "grad_norm": 0.25647875666618347,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 3400
    },
    {
      "epoch": 3.4668705402650355,
      "grad_norm": 0.15940223634243011,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 3401
    },
    {
      "epoch": 3.467889908256881,
      "grad_norm": 0.1611546128988266,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 3402
    },
    {
      "epoch": 3.4689092762487257,
      "grad_norm": 0.15731556713581085,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 3403
    },
    {
      "epoch": 3.469928644240571,
      "grad_norm": 0.12699660658836365,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3404
    },
    {
      "epoch": 3.470948012232416,
      "grad_norm": 0.14579056203365326,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 3405
    },
    {
      "epoch": 3.4719673802242608,
      "grad_norm": 0.20608696341514587,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 3406
    },
    {
      "epoch": 3.472986748216106,
      "grad_norm": 0.1329120695590973,
      "learning_rate": 0.001,
      "loss": 0.25,
      "step": 3407
    },
    {
      "epoch": 3.474006116207951,
      "grad_norm": 0.18303409218788147,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 3408
    },
    {
      "epoch": 3.4750254841997963,
      "grad_norm": 0.16240227222442627,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 3409
    },
    {
      "epoch": 3.476044852191641,
      "grad_norm": 0.1761031448841095,
      "learning_rate": 0.001,
      "loss": 0.2565,
      "step": 3410
    },
    {
      "epoch": 3.477064220183486,
      "grad_norm": 0.16275466978549957,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 3411
    },
    {
      "epoch": 3.4780835881753314,
      "grad_norm": 0.14836344122886658,
      "learning_rate": 0.001,
      "loss": 0.2322,
      "step": 3412
    },
    {
      "epoch": 3.4791029561671762,
      "grad_norm": 0.16017577052116394,
      "learning_rate": 0.001,
      "loss": 0.2335,
      "step": 3413
    },
    {
      "epoch": 3.4801223241590216,
      "grad_norm": 0.13415317237377167,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 3414
    },
    {
      "epoch": 3.4811416921508664,
      "grad_norm": 0.13945691287517548,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 3415
    },
    {
      "epoch": 3.4821610601427118,
      "grad_norm": 0.16140563786029816,
      "learning_rate": 0.001,
      "loss": 0.24,
      "step": 3416
    },
    {
      "epoch": 3.4831804281345566,
      "grad_norm": 0.17804180085659027,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 3417
    },
    {
      "epoch": 3.4841997961264015,
      "grad_norm": 0.15317636728286743,
      "learning_rate": 0.001,
      "loss": 0.2257,
      "step": 3418
    },
    {
      "epoch": 3.485219164118247,
      "grad_norm": 0.14427977800369263,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 3419
    },
    {
      "epoch": 3.4862385321100917,
      "grad_norm": 0.11752615123987198,
      "learning_rate": 0.001,
      "loss": 0.2335,
      "step": 3420
    },
    {
      "epoch": 3.4872579001019366,
      "grad_norm": 0.16815917193889618,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3421
    },
    {
      "epoch": 3.488277268093782,
      "grad_norm": 0.12295303493738174,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 3422
    },
    {
      "epoch": 3.489296636085627,
      "grad_norm": 0.2048906534910202,
      "learning_rate": 0.001,
      "loss": 0.2351,
      "step": 3423
    },
    {
      "epoch": 3.490316004077472,
      "grad_norm": 0.18133431673049927,
      "learning_rate": 0.001,
      "loss": 0.2267,
      "step": 3424
    },
    {
      "epoch": 3.491335372069317,
      "grad_norm": 0.18279005587100983,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 3425
    },
    {
      "epoch": 3.4923547400611623,
      "grad_norm": 0.14536046981811523,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 3426
    },
    {
      "epoch": 3.493374108053007,
      "grad_norm": 0.14075703918933868,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 3427
    },
    {
      "epoch": 3.494393476044852,
      "grad_norm": 0.17146337032318115,
      "learning_rate": 0.001,
      "loss": 0.2465,
      "step": 3428
    },
    {
      "epoch": 3.4954128440366974,
      "grad_norm": 0.14478914439678192,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 3429
    },
    {
      "epoch": 3.4964322120285423,
      "grad_norm": 0.10674364119768143,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 3430
    },
    {
      "epoch": 3.497451580020387,
      "grad_norm": 0.1739678829908371,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 3431
    },
    {
      "epoch": 3.4984709480122325,
      "grad_norm": 0.21847239136695862,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 3432
    },
    {
      "epoch": 3.4994903160040773,
      "grad_norm": 0.16983948647975922,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 3433
    },
    {
      "epoch": 3.5005096839959227,
      "grad_norm": 0.1717979609966278,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 3434
    },
    {
      "epoch": 3.5015290519877675,
      "grad_norm": 0.15668311715126038,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 3435
    },
    {
      "epoch": 3.502548419979613,
      "grad_norm": 0.18045347929000854,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 3436
    },
    {
      "epoch": 3.5035677879714577,
      "grad_norm": 0.23446471989154816,
      "learning_rate": 0.001,
      "loss": 0.2812,
      "step": 3437
    },
    {
      "epoch": 3.5045871559633026,
      "grad_norm": 0.12080918997526169,
      "learning_rate": 0.001,
      "loss": 0.2156,
      "step": 3438
    },
    {
      "epoch": 3.505606523955148,
      "grad_norm": 0.13423942029476166,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 3439
    },
    {
      "epoch": 3.506625891946993,
      "grad_norm": 0.17492422461509705,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 3440
    },
    {
      "epoch": 3.5076452599388377,
      "grad_norm": 0.13922269642353058,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3441
    },
    {
      "epoch": 3.508664627930683,
      "grad_norm": 0.1722876876592636,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 3442
    },
    {
      "epoch": 3.509683995922528,
      "grad_norm": 0.220475435256958,
      "learning_rate": 0.001,
      "loss": 0.2506,
      "step": 3443
    },
    {
      "epoch": 3.510703363914373,
      "grad_norm": 0.10815328359603882,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 3444
    },
    {
      "epoch": 3.511722731906218,
      "grad_norm": 0.11232946068048477,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 3445
    },
    {
      "epoch": 3.5127420998980634,
      "grad_norm": 0.15308734774589539,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 3446
    },
    {
      "epoch": 3.5137614678899083,
      "grad_norm": 0.17539437115192413,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 3447
    },
    {
      "epoch": 3.514780835881753,
      "grad_norm": 0.14935390651226044,
      "learning_rate": 0.001,
      "loss": 0.2646,
      "step": 3448
    },
    {
      "epoch": 3.5158002038735985,
      "grad_norm": 0.12822382152080536,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 3449
    },
    {
      "epoch": 3.5168195718654434,
      "grad_norm": 0.12475661933422089,
      "learning_rate": 0.001,
      "loss": 0.2416,
      "step": 3450
    },
    {
      "epoch": 3.5178389398572882,
      "grad_norm": 0.1721072494983673,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3451
    },
    {
      "epoch": 3.5188583078491336,
      "grad_norm": 0.11670742183923721,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 3452
    },
    {
      "epoch": 3.5198776758409784,
      "grad_norm": 0.1584295779466629,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 3453
    },
    {
      "epoch": 3.5208970438328238,
      "grad_norm": 0.21439571678638458,
      "learning_rate": 0.001,
      "loss": 0.2504,
      "step": 3454
    },
    {
      "epoch": 3.5219164118246686,
      "grad_norm": 0.19598539173603058,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 3455
    },
    {
      "epoch": 3.522935779816514,
      "grad_norm": 0.18783868849277496,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 3456
    },
    {
      "epoch": 3.523955147808359,
      "grad_norm": 0.20189402997493744,
      "learning_rate": 0.001,
      "loss": 0.2676,
      "step": 3457
    },
    {
      "epoch": 3.5249745158002037,
      "grad_norm": 0.13350720703601837,
      "learning_rate": 0.001,
      "loss": 0.2257,
      "step": 3458
    },
    {
      "epoch": 3.525993883792049,
      "grad_norm": 0.13278619945049286,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 3459
    },
    {
      "epoch": 3.527013251783894,
      "grad_norm": 0.1482405811548233,
      "learning_rate": 0.001,
      "loss": 0.2424,
      "step": 3460
    },
    {
      "epoch": 3.528032619775739,
      "grad_norm": 0.19318561255931854,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 3461
    },
    {
      "epoch": 3.529051987767584,
      "grad_norm": 0.14358198642730713,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 3462
    },
    {
      "epoch": 3.5300713557594294,
      "grad_norm": 0.18975260853767395,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3463
    },
    {
      "epoch": 3.5310907237512743,
      "grad_norm": 0.10898736864328384,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 3464
    },
    {
      "epoch": 3.532110091743119,
      "grad_norm": 0.1315525323152542,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 3465
    },
    {
      "epoch": 3.5331294597349645,
      "grad_norm": 0.15552809834480286,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 3466
    },
    {
      "epoch": 3.5341488277268094,
      "grad_norm": 0.18896570801734924,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 3467
    },
    {
      "epoch": 3.5351681957186543,
      "grad_norm": 0.1651148498058319,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3468
    },
    {
      "epoch": 3.5361875637104996,
      "grad_norm": 0.44522419571876526,
      "learning_rate": 0.001,
      "loss": 0.238,
      "step": 3469
    },
    {
      "epoch": 3.5372069317023445,
      "grad_norm": 0.23589369654655457,
      "learning_rate": 0.001,
      "loss": 0.2291,
      "step": 3470
    },
    {
      "epoch": 3.5382262996941893,
      "grad_norm": 0.16323022544384003,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 3471
    },
    {
      "epoch": 3.5392456676860347,
      "grad_norm": 0.22487139701843262,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3472
    },
    {
      "epoch": 3.54026503567788,
      "grad_norm": 0.12257097661495209,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 3473
    },
    {
      "epoch": 3.541284403669725,
      "grad_norm": 0.2770465612411499,
      "learning_rate": 0.001,
      "loss": 0.2753,
      "step": 3474
    },
    {
      "epoch": 3.5423037716615697,
      "grad_norm": 0.22468705475330353,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 3475
    },
    {
      "epoch": 3.543323139653415,
      "grad_norm": 0.12474218755960464,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 3476
    },
    {
      "epoch": 3.54434250764526,
      "grad_norm": 0.14215494692325592,
      "learning_rate": 0.001,
      "loss": 0.2321,
      "step": 3477
    },
    {
      "epoch": 3.545361875637105,
      "grad_norm": 0.1796528398990631,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 3478
    },
    {
      "epoch": 3.54638124362895,
      "grad_norm": 0.1881130188703537,
      "learning_rate": 0.001,
      "loss": 0.2606,
      "step": 3479
    },
    {
      "epoch": 3.547400611620795,
      "grad_norm": 0.14677530527114868,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 3480
    },
    {
      "epoch": 3.5484199796126403,
      "grad_norm": 0.1631360799074173,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 3481
    },
    {
      "epoch": 3.549439347604485,
      "grad_norm": 0.12309405952692032,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 3482
    },
    {
      "epoch": 3.5504587155963305,
      "grad_norm": 0.11141891032457352,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 3483
    },
    {
      "epoch": 3.5514780835881754,
      "grad_norm": 0.1669009029865265,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 3484
    },
    {
      "epoch": 3.5524974515800203,
      "grad_norm": 0.09426439553499222,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 3485
    },
    {
      "epoch": 3.5535168195718656,
      "grad_norm": 0.1804024875164032,
      "learning_rate": 0.001,
      "loss": 0.2728,
      "step": 3486
    },
    {
      "epoch": 3.5545361875637105,
      "grad_norm": 0.17742274701595306,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 3487
    },
    {
      "epoch": 3.5555555555555554,
      "grad_norm": 0.16219308972358704,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 3488
    },
    {
      "epoch": 3.5565749235474007,
      "grad_norm": 0.20341208577156067,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 3489
    },
    {
      "epoch": 3.5575942915392456,
      "grad_norm": 0.17406411468982697,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 3490
    },
    {
      "epoch": 3.558613659531091,
      "grad_norm": 0.2090412676334381,
      "learning_rate": 0.001,
      "loss": 0.23,
      "step": 3491
    },
    {
      "epoch": 3.5596330275229358,
      "grad_norm": 0.1269720196723938,
      "learning_rate": 0.001,
      "loss": 0.2452,
      "step": 3492
    },
    {
      "epoch": 3.560652395514781,
      "grad_norm": 0.16696612536907196,
      "learning_rate": 0.001,
      "loss": 0.2529,
      "step": 3493
    },
    {
      "epoch": 3.561671763506626,
      "grad_norm": 0.1387615203857422,
      "learning_rate": 0.001,
      "loss": 0.2543,
      "step": 3494
    },
    {
      "epoch": 3.562691131498471,
      "grad_norm": 0.14036163687705994,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 3495
    },
    {
      "epoch": 3.563710499490316,
      "grad_norm": 0.21478013694286346,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 3496
    },
    {
      "epoch": 3.564729867482161,
      "grad_norm": 0.20912966132164001,
      "learning_rate": 0.001,
      "loss": 0.2354,
      "step": 3497
    },
    {
      "epoch": 3.565749235474006,
      "grad_norm": 0.15680348873138428,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 3498
    },
    {
      "epoch": 3.5667686034658512,
      "grad_norm": 0.18907999992370605,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 3499
    },
    {
      "epoch": 3.567787971457696,
      "grad_norm": 0.16213415563106537,
      "learning_rate": 0.001,
      "loss": 0.2295,
      "step": 3500
    },
    {
      "epoch": 3.5688073394495414,
      "grad_norm": 0.14994527399539948,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 3501
    },
    {
      "epoch": 3.5698267074413863,
      "grad_norm": 0.17164811491966248,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 3502
    },
    {
      "epoch": 3.5708460754332316,
      "grad_norm": 0.1510804295539856,
      "learning_rate": 0.001,
      "loss": 0.2373,
      "step": 3503
    },
    {
      "epoch": 3.5718654434250765,
      "grad_norm": 0.18294456601142883,
      "learning_rate": 0.001,
      "loss": 0.2463,
      "step": 3504
    },
    {
      "epoch": 3.5728848114169214,
      "grad_norm": 0.2357315719127655,
      "learning_rate": 0.001,
      "loss": 0.238,
      "step": 3505
    },
    {
      "epoch": 3.5739041794087667,
      "grad_norm": 0.15784670412540436,
      "learning_rate": 0.001,
      "loss": 0.2573,
      "step": 3506
    },
    {
      "epoch": 3.5749235474006116,
      "grad_norm": 0.2112722545862198,
      "learning_rate": 0.001,
      "loss": 0.2493,
      "step": 3507
    },
    {
      "epoch": 3.5759429153924565,
      "grad_norm": 0.1727905124425888,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 3508
    },
    {
      "epoch": 3.5769622833843018,
      "grad_norm": 0.15125654637813568,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 3509
    },
    {
      "epoch": 3.5779816513761467,
      "grad_norm": 0.2167969048023224,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 3510
    },
    {
      "epoch": 3.579001019367992,
      "grad_norm": 0.15592871606349945,
      "learning_rate": 0.001,
      "loss": 0.2563,
      "step": 3511
    },
    {
      "epoch": 3.580020387359837,
      "grad_norm": 0.10062146186828613,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 3512
    },
    {
      "epoch": 3.581039755351682,
      "grad_norm": 0.1602240949869156,
      "learning_rate": 0.001,
      "loss": 0.2579,
      "step": 3513
    },
    {
      "epoch": 3.582059123343527,
      "grad_norm": 0.20856019854545593,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3514
    },
    {
      "epoch": 3.583078491335372,
      "grad_norm": 0.1254480481147766,
      "learning_rate": 0.001,
      "loss": 0.2616,
      "step": 3515
    },
    {
      "epoch": 3.5840978593272173,
      "grad_norm": 0.18214631080627441,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 3516
    },
    {
      "epoch": 3.585117227319062,
      "grad_norm": 0.15467487275600433,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 3517
    },
    {
      "epoch": 3.586136595310907,
      "grad_norm": 0.18609045445919037,
      "learning_rate": 0.001,
      "loss": 0.2458,
      "step": 3518
    },
    {
      "epoch": 3.5871559633027523,
      "grad_norm": 0.20553705096244812,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 3519
    },
    {
      "epoch": 3.588175331294597,
      "grad_norm": 0.17077669501304626,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 3520
    },
    {
      "epoch": 3.5891946992864425,
      "grad_norm": 0.1456252783536911,
      "learning_rate": 0.001,
      "loss": 0.255,
      "step": 3521
    },
    {
      "epoch": 3.5902140672782874,
      "grad_norm": 0.2494422346353531,
      "learning_rate": 0.001,
      "loss": 0.2542,
      "step": 3522
    },
    {
      "epoch": 3.5912334352701327,
      "grad_norm": 0.1377507448196411,
      "learning_rate": 0.001,
      "loss": 0.2394,
      "step": 3523
    },
    {
      "epoch": 3.5922528032619776,
      "grad_norm": 0.15305396914482117,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 3524
    },
    {
      "epoch": 3.5932721712538225,
      "grad_norm": 0.142393097281456,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 3525
    },
    {
      "epoch": 3.594291539245668,
      "grad_norm": 0.13896942138671875,
      "learning_rate": 0.001,
      "loss": 0.2556,
      "step": 3526
    },
    {
      "epoch": 3.5953109072375127,
      "grad_norm": 0.154966801404953,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 3527
    },
    {
      "epoch": 3.5963302752293576,
      "grad_norm": 0.23031505942344666,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 3528
    },
    {
      "epoch": 3.597349643221203,
      "grad_norm": 0.2004500925540924,
      "learning_rate": 0.001,
      "loss": 0.23,
      "step": 3529
    },
    {
      "epoch": 3.5983690112130478,
      "grad_norm": 0.13649575412273407,
      "learning_rate": 0.001,
      "loss": 0.243,
      "step": 3530
    },
    {
      "epoch": 3.599388379204893,
      "grad_norm": 0.1770302653312683,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 3531
    },
    {
      "epoch": 3.600407747196738,
      "grad_norm": 0.1674807369709015,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 3532
    },
    {
      "epoch": 3.6014271151885833,
      "grad_norm": 0.16058549284934998,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 3533
    },
    {
      "epoch": 3.602446483180428,
      "grad_norm": 0.09969384968280792,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3534
    },
    {
      "epoch": 3.603465851172273,
      "grad_norm": 0.18820913136005402,
      "learning_rate": 0.001,
      "loss": 0.248,
      "step": 3535
    },
    {
      "epoch": 3.6044852191641183,
      "grad_norm": 0.1864079087972641,
      "learning_rate": 0.001,
      "loss": 0.252,
      "step": 3536
    },
    {
      "epoch": 3.6055045871559632,
      "grad_norm": 0.130015030503273,
      "learning_rate": 0.001,
      "loss": 0.2568,
      "step": 3537
    },
    {
      "epoch": 3.606523955147808,
      "grad_norm": 0.10771045088768005,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 3538
    },
    {
      "epoch": 3.6075433231396534,
      "grad_norm": 0.10558277368545532,
      "learning_rate": 0.001,
      "loss": 0.2311,
      "step": 3539
    },
    {
      "epoch": 3.6085626911314987,
      "grad_norm": 0.17123164236545563,
      "learning_rate": 0.001,
      "loss": 0.2537,
      "step": 3540
    },
    {
      "epoch": 3.6095820591233436,
      "grad_norm": 0.14815843105316162,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3541
    },
    {
      "epoch": 3.6106014271151885,
      "grad_norm": 0.22079135477542877,
      "learning_rate": 0.001,
      "loss": 0.2329,
      "step": 3542
    },
    {
      "epoch": 3.611620795107034,
      "grad_norm": 0.20256495475769043,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 3543
    },
    {
      "epoch": 3.6126401630988787,
      "grad_norm": 0.2191585898399353,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3544
    },
    {
      "epoch": 3.6136595310907236,
      "grad_norm": 0.12537996470928192,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 3545
    },
    {
      "epoch": 3.614678899082569,
      "grad_norm": 0.09857862442731857,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 3546
    },
    {
      "epoch": 3.6156982670744138,
      "grad_norm": 0.11176830530166626,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3547
    },
    {
      "epoch": 3.6167176350662587,
      "grad_norm": 0.11704779416322708,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 3548
    },
    {
      "epoch": 3.617737003058104,
      "grad_norm": 0.12592090666294098,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 3549
    },
    {
      "epoch": 3.6187563710499493,
      "grad_norm": 0.20492306351661682,
      "learning_rate": 0.001,
      "loss": 0.2194,
      "step": 3550
    },
    {
      "epoch": 3.619775739041794,
      "grad_norm": 0.1657029092311859,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 3551
    },
    {
      "epoch": 3.620795107033639,
      "grad_norm": 0.148987278342247,
      "learning_rate": 0.001,
      "loss": 0.2317,
      "step": 3552
    },
    {
      "epoch": 3.6218144750254844,
      "grad_norm": 0.13038362562656403,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 3553
    },
    {
      "epoch": 3.6228338430173292,
      "grad_norm": 0.1921743005514145,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 3554
    },
    {
      "epoch": 3.623853211009174,
      "grad_norm": 0.11962561309337616,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 3555
    },
    {
      "epoch": 3.6248725790010194,
      "grad_norm": 0.21263651549816132,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 3556
    },
    {
      "epoch": 3.6258919469928643,
      "grad_norm": 0.18466980755329132,
      "learning_rate": 0.001,
      "loss": 0.2684,
      "step": 3557
    },
    {
      "epoch": 3.6269113149847096,
      "grad_norm": 0.19739004969596863,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 3558
    },
    {
      "epoch": 3.6279306829765545,
      "grad_norm": 0.15222766995429993,
      "learning_rate": 0.001,
      "loss": 0.2318,
      "step": 3559
    },
    {
      "epoch": 3.6289500509684,
      "grad_norm": 0.1780238002538681,
      "learning_rate": 0.001,
      "loss": 0.2559,
      "step": 3560
    },
    {
      "epoch": 3.6299694189602447,
      "grad_norm": 0.1714765429496765,
      "learning_rate": 0.001,
      "loss": 0.2321,
      "step": 3561
    },
    {
      "epoch": 3.6309887869520896,
      "grad_norm": 0.17079980671405792,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 3562
    },
    {
      "epoch": 3.632008154943935,
      "grad_norm": 0.13242121040821075,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 3563
    },
    {
      "epoch": 3.63302752293578,
      "grad_norm": 0.15860067307949066,
      "learning_rate": 0.001,
      "loss": 0.2363,
      "step": 3564
    },
    {
      "epoch": 3.6340468909276247,
      "grad_norm": 0.13693390786647797,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 3565
    },
    {
      "epoch": 3.63506625891947,
      "grad_norm": 0.16999948024749756,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 3566
    },
    {
      "epoch": 3.636085626911315,
      "grad_norm": 0.16804257035255432,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3567
    },
    {
      "epoch": 3.63710499490316,
      "grad_norm": 0.14722304046154022,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 3568
    },
    {
      "epoch": 3.638124362895005,
      "grad_norm": 0.10951274633407593,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 3569
    },
    {
      "epoch": 3.6391437308868504,
      "grad_norm": 0.1538797914981842,
      "learning_rate": 0.001,
      "loss": 0.2561,
      "step": 3570
    },
    {
      "epoch": 3.6401630988786953,
      "grad_norm": 0.11736198514699936,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3571
    },
    {
      "epoch": 3.64118246687054,
      "grad_norm": 0.10490041226148605,
      "learning_rate": 0.001,
      "loss": 0.2338,
      "step": 3572
    },
    {
      "epoch": 3.6422018348623855,
      "grad_norm": 0.13860823214054108,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 3573
    },
    {
      "epoch": 3.6432212028542303,
      "grad_norm": 0.17490461468696594,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 3574
    },
    {
      "epoch": 3.6442405708460752,
      "grad_norm": 0.12422971427440643,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 3575
    },
    {
      "epoch": 3.6452599388379205,
      "grad_norm": 0.21145270764827728,
      "learning_rate": 0.001,
      "loss": 0.2551,
      "step": 3576
    },
    {
      "epoch": 3.6462793068297654,
      "grad_norm": 0.19039106369018555,
      "learning_rate": 0.001,
      "loss": 0.2382,
      "step": 3577
    },
    {
      "epoch": 3.6472986748216107,
      "grad_norm": 0.1825796216726303,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 3578
    },
    {
      "epoch": 3.6483180428134556,
      "grad_norm": 0.2192668318748474,
      "learning_rate": 0.001,
      "loss": 0.2328,
      "step": 3579
    },
    {
      "epoch": 3.649337410805301,
      "grad_norm": 0.13560926914215088,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 3580
    },
    {
      "epoch": 3.650356778797146,
      "grad_norm": 0.10965024679899216,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 3581
    },
    {
      "epoch": 3.6513761467889907,
      "grad_norm": 0.17816780507564545,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 3582
    },
    {
      "epoch": 3.652395514780836,
      "grad_norm": 0.16621723771095276,
      "learning_rate": 0.001,
      "loss": 0.2639,
      "step": 3583
    },
    {
      "epoch": 3.653414882772681,
      "grad_norm": 0.14360004663467407,
      "learning_rate": 0.001,
      "loss": 0.2311,
      "step": 3584
    },
    {
      "epoch": 3.6544342507645258,
      "grad_norm": 0.24979308247566223,
      "learning_rate": 0.001,
      "loss": 0.2411,
      "step": 3585
    },
    {
      "epoch": 3.655453618756371,
      "grad_norm": 0.12520505487918854,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 3586
    },
    {
      "epoch": 3.656472986748216,
      "grad_norm": 0.11318184435367584,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 3587
    },
    {
      "epoch": 3.6574923547400613,
      "grad_norm": 0.19862839579582214,
      "learning_rate": 0.001,
      "loss": 0.2402,
      "step": 3588
    },
    {
      "epoch": 3.658511722731906,
      "grad_norm": 0.18027985095977783,
      "learning_rate": 0.001,
      "loss": 0.2311,
      "step": 3589
    },
    {
      "epoch": 3.6595310907237515,
      "grad_norm": 0.13490428030490875,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 3590
    },
    {
      "epoch": 3.6605504587155964,
      "grad_norm": 0.11626899987459183,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 3591
    },
    {
      "epoch": 3.6615698267074412,
      "grad_norm": 0.20179660618305206,
      "learning_rate": 0.001,
      "loss": 0.2236,
      "step": 3592
    },
    {
      "epoch": 3.6625891946992866,
      "grad_norm": 0.1360796093940735,
      "learning_rate": 0.001,
      "loss": 0.2368,
      "step": 3593
    },
    {
      "epoch": 3.6636085626911314,
      "grad_norm": 0.16545186936855316,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 3594
    },
    {
      "epoch": 3.6646279306829763,
      "grad_norm": 0.09146851301193237,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 3595
    },
    {
      "epoch": 3.6656472986748216,
      "grad_norm": 0.13643404841423035,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 3596
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.13085314631462097,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 3597
    },
    {
      "epoch": 3.667686034658512,
      "grad_norm": 0.09962060302495956,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 3598
    },
    {
      "epoch": 3.6687054026503567,
      "grad_norm": 0.1285628378391266,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 3599
    },
    {
      "epoch": 3.669724770642202,
      "grad_norm": 0.2582341134548187,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 3600
    },
    {
      "epoch": 3.670744138634047,
      "grad_norm": 0.14243356883525848,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 3601
    },
    {
      "epoch": 3.671763506625892,
      "grad_norm": 0.1456349939107895,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3602
    },
    {
      "epoch": 3.672782874617737,
      "grad_norm": 0.13670620322227478,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 3603
    },
    {
      "epoch": 3.673802242609582,
      "grad_norm": 0.13197460770606995,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 3604
    },
    {
      "epoch": 3.674821610601427,
      "grad_norm": 0.16052086651325226,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 3605
    },
    {
      "epoch": 3.675840978593272,
      "grad_norm": 0.12938135862350464,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 3606
    },
    {
      "epoch": 3.676860346585117,
      "grad_norm": 0.15304559469223022,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 3607
    },
    {
      "epoch": 3.6778797145769624,
      "grad_norm": 0.20625872910022736,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 3608
    },
    {
      "epoch": 3.6788990825688073,
      "grad_norm": 0.1387786716222763,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 3609
    },
    {
      "epoch": 3.6799184505606526,
      "grad_norm": 0.19148164987564087,
      "learning_rate": 0.001,
      "loss": 0.2506,
      "step": 3610
    },
    {
      "epoch": 3.6809378185524975,
      "grad_norm": 0.1443236768245697,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 3611
    },
    {
      "epoch": 3.6819571865443423,
      "grad_norm": 0.18419942259788513,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 3612
    },
    {
      "epoch": 3.6829765545361877,
      "grad_norm": 0.2235940843820572,
      "learning_rate": 0.001,
      "loss": 0.248,
      "step": 3613
    },
    {
      "epoch": 3.6839959225280325,
      "grad_norm": 0.14127430319786072,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 3614
    },
    {
      "epoch": 3.6850152905198774,
      "grad_norm": 0.23721744120121002,
      "learning_rate": 0.001,
      "loss": 0.2527,
      "step": 3615
    },
    {
      "epoch": 3.6860346585117227,
      "grad_norm": 0.16468876600265503,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 3616
    },
    {
      "epoch": 3.687054026503568,
      "grad_norm": 0.16132844984531403,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 3617
    },
    {
      "epoch": 3.688073394495413,
      "grad_norm": 0.23331020772457123,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 3618
    },
    {
      "epoch": 3.689092762487258,
      "grad_norm": 0.12917259335517883,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 3619
    },
    {
      "epoch": 3.690112130479103,
      "grad_norm": 0.16649797558784485,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 3620
    },
    {
      "epoch": 3.691131498470948,
      "grad_norm": 0.16992470622062683,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 3621
    },
    {
      "epoch": 3.692150866462793,
      "grad_norm": 0.13669928908348083,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 3622
    },
    {
      "epoch": 3.693170234454638,
      "grad_norm": 0.21298739314079285,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 3623
    },
    {
      "epoch": 3.694189602446483,
      "grad_norm": 0.23121234774589539,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 3624
    },
    {
      "epoch": 3.695208970438328,
      "grad_norm": 0.1096365749835968,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 3625
    },
    {
      "epoch": 3.6962283384301733,
      "grad_norm": 0.27849969267845154,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 3626
    },
    {
      "epoch": 3.6972477064220186,
      "grad_norm": 0.12320945411920547,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 3627
    },
    {
      "epoch": 3.6982670744138635,
      "grad_norm": 0.18925568461418152,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 3628
    },
    {
      "epoch": 3.6992864424057084,
      "grad_norm": 0.16542504727840424,
      "learning_rate": 0.001,
      "loss": 0.2664,
      "step": 3629
    },
    {
      "epoch": 3.7003058103975537,
      "grad_norm": 0.13632690906524658,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 3630
    },
    {
      "epoch": 3.7013251783893986,
      "grad_norm": 0.16086211800575256,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 3631
    },
    {
      "epoch": 3.7023445463812434,
      "grad_norm": 0.1624888926744461,
      "learning_rate": 0.001,
      "loss": 0.2344,
      "step": 3632
    },
    {
      "epoch": 3.7033639143730888,
      "grad_norm": 0.15041956305503845,
      "learning_rate": 0.001,
      "loss": 0.24,
      "step": 3633
    },
    {
      "epoch": 3.7043832823649336,
      "grad_norm": 0.1637250930070877,
      "learning_rate": 0.001,
      "loss": 0.2239,
      "step": 3634
    },
    {
      "epoch": 3.705402650356779,
      "grad_norm": 0.13083691895008087,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3635
    },
    {
      "epoch": 3.706422018348624,
      "grad_norm": 0.1288975030183792,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 3636
    },
    {
      "epoch": 3.707441386340469,
      "grad_norm": 0.15563495457172394,
      "learning_rate": 0.001,
      "loss": 0.2548,
      "step": 3637
    },
    {
      "epoch": 3.708460754332314,
      "grad_norm": 0.13161173462867737,
      "learning_rate": 0.001,
      "loss": 0.2633,
      "step": 3638
    },
    {
      "epoch": 3.709480122324159,
      "grad_norm": 0.17180345952510834,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 3639
    },
    {
      "epoch": 3.7104994903160042,
      "grad_norm": 0.15229186415672302,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 3640
    },
    {
      "epoch": 3.711518858307849,
      "grad_norm": 0.18240594863891602,
      "learning_rate": 0.001,
      "loss": 0.2538,
      "step": 3641
    },
    {
      "epoch": 3.712538226299694,
      "grad_norm": 0.21592585742473602,
      "learning_rate": 0.001,
      "loss": 0.2532,
      "step": 3642
    },
    {
      "epoch": 3.7135575942915393,
      "grad_norm": 0.10873665660619736,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 3643
    },
    {
      "epoch": 3.714576962283384,
      "grad_norm": 0.1979013979434967,
      "learning_rate": 0.001,
      "loss": 0.2583,
      "step": 3644
    },
    {
      "epoch": 3.7155963302752295,
      "grad_norm": 0.22633540630340576,
      "learning_rate": 0.001,
      "loss": 0.2469,
      "step": 3645
    },
    {
      "epoch": 3.7166156982670744,
      "grad_norm": 0.16347047686576843,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 3646
    },
    {
      "epoch": 3.7176350662589197,
      "grad_norm": 0.21254248917102814,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 3647
    },
    {
      "epoch": 3.7186544342507646,
      "grad_norm": 0.1518092304468155,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 3648
    },
    {
      "epoch": 3.7196738022426095,
      "grad_norm": 0.14819395542144775,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 3649
    },
    {
      "epoch": 3.720693170234455,
      "grad_norm": 0.16405059397220612,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 3650
    },
    {
      "epoch": 3.7217125382262997,
      "grad_norm": 0.1570861041545868,
      "learning_rate": 0.001,
      "loss": 0.239,
      "step": 3651
    },
    {
      "epoch": 3.7227319062181445,
      "grad_norm": 0.16098438203334808,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 3652
    },
    {
      "epoch": 3.72375127420999,
      "grad_norm": 0.12905795872211456,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 3653
    },
    {
      "epoch": 3.7247706422018347,
      "grad_norm": 0.12457902729511261,
      "learning_rate": 0.001,
      "loss": 0.2354,
      "step": 3654
    },
    {
      "epoch": 3.72579001019368,
      "grad_norm": 0.20938657224178314,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 3655
    },
    {
      "epoch": 3.726809378185525,
      "grad_norm": 0.1841442734003067,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 3656
    },
    {
      "epoch": 3.7278287461773703,
      "grad_norm": 0.19978107511997223,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 3657
    },
    {
      "epoch": 3.728848114169215,
      "grad_norm": 0.18514232337474823,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 3658
    },
    {
      "epoch": 3.72986748216106,
      "grad_norm": 0.2622065544128418,
      "learning_rate": 0.001,
      "loss": 0.2781,
      "step": 3659
    },
    {
      "epoch": 3.7308868501529053,
      "grad_norm": 0.1501297503709793,
      "learning_rate": 0.001,
      "loss": 0.2377,
      "step": 3660
    },
    {
      "epoch": 3.73190621814475,
      "grad_norm": 0.17051899433135986,
      "learning_rate": 0.001,
      "loss": 0.2657,
      "step": 3661
    },
    {
      "epoch": 3.732925586136595,
      "grad_norm": 0.20834863185882568,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3662
    },
    {
      "epoch": 3.7339449541284404,
      "grad_norm": 0.17094479501247406,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 3663
    },
    {
      "epoch": 3.7349643221202853,
      "grad_norm": 0.12912659347057343,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 3664
    },
    {
      "epoch": 3.7359836901121306,
      "grad_norm": 0.10184837132692337,
      "learning_rate": 0.001,
      "loss": 0.2266,
      "step": 3665
    },
    {
      "epoch": 3.7370030581039755,
      "grad_norm": 0.13084939122200012,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 3666
    },
    {
      "epoch": 3.738022426095821,
      "grad_norm": 0.23845823109149933,
      "learning_rate": 0.001,
      "loss": 0.2832,
      "step": 3667
    },
    {
      "epoch": 3.7390417940876657,
      "grad_norm": 0.16618457436561584,
      "learning_rate": 0.001,
      "loss": 0.2546,
      "step": 3668
    },
    {
      "epoch": 3.7400611620795106,
      "grad_norm": 0.12559689581394196,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3669
    },
    {
      "epoch": 3.741080530071356,
      "grad_norm": 0.2033194601535797,
      "learning_rate": 0.001,
      "loss": 0.2556,
      "step": 3670
    },
    {
      "epoch": 3.7420998980632008,
      "grad_norm": 0.1400657594203949,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 3671
    },
    {
      "epoch": 3.7431192660550456,
      "grad_norm": 0.2254728376865387,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 3672
    },
    {
      "epoch": 3.744138634046891,
      "grad_norm": 0.14183199405670166,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 3673
    },
    {
      "epoch": 3.745158002038736,
      "grad_norm": 0.2622717618942261,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 3674
    },
    {
      "epoch": 3.746177370030581,
      "grad_norm": 0.15361478924751282,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 3675
    },
    {
      "epoch": 3.747196738022426,
      "grad_norm": 0.16735760867595673,
      "learning_rate": 0.001,
      "loss": 0.2311,
      "step": 3676
    },
    {
      "epoch": 3.7482161060142714,
      "grad_norm": 0.12032564729452133,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 3677
    },
    {
      "epoch": 3.7492354740061162,
      "grad_norm": 0.16796918213367462,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 3678
    },
    {
      "epoch": 3.750254841997961,
      "grad_norm": 0.7903847694396973,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3679
    },
    {
      "epoch": 3.7512742099898064,
      "grad_norm": 0.1339646726846695,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 3680
    },
    {
      "epoch": 3.7522935779816513,
      "grad_norm": 0.12449796497821808,
      "learning_rate": 0.001,
      "loss": 0.2233,
      "step": 3681
    },
    {
      "epoch": 3.753312945973496,
      "grad_norm": 0.13586097955703735,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 3682
    },
    {
      "epoch": 3.7543323139653415,
      "grad_norm": 0.1343642771244049,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 3683
    },
    {
      "epoch": 3.7553516819571864,
      "grad_norm": 0.15368367731571198,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 3684
    },
    {
      "epoch": 3.7563710499490317,
      "grad_norm": 0.22176186740398407,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 3685
    },
    {
      "epoch": 3.7573904179408766,
      "grad_norm": 0.2040940821170807,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 3686
    },
    {
      "epoch": 3.758409785932722,
      "grad_norm": 0.15067829191684723,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 3687
    },
    {
      "epoch": 3.759429153924567,
      "grad_norm": 0.15992674231529236,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 3688
    },
    {
      "epoch": 3.7604485219164117,
      "grad_norm": 0.25138038396835327,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 3689
    },
    {
      "epoch": 3.761467889908257,
      "grad_norm": 0.2074289172887802,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 3690
    },
    {
      "epoch": 3.762487257900102,
      "grad_norm": 0.2923615276813507,
      "learning_rate": 0.001,
      "loss": 0.2347,
      "step": 3691
    },
    {
      "epoch": 3.7635066258919467,
      "grad_norm": 0.2130095511674881,
      "learning_rate": 0.001,
      "loss": 0.2267,
      "step": 3692
    },
    {
      "epoch": 3.764525993883792,
      "grad_norm": 0.23423798382282257,
      "learning_rate": 0.001,
      "loss": 0.2338,
      "step": 3693
    },
    {
      "epoch": 3.7655453618756374,
      "grad_norm": 0.10344862937927246,
      "learning_rate": 0.001,
      "loss": 0.2273,
      "step": 3694
    },
    {
      "epoch": 3.7665647298674823,
      "grad_norm": 0.1349855214357376,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 3695
    },
    {
      "epoch": 3.767584097859327,
      "grad_norm": 0.20961010456085205,
      "learning_rate": 0.001,
      "loss": 0.2534,
      "step": 3696
    },
    {
      "epoch": 3.7686034658511725,
      "grad_norm": 0.21967290341854095,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 3697
    },
    {
      "epoch": 3.7696228338430173,
      "grad_norm": 0.19580520689487457,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 3698
    },
    {
      "epoch": 3.770642201834862,
      "grad_norm": 0.14587782323360443,
      "learning_rate": 0.001,
      "loss": 0.2328,
      "step": 3699
    },
    {
      "epoch": 3.7716615698267075,
      "grad_norm": 0.17617885768413544,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 3700
    },
    {
      "epoch": 3.7726809378185524,
      "grad_norm": 0.14323453605175018,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3701
    },
    {
      "epoch": 3.7737003058103973,
      "grad_norm": 0.13109558820724487,
      "learning_rate": 0.001,
      "loss": 0.2323,
      "step": 3702
    },
    {
      "epoch": 3.7747196738022426,
      "grad_norm": 0.2727297246456146,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 3703
    },
    {
      "epoch": 3.775739041794088,
      "grad_norm": 0.14092905819416046,
      "learning_rate": 0.001,
      "loss": 0.2358,
      "step": 3704
    },
    {
      "epoch": 3.776758409785933,
      "grad_norm": 0.107870914041996,
      "learning_rate": 0.001,
      "loss": 0.2394,
      "step": 3705
    },
    {
      "epoch": 3.7777777777777777,
      "grad_norm": 0.12773603200912476,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 3706
    },
    {
      "epoch": 3.778797145769623,
      "grad_norm": 0.14576248824596405,
      "learning_rate": 0.001,
      "loss": 0.2347,
      "step": 3707
    },
    {
      "epoch": 3.779816513761468,
      "grad_norm": 0.10771504789590836,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 3708
    },
    {
      "epoch": 3.7808358817533128,
      "grad_norm": 0.12207019329071045,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 3709
    },
    {
      "epoch": 3.781855249745158,
      "grad_norm": 0.1537485420703888,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 3710
    },
    {
      "epoch": 3.782874617737003,
      "grad_norm": 0.12235146015882492,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 3711
    },
    {
      "epoch": 3.7838939857288483,
      "grad_norm": 0.21607820689678192,
      "learning_rate": 0.001,
      "loss": 0.2366,
      "step": 3712
    },
    {
      "epoch": 3.784913353720693,
      "grad_norm": 0.20346972346305847,
      "learning_rate": 0.001,
      "loss": 0.2288,
      "step": 3713
    },
    {
      "epoch": 3.7859327217125385,
      "grad_norm": 0.15835972130298615,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 3714
    },
    {
      "epoch": 3.7869520897043834,
      "grad_norm": 0.19293443858623505,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 3715
    },
    {
      "epoch": 3.7879714576962282,
      "grad_norm": 0.19465526938438416,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3716
    },
    {
      "epoch": 3.7889908256880735,
      "grad_norm": 0.19726087152957916,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 3717
    },
    {
      "epoch": 3.7900101936799184,
      "grad_norm": 0.18598251044750214,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 3718
    },
    {
      "epoch": 3.7910295616717633,
      "grad_norm": 0.1714135706424713,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 3719
    },
    {
      "epoch": 3.7920489296636086,
      "grad_norm": 0.2036973387002945,
      "learning_rate": 0.001,
      "loss": 0.2394,
      "step": 3720
    },
    {
      "epoch": 3.7930682976554535,
      "grad_norm": 0.23298153281211853,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 3721
    },
    {
      "epoch": 3.794087665647299,
      "grad_norm": 0.12958075106143951,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 3722
    },
    {
      "epoch": 3.7951070336391437,
      "grad_norm": 0.1936855912208557,
      "learning_rate": 0.001,
      "loss": 0.2395,
      "step": 3723
    },
    {
      "epoch": 3.796126401630989,
      "grad_norm": 0.2242768555879593,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 3724
    },
    {
      "epoch": 3.797145769622834,
      "grad_norm": 0.15229251980781555,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 3725
    },
    {
      "epoch": 3.7981651376146788,
      "grad_norm": 0.14797762036323547,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 3726
    },
    {
      "epoch": 3.799184505606524,
      "grad_norm": 0.15113385021686554,
      "learning_rate": 0.001,
      "loss": 0.2236,
      "step": 3727
    },
    {
      "epoch": 3.800203873598369,
      "grad_norm": 0.2571084499359131,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 3728
    },
    {
      "epoch": 3.801223241590214,
      "grad_norm": 0.16092298924922943,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 3729
    },
    {
      "epoch": 3.802242609582059,
      "grad_norm": 0.15748372673988342,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 3730
    },
    {
      "epoch": 3.803261977573904,
      "grad_norm": 0.1457715779542923,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 3731
    },
    {
      "epoch": 3.8042813455657494,
      "grad_norm": 0.18234354257583618,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 3732
    },
    {
      "epoch": 3.8053007135575942,
      "grad_norm": 0.14483642578125,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 3733
    },
    {
      "epoch": 3.8063200815494396,
      "grad_norm": 0.22306202352046967,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 3734
    },
    {
      "epoch": 3.8073394495412844,
      "grad_norm": 0.14003217220306396,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 3735
    },
    {
      "epoch": 3.8083588175331293,
      "grad_norm": 0.12184552848339081,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 3736
    },
    {
      "epoch": 3.8093781855249746,
      "grad_norm": 0.19597211480140686,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 3737
    },
    {
      "epoch": 3.8103975535168195,
      "grad_norm": 0.12913721799850464,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 3738
    },
    {
      "epoch": 3.8114169215086644,
      "grad_norm": 0.1490873545408249,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 3739
    },
    {
      "epoch": 3.8124362895005097,
      "grad_norm": 0.15609772503376007,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 3740
    },
    {
      "epoch": 3.8134556574923546,
      "grad_norm": 0.2756141424179077,
      "learning_rate": 0.001,
      "loss": 0.2405,
      "step": 3741
    },
    {
      "epoch": 3.8144750254842,
      "grad_norm": 0.21518461406230927,
      "learning_rate": 0.001,
      "loss": 0.2305,
      "step": 3742
    },
    {
      "epoch": 3.815494393476045,
      "grad_norm": 0.14589031040668488,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 3743
    },
    {
      "epoch": 3.81651376146789,
      "grad_norm": 0.2329692393541336,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 3744
    },
    {
      "epoch": 3.817533129459735,
      "grad_norm": 0.12848268449306488,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 3745
    },
    {
      "epoch": 3.81855249745158,
      "grad_norm": 0.26258614659309387,
      "learning_rate": 0.001,
      "loss": 0.2618,
      "step": 3746
    },
    {
      "epoch": 3.819571865443425,
      "grad_norm": 0.2151491940021515,
      "learning_rate": 0.001,
      "loss": 0.2482,
      "step": 3747
    },
    {
      "epoch": 3.82059123343527,
      "grad_norm": 0.21062159538269043,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 3748
    },
    {
      "epoch": 3.821610601427115,
      "grad_norm": 0.1323234885931015,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 3749
    },
    {
      "epoch": 3.8226299694189603,
      "grad_norm": 0.10995931178331375,
      "learning_rate": 0.001,
      "loss": 0.2275,
      "step": 3750
    },
    {
      "epoch": 3.823649337410805,
      "grad_norm": 0.14856775104999542,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 3751
    },
    {
      "epoch": 3.8246687054026505,
      "grad_norm": 0.2321355789899826,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 3752
    },
    {
      "epoch": 3.8256880733944953,
      "grad_norm": 0.14149604737758636,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 3753
    },
    {
      "epoch": 3.8267074413863407,
      "grad_norm": 0.11172563582658768,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 3754
    },
    {
      "epoch": 3.8277268093781855,
      "grad_norm": 0.12259040027856827,
      "learning_rate": 0.001,
      "loss": 0.2355,
      "step": 3755
    },
    {
      "epoch": 3.8287461773700304,
      "grad_norm": 0.3295208811759949,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 3756
    },
    {
      "epoch": 3.8297655453618757,
      "grad_norm": 0.24549053609371185,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 3757
    },
    {
      "epoch": 3.8307849133537206,
      "grad_norm": 0.13597658276557922,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 3758
    },
    {
      "epoch": 3.8318042813455655,
      "grad_norm": 0.22773751616477966,
      "learning_rate": 0.001,
      "loss": 0.2211,
      "step": 3759
    },
    {
      "epoch": 3.832823649337411,
      "grad_norm": 0.1744198501110077,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 3760
    },
    {
      "epoch": 3.8338430173292557,
      "grad_norm": 0.15918882191181183,
      "learning_rate": 0.001,
      "loss": 0.2272,
      "step": 3761
    },
    {
      "epoch": 3.834862385321101,
      "grad_norm": 0.18025857210159302,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 3762
    },
    {
      "epoch": 3.835881753312946,
      "grad_norm": 0.1445017009973526,
      "learning_rate": 0.001,
      "loss": 0.2406,
      "step": 3763
    },
    {
      "epoch": 3.836901121304791,
      "grad_norm": 0.12354947626590729,
      "learning_rate": 0.001,
      "loss": 0.2329,
      "step": 3764
    },
    {
      "epoch": 3.837920489296636,
      "grad_norm": 0.15135148167610168,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 3765
    },
    {
      "epoch": 3.838939857288481,
      "grad_norm": 0.14361047744750977,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 3766
    },
    {
      "epoch": 3.8399592252803263,
      "grad_norm": 0.25335097312927246,
      "learning_rate": 0.001,
      "loss": 0.2456,
      "step": 3767
    },
    {
      "epoch": 3.840978593272171,
      "grad_norm": 0.11462680995464325,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 3768
    },
    {
      "epoch": 3.841997961264016,
      "grad_norm": 0.13787639141082764,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 3769
    },
    {
      "epoch": 3.8430173292558614,
      "grad_norm": 0.1940356343984604,
      "learning_rate": 0.001,
      "loss": 0.2424,
      "step": 3770
    },
    {
      "epoch": 3.8440366972477067,
      "grad_norm": 0.13632650673389435,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 3771
    },
    {
      "epoch": 3.8450560652395516,
      "grad_norm": 0.1672597974538803,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3772
    },
    {
      "epoch": 3.8460754332313964,
      "grad_norm": 0.19236278533935547,
      "learning_rate": 0.001,
      "loss": 0.2627,
      "step": 3773
    },
    {
      "epoch": 3.8470948012232418,
      "grad_norm": 0.20857737958431244,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 3774
    },
    {
      "epoch": 3.8481141692150866,
      "grad_norm": 0.11363199353218079,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 3775
    },
    {
      "epoch": 3.8491335372069315,
      "grad_norm": 0.10838519781827927,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 3776
    },
    {
      "epoch": 3.850152905198777,
      "grad_norm": 0.0979045107960701,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 3777
    },
    {
      "epoch": 3.8511722731906217,
      "grad_norm": 0.13544294238090515,
      "learning_rate": 0.001,
      "loss": 0.2499,
      "step": 3778
    },
    {
      "epoch": 3.8521916411824666,
      "grad_norm": 0.13997027277946472,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 3779
    },
    {
      "epoch": 3.853211009174312,
      "grad_norm": 0.15459555387496948,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 3780
    },
    {
      "epoch": 3.8542303771661572,
      "grad_norm": 0.1289859563112259,
      "learning_rate": 0.001,
      "loss": 0.2305,
      "step": 3781
    },
    {
      "epoch": 3.855249745158002,
      "grad_norm": 0.14082038402557373,
      "learning_rate": 0.001,
      "loss": 0.2275,
      "step": 3782
    },
    {
      "epoch": 3.856269113149847,
      "grad_norm": 0.14946770668029785,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 3783
    },
    {
      "epoch": 3.8572884811416923,
      "grad_norm": 0.12820997834205627,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 3784
    },
    {
      "epoch": 3.858307849133537,
      "grad_norm": 0.13521897792816162,
      "learning_rate": 0.001,
      "loss": 0.2267,
      "step": 3785
    },
    {
      "epoch": 3.859327217125382,
      "grad_norm": 0.1700078547000885,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3786
    },
    {
      "epoch": 3.8603465851172274,
      "grad_norm": 0.1880466789007187,
      "learning_rate": 0.001,
      "loss": 0.2478,
      "step": 3787
    },
    {
      "epoch": 3.8613659531090723,
      "grad_norm": 0.09432600438594818,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 3788
    },
    {
      "epoch": 3.8623853211009176,
      "grad_norm": 0.11903928965330124,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 3789
    },
    {
      "epoch": 3.8634046890927625,
      "grad_norm": 0.14975082874298096,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 3790
    },
    {
      "epoch": 3.864424057084608,
      "grad_norm": 0.1381533145904541,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 3791
    },
    {
      "epoch": 3.8654434250764527,
      "grad_norm": 0.16887426376342773,
      "learning_rate": 0.001,
      "loss": 0.2352,
      "step": 3792
    },
    {
      "epoch": 3.8664627930682975,
      "grad_norm": 0.1283387988805771,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 3793
    },
    {
      "epoch": 3.867482161060143,
      "grad_norm": 0.1951739639043808,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 3794
    },
    {
      "epoch": 3.8685015290519877,
      "grad_norm": 0.1852942556142807,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 3795
    },
    {
      "epoch": 3.8695208970438326,
      "grad_norm": 0.2040710300207138,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 3796
    },
    {
      "epoch": 3.870540265035678,
      "grad_norm": 0.1077825203537941,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 3797
    },
    {
      "epoch": 3.871559633027523,
      "grad_norm": 0.14445199072360992,
      "learning_rate": 0.001,
      "loss": 0.2444,
      "step": 3798
    },
    {
      "epoch": 3.872579001019368,
      "grad_norm": 0.19427965581417084,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 3799
    },
    {
      "epoch": 3.873598369011213,
      "grad_norm": 0.12911204993724823,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 3800
    },
    {
      "epoch": 3.8746177370030583,
      "grad_norm": 0.2131369411945343,
      "learning_rate": 0.001,
      "loss": 0.2417,
      "step": 3801
    },
    {
      "epoch": 3.875637104994903,
      "grad_norm": 0.15929895639419556,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 3802
    },
    {
      "epoch": 3.876656472986748,
      "grad_norm": 0.1046709343791008,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 3803
    },
    {
      "epoch": 3.8776758409785934,
      "grad_norm": 0.18588057160377502,
      "learning_rate": 0.001,
      "loss": 0.2261,
      "step": 3804
    },
    {
      "epoch": 3.8786952089704383,
      "grad_norm": 0.19027511775493622,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 3805
    },
    {
      "epoch": 3.879714576962283,
      "grad_norm": 0.11779669672250748,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 3806
    },
    {
      "epoch": 3.8807339449541285,
      "grad_norm": 0.09451720118522644,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 3807
    },
    {
      "epoch": 3.8817533129459734,
      "grad_norm": 0.14331229031085968,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 3808
    },
    {
      "epoch": 3.8827726809378187,
      "grad_norm": 0.13883055746555328,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 3809
    },
    {
      "epoch": 3.8837920489296636,
      "grad_norm": 0.08331812173128128,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 3810
    },
    {
      "epoch": 3.884811416921509,
      "grad_norm": 0.11105113476514816,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 3811
    },
    {
      "epoch": 3.8858307849133538,
      "grad_norm": 0.1595224142074585,
      "learning_rate": 0.001,
      "loss": 0.2347,
      "step": 3812
    },
    {
      "epoch": 3.8868501529051986,
      "grad_norm": 0.13490621745586395,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 3813
    },
    {
      "epoch": 3.887869520897044,
      "grad_norm": 0.13052226603031158,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 3814
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 0.1503356397151947,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 3815
    },
    {
      "epoch": 3.8899082568807337,
      "grad_norm": 0.1272583156824112,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 3816
    },
    {
      "epoch": 3.890927624872579,
      "grad_norm": 0.11228504031896591,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 3817
    },
    {
      "epoch": 3.891946992864424,
      "grad_norm": 0.31445494294166565,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 3818
    },
    {
      "epoch": 3.8929663608562692,
      "grad_norm": 0.2179778516292572,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 3819
    },
    {
      "epoch": 3.893985728848114,
      "grad_norm": 0.15359856188297272,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 3820
    },
    {
      "epoch": 3.8950050968399594,
      "grad_norm": 0.11454612016677856,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 3821
    },
    {
      "epoch": 3.8960244648318043,
      "grad_norm": 0.15992535650730133,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 3822
    },
    {
      "epoch": 3.897043832823649,
      "grad_norm": 0.2736710011959076,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 3823
    },
    {
      "epoch": 3.8980632008154945,
      "grad_norm": 0.181627094745636,
      "learning_rate": 0.001,
      "loss": 0.2571,
      "step": 3824
    },
    {
      "epoch": 3.8990825688073394,
      "grad_norm": 0.10321377217769623,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 3825
    },
    {
      "epoch": 3.9001019367991843,
      "grad_norm": 0.12350670248270035,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 3826
    },
    {
      "epoch": 3.9011213047910296,
      "grad_norm": 0.16097743809223175,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 3827
    },
    {
      "epoch": 3.9021406727828745,
      "grad_norm": 0.17439289391040802,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 3828
    },
    {
      "epoch": 3.90316004077472,
      "grad_norm": 0.17725254595279694,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3829
    },
    {
      "epoch": 3.9041794087665647,
      "grad_norm": 0.14162902534008026,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 3830
    },
    {
      "epoch": 3.90519877675841,
      "grad_norm": 0.10598769038915634,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 3831
    },
    {
      "epoch": 3.906218144750255,
      "grad_norm": 0.10618652403354645,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 3832
    },
    {
      "epoch": 3.9072375127420997,
      "grad_norm": 0.14474759995937347,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 3833
    },
    {
      "epoch": 3.908256880733945,
      "grad_norm": 0.13834750652313232,
      "learning_rate": 0.001,
      "loss": 0.2241,
      "step": 3834
    },
    {
      "epoch": 3.90927624872579,
      "grad_norm": 0.16406451165676117,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 3835
    },
    {
      "epoch": 3.910295616717635,
      "grad_norm": 0.21018967032432556,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 3836
    },
    {
      "epoch": 3.91131498470948,
      "grad_norm": 0.11793951690196991,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 3837
    },
    {
      "epoch": 3.912334352701325,
      "grad_norm": 0.11236796528100967,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 3838
    },
    {
      "epoch": 3.9133537206931703,
      "grad_norm": 0.0919298604130745,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 3839
    },
    {
      "epoch": 3.914373088685015,
      "grad_norm": 0.20586581528186798,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 3840
    },
    {
      "epoch": 3.9153924566768605,
      "grad_norm": 0.12182139605283737,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 3841
    },
    {
      "epoch": 3.9164118246687054,
      "grad_norm": 0.12512631714344025,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 3842
    },
    {
      "epoch": 3.9174311926605503,
      "grad_norm": 0.1667194664478302,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 3843
    },
    {
      "epoch": 3.9184505606523956,
      "grad_norm": 0.15198910236358643,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 3844
    },
    {
      "epoch": 3.9194699286442405,
      "grad_norm": 0.14050638675689697,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 3845
    },
    {
      "epoch": 3.9204892966360854,
      "grad_norm": 0.11001861095428467,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 3846
    },
    {
      "epoch": 3.9215086646279307,
      "grad_norm": 0.09114697575569153,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 3847
    },
    {
      "epoch": 3.922528032619776,
      "grad_norm": 0.22418493032455444,
      "learning_rate": 0.001,
      "loss": 0.2511,
      "step": 3848
    },
    {
      "epoch": 3.923547400611621,
      "grad_norm": 0.09794660657644272,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 3849
    },
    {
      "epoch": 3.9245667686034658,
      "grad_norm": 0.1767180860042572,
      "learning_rate": 0.001,
      "loss": 0.2771,
      "step": 3850
    },
    {
      "epoch": 3.925586136595311,
      "grad_norm": 0.12451630085706711,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 3851
    },
    {
      "epoch": 3.926605504587156,
      "grad_norm": 0.10232320427894592,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 3852
    },
    {
      "epoch": 3.927624872579001,
      "grad_norm": 0.12321889400482178,
      "learning_rate": 0.001,
      "loss": 0.2488,
      "step": 3853
    },
    {
      "epoch": 3.928644240570846,
      "grad_norm": 0.13354133069515228,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 3854
    },
    {
      "epoch": 3.929663608562691,
      "grad_norm": 0.1452060043811798,
      "learning_rate": 0.001,
      "loss": 0.226,
      "step": 3855
    },
    {
      "epoch": 3.930682976554536,
      "grad_norm": 0.1444496065378189,
      "learning_rate": 0.001,
      "loss": 0.2539,
      "step": 3856
    },
    {
      "epoch": 3.9317023445463812,
      "grad_norm": 0.1382347047328949,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 3857
    },
    {
      "epoch": 3.9327217125382266,
      "grad_norm": 0.1129586473107338,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 3858
    },
    {
      "epoch": 3.9337410805300714,
      "grad_norm": 0.14440754055976868,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 3859
    },
    {
      "epoch": 3.9347604485219163,
      "grad_norm": 0.17162016034126282,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 3860
    },
    {
      "epoch": 3.9357798165137616,
      "grad_norm": 0.1331700086593628,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 3861
    },
    {
      "epoch": 3.9367991845056065,
      "grad_norm": 0.16995030641555786,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 3862
    },
    {
      "epoch": 3.9378185524974514,
      "grad_norm": 0.20964142680168152,
      "learning_rate": 0.001,
      "loss": 0.2573,
      "step": 3863
    },
    {
      "epoch": 3.9388379204892967,
      "grad_norm": 0.1935218721628189,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 3864
    },
    {
      "epoch": 3.9398572884811416,
      "grad_norm": 0.22800561785697937,
      "learning_rate": 0.001,
      "loss": 0.2507,
      "step": 3865
    },
    {
      "epoch": 3.940876656472987,
      "grad_norm": 0.1223677396774292,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 3866
    },
    {
      "epoch": 3.941896024464832,
      "grad_norm": 0.18267476558685303,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 3867
    },
    {
      "epoch": 3.942915392456677,
      "grad_norm": 0.15970556437969208,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 3868
    },
    {
      "epoch": 3.943934760448522,
      "grad_norm": 0.14702343940734863,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 3869
    },
    {
      "epoch": 3.944954128440367,
      "grad_norm": 0.21998532116413116,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 3870
    },
    {
      "epoch": 3.945973496432212,
      "grad_norm": 0.19671951234340668,
      "learning_rate": 0.001,
      "loss": 0.2473,
      "step": 3871
    },
    {
      "epoch": 3.946992864424057,
      "grad_norm": 0.16693732142448425,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 3872
    },
    {
      "epoch": 3.948012232415902,
      "grad_norm": 0.15276603400707245,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 3873
    },
    {
      "epoch": 3.9490316004077473,
      "grad_norm": 0.17728661000728607,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 3874
    },
    {
      "epoch": 3.950050968399592,
      "grad_norm": 0.15683293342590332,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 3875
    },
    {
      "epoch": 3.9510703363914375,
      "grad_norm": 0.12326253950595856,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 3876
    },
    {
      "epoch": 3.9520897043832823,
      "grad_norm": 0.10387523472309113,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 3877
    },
    {
      "epoch": 3.9531090723751277,
      "grad_norm": 0.11646486818790436,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 3878
    },
    {
      "epoch": 3.9541284403669725,
      "grad_norm": 0.1666382998228073,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 3879
    },
    {
      "epoch": 3.9551478083588174,
      "grad_norm": 0.14262212812900543,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 3880
    },
    {
      "epoch": 3.9561671763506627,
      "grad_norm": 0.13723184168338776,
      "learning_rate": 0.001,
      "loss": 0.245,
      "step": 3881
    },
    {
      "epoch": 3.9571865443425076,
      "grad_norm": 0.2268335223197937,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 3882
    },
    {
      "epoch": 3.9582059123343525,
      "grad_norm": 0.11869288980960846,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 3883
    },
    {
      "epoch": 3.959225280326198,
      "grad_norm": 0.22870676219463348,
      "learning_rate": 0.001,
      "loss": 0.228,
      "step": 3884
    },
    {
      "epoch": 3.9602446483180427,
      "grad_norm": 0.15019972622394562,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 3885
    },
    {
      "epoch": 3.961264016309888,
      "grad_norm": 0.18710216879844666,
      "learning_rate": 0.001,
      "loss": 0.2457,
      "step": 3886
    },
    {
      "epoch": 3.962283384301733,
      "grad_norm": 0.23469921946525574,
      "learning_rate": 0.001,
      "loss": 0.228,
      "step": 3887
    },
    {
      "epoch": 3.963302752293578,
      "grad_norm": 0.12174499034881592,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 3888
    },
    {
      "epoch": 3.964322120285423,
      "grad_norm": 0.1209750697016716,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 3889
    },
    {
      "epoch": 3.965341488277268,
      "grad_norm": 0.09290870279073715,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 3890
    },
    {
      "epoch": 3.9663608562691133,
      "grad_norm": 0.13934096693992615,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 3891
    },
    {
      "epoch": 3.967380224260958,
      "grad_norm": 0.15583530068397522,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 3892
    },
    {
      "epoch": 3.968399592252803,
      "grad_norm": 0.15100812911987305,
      "learning_rate": 0.001,
      "loss": 0.2184,
      "step": 3893
    },
    {
      "epoch": 3.9694189602446484,
      "grad_norm": 0.12908536195755005,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 3894
    },
    {
      "epoch": 3.9704383282364932,
      "grad_norm": 0.19282971322536469,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 3895
    },
    {
      "epoch": 3.9714576962283386,
      "grad_norm": 0.11009334772825241,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 3896
    },
    {
      "epoch": 3.9724770642201834,
      "grad_norm": 0.20260275900363922,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 3897
    },
    {
      "epoch": 3.9734964322120288,
      "grad_norm": 0.1669013649225235,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 3898
    },
    {
      "epoch": 3.9745158002038736,
      "grad_norm": 0.20719581842422485,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 3899
    },
    {
      "epoch": 3.9755351681957185,
      "grad_norm": 0.22192063927650452,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 3900
    },
    {
      "epoch": 3.976554536187564,
      "grad_norm": 0.12009426951408386,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 3901
    },
    {
      "epoch": 3.9775739041794087,
      "grad_norm": 0.1049697995185852,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 3902
    },
    {
      "epoch": 3.9785932721712536,
      "grad_norm": 0.22384488582611084,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 3903
    },
    {
      "epoch": 3.979612640163099,
      "grad_norm": 0.16625292599201202,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3904
    },
    {
      "epoch": 3.980632008154944,
      "grad_norm": 0.1840304732322693,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 3905
    },
    {
      "epoch": 3.981651376146789,
      "grad_norm": 0.11232911795377731,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 3906
    },
    {
      "epoch": 3.982670744138634,
      "grad_norm": 0.1447635293006897,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 3907
    },
    {
      "epoch": 3.9836901121304793,
      "grad_norm": 0.18964211642742157,
      "learning_rate": 0.001,
      "loss": 0.2428,
      "step": 3908
    },
    {
      "epoch": 3.984709480122324,
      "grad_norm": 0.20263051986694336,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 3909
    },
    {
      "epoch": 3.985728848114169,
      "grad_norm": 0.21813957393169403,
      "learning_rate": 0.001,
      "loss": 0.2399,
      "step": 3910
    },
    {
      "epoch": 3.9867482161060144,
      "grad_norm": 0.17496171593666077,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 3911
    },
    {
      "epoch": 3.9877675840978593,
      "grad_norm": 0.15636518597602844,
      "learning_rate": 0.001,
      "loss": 0.2247,
      "step": 3912
    },
    {
      "epoch": 3.988786952089704,
      "grad_norm": 0.1822996437549591,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 3913
    },
    {
      "epoch": 3.9898063200815495,
      "grad_norm": 0.21309034526348114,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 3914
    },
    {
      "epoch": 3.9908256880733948,
      "grad_norm": 0.15547698736190796,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 3915
    },
    {
      "epoch": 3.9918450560652396,
      "grad_norm": 0.15560932457447052,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 3916
    },
    {
      "epoch": 3.9928644240570845,
      "grad_norm": 0.13667689263820648,
      "learning_rate": 0.001,
      "loss": 0.23,
      "step": 3917
    },
    {
      "epoch": 3.99388379204893,
      "grad_norm": 0.2322312891483307,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 3918
    },
    {
      "epoch": 3.9949031600407747,
      "grad_norm": 0.1714596152305603,
      "learning_rate": 0.001,
      "loss": 0.2488,
      "step": 3919
    },
    {
      "epoch": 3.9959225280326196,
      "grad_norm": 0.18728351593017578,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 3920
    },
    {
      "epoch": 3.996941896024465,
      "grad_norm": 0.18162330985069275,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 3921
    },
    {
      "epoch": 3.99796126401631,
      "grad_norm": 0.12782824039459229,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 3922
    },
    {
      "epoch": 3.9989806320081547,
      "grad_norm": 0.17843082547187805,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 3923
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.08307531476020813,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 3924
    },
    {
      "epoch": 4.0,
      "eval_-_f1-score": 0.15384615384615385,
      "eval_-_precision": 0.5,
      "eval_-_recall": 0.09090909090909091,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9524780746481746,
      "eval_<_precision": 0.9451528030763003,
      "eval_<_recall": 0.959917780061665,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.7388535031847133,
      "eval_=_precision": 0.7802690582959642,
      "eval_=_recall": 0.7016129032258065,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9526657729194596,
      "eval_>_precision": 0.9559188741721855,
      "eval_>_recall": 0.9494347379239465,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9465,
      "eval_loss": 0.12119296938180923,
      "eval_macro_avg_f1-score": 0.6994608761496253,
      "eval_macro_avg_precision": 0.7953351838861125,
      "eval_macro_avg_recall": 0.6754686280301272,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.7941,
      "eval_samples_per_second": 781.61,
      "eval_steps_per_second": 3.126,
      "eval_weighted_avg_f1-score": 0.9455145102590963,
      "eval_weighted_avg_precision": 0.9453220436271283,
      "eval_weighted_avg_recall": 0.9465,
      "eval_weighted_avg_support": 10000.0,
      "step": 3924
    },
    {
      "epoch": 4.001019367991845,
      "grad_norm": 0.10022300481796265,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 3925
    },
    {
      "epoch": 4.00203873598369,
      "grad_norm": 0.11677490919828415,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 3926
    },
    {
      "epoch": 4.003058103975535,
      "grad_norm": 0.16093865036964417,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 3927
    },
    {
      "epoch": 4.00407747196738,
      "grad_norm": 0.11756725609302521,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 3928
    },
    {
      "epoch": 4.005096839959226,
      "grad_norm": 0.13716238737106323,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 3929
    },
    {
      "epoch": 4.00611620795107,
      "grad_norm": 0.17065119743347168,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 3930
    },
    {
      "epoch": 4.0071355759429155,
      "grad_norm": 0.16736125946044922,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 3931
    },
    {
      "epoch": 4.008154943934761,
      "grad_norm": 0.1380496770143509,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 3932
    },
    {
      "epoch": 4.009174311926605,
      "grad_norm": 0.12869441509246826,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 3933
    },
    {
      "epoch": 4.0101936799184505,
      "grad_norm": 0.15597693622112274,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 3934
    },
    {
      "epoch": 4.011213047910296,
      "grad_norm": 0.14976683259010315,
      "learning_rate": 0.001,
      "loss": 0.2244,
      "step": 3935
    },
    {
      "epoch": 4.01223241590214,
      "grad_norm": 0.1501649022102356,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 3936
    },
    {
      "epoch": 4.013251783893986,
      "grad_norm": 0.09895145148038864,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 3937
    },
    {
      "epoch": 4.014271151885831,
      "grad_norm": 0.24733272194862366,
      "learning_rate": 0.001,
      "loss": 0.251,
      "step": 3938
    },
    {
      "epoch": 4.015290519877676,
      "grad_norm": 0.138129323720932,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 3939
    },
    {
      "epoch": 4.016309887869521,
      "grad_norm": 0.13629840314388275,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 3940
    },
    {
      "epoch": 4.017329255861366,
      "grad_norm": 0.17656348645687103,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 3941
    },
    {
      "epoch": 4.018348623853211,
      "grad_norm": 0.1991584599018097,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 3942
    },
    {
      "epoch": 4.019367991845056,
      "grad_norm": 0.1842871457338333,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 3943
    },
    {
      "epoch": 4.020387359836901,
      "grad_norm": 0.17366564273834229,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 3944
    },
    {
      "epoch": 4.021406727828746,
      "grad_norm": 0.16600605845451355,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 3945
    },
    {
      "epoch": 4.022426095820591,
      "grad_norm": 0.2114391177892685,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 3946
    },
    {
      "epoch": 4.023445463812436,
      "grad_norm": 0.14014999568462372,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 3947
    },
    {
      "epoch": 4.0244648318042815,
      "grad_norm": 0.13795724511146545,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 3948
    },
    {
      "epoch": 4.025484199796127,
      "grad_norm": 0.1589381843805313,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 3949
    },
    {
      "epoch": 4.026503567787971,
      "grad_norm": 0.12871293723583221,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 3950
    },
    {
      "epoch": 4.027522935779817,
      "grad_norm": 0.14295874536037445,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 3951
    },
    {
      "epoch": 4.028542303771662,
      "grad_norm": 0.16318848729133606,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 3952
    },
    {
      "epoch": 4.029561671763506,
      "grad_norm": 0.13047409057617188,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 3953
    },
    {
      "epoch": 4.030581039755352,
      "grad_norm": 0.1507364809513092,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 3954
    },
    {
      "epoch": 4.031600407747197,
      "grad_norm": 0.17434261739253998,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 3955
    },
    {
      "epoch": 4.032619775739041,
      "grad_norm": 0.1381140500307083,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 3956
    },
    {
      "epoch": 4.033639143730887,
      "grad_norm": 0.1788080334663391,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 3957
    },
    {
      "epoch": 4.034658511722732,
      "grad_norm": 0.14170749485492706,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 3958
    },
    {
      "epoch": 4.035677879714577,
      "grad_norm": 0.09098667651414871,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 3959
    },
    {
      "epoch": 4.036697247706422,
      "grad_norm": 0.1644839197397232,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 3960
    },
    {
      "epoch": 4.037716615698267,
      "grad_norm": 0.09709524363279343,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 3961
    },
    {
      "epoch": 4.038735983690112,
      "grad_norm": 0.10998763889074326,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 3962
    },
    {
      "epoch": 4.039755351681957,
      "grad_norm": 0.21126563847064972,
      "learning_rate": 0.001,
      "loss": 0.2438,
      "step": 3963
    },
    {
      "epoch": 4.040774719673802,
      "grad_norm": 0.21871165931224823,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 3964
    },
    {
      "epoch": 4.0417940876656475,
      "grad_norm": 0.21586370468139648,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 3965
    },
    {
      "epoch": 4.042813455657492,
      "grad_norm": 0.11534985154867172,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 3966
    },
    {
      "epoch": 4.043832823649337,
      "grad_norm": 0.11729810386896133,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 3967
    },
    {
      "epoch": 4.044852191641183,
      "grad_norm": 0.16909950971603394,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 3968
    },
    {
      "epoch": 4.045871559633028,
      "grad_norm": 0.1421104073524475,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 3969
    },
    {
      "epoch": 4.046890927624872,
      "grad_norm": 0.11689888685941696,
      "learning_rate": 0.001,
      "loss": 0.2397,
      "step": 3970
    },
    {
      "epoch": 4.047910295616718,
      "grad_norm": 0.10120183229446411,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 3971
    },
    {
      "epoch": 4.048929663608563,
      "grad_norm": 0.12072142958641052,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 3972
    },
    {
      "epoch": 4.049949031600407,
      "grad_norm": 0.09464406967163086,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 3973
    },
    {
      "epoch": 4.050968399592253,
      "grad_norm": 0.13749155402183533,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 3974
    },
    {
      "epoch": 4.051987767584098,
      "grad_norm": 0.14510299265384674,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 3975
    },
    {
      "epoch": 4.0530071355759425,
      "grad_norm": 0.19232331216335297,
      "learning_rate": 0.001,
      "loss": 0.2339,
      "step": 3976
    },
    {
      "epoch": 4.054026503567788,
      "grad_norm": 0.18446706235408783,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 3977
    },
    {
      "epoch": 4.055045871559633,
      "grad_norm": 0.1312820464372635,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 3978
    },
    {
      "epoch": 4.0560652395514785,
      "grad_norm": 0.12723499536514282,
      "learning_rate": 0.001,
      "loss": 0.2599,
      "step": 3979
    },
    {
      "epoch": 4.057084607543323,
      "grad_norm": 0.11181674152612686,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 3980
    },
    {
      "epoch": 4.058103975535168,
      "grad_norm": 0.17490288615226746,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 3981
    },
    {
      "epoch": 4.0591233435270135,
      "grad_norm": 0.13934426009655,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 3982
    },
    {
      "epoch": 4.060142711518858,
      "grad_norm": 0.1250624805688858,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 3983
    },
    {
      "epoch": 4.061162079510703,
      "grad_norm": 0.1347067654132843,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 3984
    },
    {
      "epoch": 4.062181447502549,
      "grad_norm": 0.12824290990829468,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 3985
    },
    {
      "epoch": 4.063200815494393,
      "grad_norm": 0.13374830782413483,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 3986
    },
    {
      "epoch": 4.064220183486238,
      "grad_norm": 0.1090322732925415,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 3987
    },
    {
      "epoch": 4.065239551478084,
      "grad_norm": 0.1778576672077179,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 3988
    },
    {
      "epoch": 4.066258919469929,
      "grad_norm": 0.1463635265827179,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 3989
    },
    {
      "epoch": 4.0672782874617734,
      "grad_norm": 0.264620840549469,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 3990
    },
    {
      "epoch": 4.068297655453619,
      "grad_norm": 0.10203387588262558,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 3991
    },
    {
      "epoch": 4.069317023445464,
      "grad_norm": 0.24797581136226654,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 3992
    },
    {
      "epoch": 4.0703363914373085,
      "grad_norm": 0.17766296863555908,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 3993
    },
    {
      "epoch": 4.071355759429154,
      "grad_norm": 0.17370125651359558,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 3994
    },
    {
      "epoch": 4.072375127420999,
      "grad_norm": 0.12764984369277954,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 3995
    },
    {
      "epoch": 4.073394495412844,
      "grad_norm": 0.1627851128578186,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 3996
    },
    {
      "epoch": 4.074413863404689,
      "grad_norm": 0.1833115667104721,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 3997
    },
    {
      "epoch": 4.075433231396534,
      "grad_norm": 0.24222132563591003,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 3998
    },
    {
      "epoch": 4.07645259938838,
      "grad_norm": 0.18808113038539886,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 3999
    },
    {
      "epoch": 4.077471967380224,
      "grad_norm": 0.14497211575508118,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 4000
    },
    {
      "epoch": 4.078491335372069,
      "grad_norm": 0.10927165299654007,
      "learning_rate": 0.001,
      "loss": 0.2184,
      "step": 4001
    },
    {
      "epoch": 4.079510703363915,
      "grad_norm": 0.19723010063171387,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 4002
    },
    {
      "epoch": 4.080530071355759,
      "grad_norm": 0.17526568472385406,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 4003
    },
    {
      "epoch": 4.081549439347604,
      "grad_norm": 0.16085810959339142,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 4004
    },
    {
      "epoch": 4.08256880733945,
      "grad_norm": 0.1323082149028778,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 4005
    },
    {
      "epoch": 4.083588175331295,
      "grad_norm": 0.14917327463626862,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 4006
    },
    {
      "epoch": 4.0846075433231395,
      "grad_norm": 0.1380712240934372,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 4007
    },
    {
      "epoch": 4.085626911314985,
      "grad_norm": 0.14386247098445892,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4008
    },
    {
      "epoch": 4.08664627930683,
      "grad_norm": 0.21296711266040802,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 4009
    },
    {
      "epoch": 4.0876656472986745,
      "grad_norm": 0.11565729975700378,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 4010
    },
    {
      "epoch": 4.08868501529052,
      "grad_norm": 0.14061352610588074,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 4011
    },
    {
      "epoch": 4.089704383282365,
      "grad_norm": 0.1054181382060051,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 4012
    },
    {
      "epoch": 4.09072375127421,
      "grad_norm": 0.11780543625354767,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 4013
    },
    {
      "epoch": 4.091743119266055,
      "grad_norm": 0.12054745852947235,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 4014
    },
    {
      "epoch": 4.0927624872579,
      "grad_norm": 0.27054256200790405,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 4015
    },
    {
      "epoch": 4.093781855249746,
      "grad_norm": 0.16296261548995972,
      "learning_rate": 0.001,
      "loss": 0.2391,
      "step": 4016
    },
    {
      "epoch": 4.09480122324159,
      "grad_norm": 0.10045948624610901,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 4017
    },
    {
      "epoch": 4.095820591233435,
      "grad_norm": 0.19093845784664154,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 4018
    },
    {
      "epoch": 4.096839959225281,
      "grad_norm": 0.2026439756155014,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 4019
    },
    {
      "epoch": 4.097859327217125,
      "grad_norm": 0.19533242285251617,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 4020
    },
    {
      "epoch": 4.09887869520897,
      "grad_norm": 0.14865806698799133,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 4021
    },
    {
      "epoch": 4.099898063200816,
      "grad_norm": 0.14875881373882294,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 4022
    },
    {
      "epoch": 4.10091743119266,
      "grad_norm": 0.12273979187011719,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 4023
    },
    {
      "epoch": 4.1019367991845055,
      "grad_norm": 0.13996395468711853,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4024
    },
    {
      "epoch": 4.102956167176351,
      "grad_norm": 0.1728629618883133,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 4025
    },
    {
      "epoch": 4.103975535168196,
      "grad_norm": 0.13816209137439728,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 4026
    },
    {
      "epoch": 4.104994903160041,
      "grad_norm": 0.0905497819185257,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 4027
    },
    {
      "epoch": 4.106014271151886,
      "grad_norm": 0.1459243893623352,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 4028
    },
    {
      "epoch": 4.107033639143731,
      "grad_norm": 0.14223024249076843,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 4029
    },
    {
      "epoch": 4.108053007135576,
      "grad_norm": 0.1702190786600113,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 4030
    },
    {
      "epoch": 4.109072375127421,
      "grad_norm": 0.13415995240211487,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 4031
    },
    {
      "epoch": 4.110091743119266,
      "grad_norm": 0.12707988917827606,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4032
    },
    {
      "epoch": 4.111111111111111,
      "grad_norm": 0.09904211014509201,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 4033
    },
    {
      "epoch": 4.112130479102956,
      "grad_norm": 0.153020441532135,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 4034
    },
    {
      "epoch": 4.113149847094801,
      "grad_norm": 0.10725739598274231,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 4035
    },
    {
      "epoch": 4.114169215086647,
      "grad_norm": 0.12853561341762543,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4036
    },
    {
      "epoch": 4.115188583078491,
      "grad_norm": 0.15503495931625366,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 4037
    },
    {
      "epoch": 4.116207951070336,
      "grad_norm": 0.12829269468784332,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 4038
    },
    {
      "epoch": 4.117227319062182,
      "grad_norm": 0.1689218431711197,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 4039
    },
    {
      "epoch": 4.118246687054026,
      "grad_norm": 0.1457180678844452,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 4040
    },
    {
      "epoch": 4.1192660550458715,
      "grad_norm": 0.18336494266986847,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 4041
    },
    {
      "epoch": 4.120285423037717,
      "grad_norm": 0.27322351932525635,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 4042
    },
    {
      "epoch": 4.121304791029561,
      "grad_norm": 0.32837074995040894,
      "learning_rate": 0.001,
      "loss": 0.2441,
      "step": 4043
    },
    {
      "epoch": 4.122324159021407,
      "grad_norm": 0.13187888264656067,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 4044
    },
    {
      "epoch": 4.123343527013252,
      "grad_norm": 0.11868581175804138,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 4045
    },
    {
      "epoch": 4.124362895005097,
      "grad_norm": 0.15671217441558838,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 4046
    },
    {
      "epoch": 4.125382262996942,
      "grad_norm": 0.14529569447040558,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 4047
    },
    {
      "epoch": 4.126401630988787,
      "grad_norm": 0.1066957637667656,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 4048
    },
    {
      "epoch": 4.127420998980632,
      "grad_norm": 0.14778298139572144,
      "learning_rate": 0.001,
      "loss": 0.244,
      "step": 4049
    },
    {
      "epoch": 4.128440366972477,
      "grad_norm": 0.11774666607379913,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 4050
    },
    {
      "epoch": 4.129459734964322,
      "grad_norm": 0.1705942451953888,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 4051
    },
    {
      "epoch": 4.130479102956167,
      "grad_norm": 0.10637205839157104,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 4052
    },
    {
      "epoch": 4.131498470948012,
      "grad_norm": 0.17569836974143982,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 4053
    },
    {
      "epoch": 4.132517838939857,
      "grad_norm": 0.18584750592708588,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 4054
    },
    {
      "epoch": 4.1335372069317025,
      "grad_norm": 0.12008702009916306,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 4055
    },
    {
      "epoch": 4.134556574923548,
      "grad_norm": 0.1379805952310562,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4056
    },
    {
      "epoch": 4.135575942915392,
      "grad_norm": 0.16100218892097473,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 4057
    },
    {
      "epoch": 4.1365953109072375,
      "grad_norm": 0.1631121188402176,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 4058
    },
    {
      "epoch": 4.137614678899083,
      "grad_norm": 0.15765705704689026,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 4059
    },
    {
      "epoch": 4.138634046890927,
      "grad_norm": 0.12522070109844208,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 4060
    },
    {
      "epoch": 4.139653414882773,
      "grad_norm": 0.10991719365119934,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 4061
    },
    {
      "epoch": 4.140672782874618,
      "grad_norm": 0.22513394057750702,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 4062
    },
    {
      "epoch": 4.141692150866462,
      "grad_norm": 0.1336345225572586,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 4063
    },
    {
      "epoch": 4.142711518858308,
      "grad_norm": 0.17076033353805542,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 4064
    },
    {
      "epoch": 4.143730886850153,
      "grad_norm": 0.1644158512353897,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 4065
    },
    {
      "epoch": 4.144750254841998,
      "grad_norm": 0.23460954427719116,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 4066
    },
    {
      "epoch": 4.145769622833843,
      "grad_norm": 0.17086569964885712,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 4067
    },
    {
      "epoch": 4.146788990825688,
      "grad_norm": 0.18345142900943756,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 4068
    },
    {
      "epoch": 4.147808358817533,
      "grad_norm": 0.10381167382001877,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4069
    },
    {
      "epoch": 4.148827726809378,
      "grad_norm": 0.10141872614622116,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 4070
    },
    {
      "epoch": 4.149847094801223,
      "grad_norm": 0.10691564530134201,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 4071
    },
    {
      "epoch": 4.1508664627930685,
      "grad_norm": 0.1620587259531021,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 4072
    },
    {
      "epoch": 4.151885830784913,
      "grad_norm": 0.14328055083751678,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 4073
    },
    {
      "epoch": 4.152905198776758,
      "grad_norm": 0.1737903505563736,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 4074
    },
    {
      "epoch": 4.1539245667686036,
      "grad_norm": 0.1709883213043213,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 4075
    },
    {
      "epoch": 4.154943934760449,
      "grad_norm": 0.21734872460365295,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 4076
    },
    {
      "epoch": 4.155963302752293,
      "grad_norm": 0.17431125044822693,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 4077
    },
    {
      "epoch": 4.156982670744139,
      "grad_norm": 0.09106384217739105,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 4078
    },
    {
      "epoch": 4.158002038735984,
      "grad_norm": 0.1733318716287613,
      "learning_rate": 0.001,
      "loss": 0.2396,
      "step": 4079
    },
    {
      "epoch": 4.159021406727828,
      "grad_norm": 0.19523300230503082,
      "learning_rate": 0.001,
      "loss": 0.2247,
      "step": 4080
    },
    {
      "epoch": 4.160040774719674,
      "grad_norm": 0.1754869669675827,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 4081
    },
    {
      "epoch": 4.161060142711519,
      "grad_norm": 0.12128955125808716,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 4082
    },
    {
      "epoch": 4.162079510703364,
      "grad_norm": 0.12493090331554413,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 4083
    },
    {
      "epoch": 4.163098878695209,
      "grad_norm": 0.10575615614652634,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 4084
    },
    {
      "epoch": 4.164118246687054,
      "grad_norm": 0.13015921413898468,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4085
    },
    {
      "epoch": 4.165137614678899,
      "grad_norm": 0.20450930297374725,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 4086
    },
    {
      "epoch": 4.166156982670744,
      "grad_norm": 0.17216184735298157,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 4087
    },
    {
      "epoch": 4.167176350662589,
      "grad_norm": 0.1791096031665802,
      "learning_rate": 0.001,
      "loss": 0.2429,
      "step": 4088
    },
    {
      "epoch": 4.1681957186544345,
      "grad_norm": 0.10007571429014206,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 4089
    },
    {
      "epoch": 4.169215086646279,
      "grad_norm": 0.12543636560440063,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 4090
    },
    {
      "epoch": 4.170234454638124,
      "grad_norm": 0.13734224438667297,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 4091
    },
    {
      "epoch": 4.17125382262997,
      "grad_norm": 0.11334237456321716,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 4092
    },
    {
      "epoch": 4.172273190621815,
      "grad_norm": 0.19012030959129333,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 4093
    },
    {
      "epoch": 4.173292558613659,
      "grad_norm": 0.09730809181928635,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 4094
    },
    {
      "epoch": 4.174311926605505,
      "grad_norm": 0.18822577595710754,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 4095
    },
    {
      "epoch": 4.17533129459735,
      "grad_norm": 0.17237825691699982,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 4096
    },
    {
      "epoch": 4.176350662589194,
      "grad_norm": 0.23656065762043,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 4097
    },
    {
      "epoch": 4.17737003058104,
      "grad_norm": 0.12542183697223663,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 4098
    },
    {
      "epoch": 4.178389398572885,
      "grad_norm": 0.13849760591983795,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 4099
    },
    {
      "epoch": 4.1794087665647295,
      "grad_norm": 0.1938425898551941,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 4100
    },
    {
      "epoch": 4.180428134556575,
      "grad_norm": 0.18887518346309662,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 4101
    },
    {
      "epoch": 4.18144750254842,
      "grad_norm": 0.3389446437358856,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 4102
    },
    {
      "epoch": 4.1824668705402654,
      "grad_norm": 0.10576587170362473,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 4103
    },
    {
      "epoch": 4.18348623853211,
      "grad_norm": 0.15064382553100586,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 4104
    },
    {
      "epoch": 4.184505606523955,
      "grad_norm": 0.12058357149362564,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4105
    },
    {
      "epoch": 4.1855249745158005,
      "grad_norm": 0.17427314817905426,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 4106
    },
    {
      "epoch": 4.186544342507645,
      "grad_norm": 0.16363181173801422,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4107
    },
    {
      "epoch": 4.18756371049949,
      "grad_norm": 0.11568042635917664,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 4108
    },
    {
      "epoch": 4.188583078491336,
      "grad_norm": 0.27756211161613464,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 4109
    },
    {
      "epoch": 4.18960244648318,
      "grad_norm": 0.13446621596813202,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 4110
    },
    {
      "epoch": 4.190621814475025,
      "grad_norm": 0.15551799535751343,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 4111
    },
    {
      "epoch": 4.191641182466871,
      "grad_norm": 0.16362091898918152,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 4112
    },
    {
      "epoch": 4.192660550458716,
      "grad_norm": 0.1441546231508255,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 4113
    },
    {
      "epoch": 4.19367991845056,
      "grad_norm": 0.21891720592975616,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 4114
    },
    {
      "epoch": 4.194699286442406,
      "grad_norm": 0.16003306210041046,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 4115
    },
    {
      "epoch": 4.195718654434251,
      "grad_norm": 0.177561953663826,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 4116
    },
    {
      "epoch": 4.1967380224260955,
      "grad_norm": 0.17582076787948608,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 4117
    },
    {
      "epoch": 4.197757390417941,
      "grad_norm": 0.1506395936012268,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 4118
    },
    {
      "epoch": 4.198776758409786,
      "grad_norm": 0.12659236788749695,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 4119
    },
    {
      "epoch": 4.199796126401631,
      "grad_norm": 0.1807934045791626,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 4120
    },
    {
      "epoch": 4.200815494393476,
      "grad_norm": 0.2111937701702118,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 4121
    },
    {
      "epoch": 4.201834862385321,
      "grad_norm": 0.20140162110328674,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 4122
    },
    {
      "epoch": 4.2028542303771665,
      "grad_norm": 0.09966129809617996,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 4123
    },
    {
      "epoch": 4.203873598369011,
      "grad_norm": 0.08208855986595154,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 4124
    },
    {
      "epoch": 4.204892966360856,
      "grad_norm": 0.12518572807312012,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 4125
    },
    {
      "epoch": 4.205912334352702,
      "grad_norm": 0.19611570239067078,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 4126
    },
    {
      "epoch": 4.206931702344546,
      "grad_norm": 0.12690597772598267,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 4127
    },
    {
      "epoch": 4.207951070336391,
      "grad_norm": 0.1319122612476349,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 4128
    },
    {
      "epoch": 4.208970438328237,
      "grad_norm": 0.12079212814569473,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 4129
    },
    {
      "epoch": 4.209989806320081,
      "grad_norm": 0.12033641338348389,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 4130
    },
    {
      "epoch": 4.2110091743119265,
      "grad_norm": 0.14914487302303314,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 4131
    },
    {
      "epoch": 4.212028542303772,
      "grad_norm": 0.15367871522903442,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 4132
    },
    {
      "epoch": 4.213047910295617,
      "grad_norm": 0.17584973573684692,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 4133
    },
    {
      "epoch": 4.2140672782874615,
      "grad_norm": 0.11735060065984726,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 4134
    },
    {
      "epoch": 4.215086646279307,
      "grad_norm": 0.13736917078495026,
      "learning_rate": 0.001,
      "loss": 0.2389,
      "step": 4135
    },
    {
      "epoch": 4.216106014271152,
      "grad_norm": 0.13943518698215485,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 4136
    },
    {
      "epoch": 4.217125382262997,
      "grad_norm": 0.14602351188659668,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 4137
    },
    {
      "epoch": 4.218144750254842,
      "grad_norm": 0.13436268270015717,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4138
    },
    {
      "epoch": 4.219164118246687,
      "grad_norm": 0.18856997787952423,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 4139
    },
    {
      "epoch": 4.220183486238533,
      "grad_norm": 0.12343691289424896,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 4140
    },
    {
      "epoch": 4.221202854230377,
      "grad_norm": 0.12611015141010284,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 4141
    },
    {
      "epoch": 4.222222222222222,
      "grad_norm": 0.12734757363796234,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 4142
    },
    {
      "epoch": 4.223241590214068,
      "grad_norm": 0.15065020322799683,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 4143
    },
    {
      "epoch": 4.224260958205912,
      "grad_norm": 0.1000559851527214,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 4144
    },
    {
      "epoch": 4.225280326197757,
      "grad_norm": 0.13761940598487854,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 4145
    },
    {
      "epoch": 4.226299694189603,
      "grad_norm": 0.13961480557918549,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 4146
    },
    {
      "epoch": 4.227319062181447,
      "grad_norm": 0.1451214998960495,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 4147
    },
    {
      "epoch": 4.2283384301732925,
      "grad_norm": 0.1696588397026062,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 4148
    },
    {
      "epoch": 4.229357798165138,
      "grad_norm": 0.1771300733089447,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4149
    },
    {
      "epoch": 4.230377166156982,
      "grad_norm": 0.15314139425754547,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 4150
    },
    {
      "epoch": 4.2313965341488275,
      "grad_norm": 0.15549516677856445,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 4151
    },
    {
      "epoch": 4.232415902140673,
      "grad_norm": 0.23767104744911194,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 4152
    },
    {
      "epoch": 4.233435270132518,
      "grad_norm": 0.16992895305156708,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 4153
    },
    {
      "epoch": 4.234454638124363,
      "grad_norm": 0.11763226985931396,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 4154
    },
    {
      "epoch": 4.235474006116208,
      "grad_norm": 0.09954492747783661,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 4155
    },
    {
      "epoch": 4.236493374108053,
      "grad_norm": 0.11957480758428574,
      "learning_rate": 0.001,
      "loss": 0.2335,
      "step": 4156
    },
    {
      "epoch": 4.237512742099898,
      "grad_norm": 0.12935557961463928,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 4157
    },
    {
      "epoch": 4.238532110091743,
      "grad_norm": 0.2236524224281311,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 4158
    },
    {
      "epoch": 4.239551478083588,
      "grad_norm": 0.17180554568767548,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 4159
    },
    {
      "epoch": 4.240570846075434,
      "grad_norm": 0.12338614463806152,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 4160
    },
    {
      "epoch": 4.241590214067278,
      "grad_norm": 0.1293952316045761,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4161
    },
    {
      "epoch": 4.242609582059123,
      "grad_norm": 0.15755702555179596,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 4162
    },
    {
      "epoch": 4.243628950050969,
      "grad_norm": 0.12488900870084763,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 4163
    },
    {
      "epoch": 4.244648318042813,
      "grad_norm": 0.1360616832971573,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 4164
    },
    {
      "epoch": 4.2456676860346585,
      "grad_norm": 0.10195843875408173,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 4165
    },
    {
      "epoch": 4.246687054026504,
      "grad_norm": 0.13346360623836517,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4166
    },
    {
      "epoch": 4.247706422018348,
      "grad_norm": 0.10768691450357437,
      "learning_rate": 0.001,
      "loss": 0.2368,
      "step": 4167
    },
    {
      "epoch": 4.248725790010194,
      "grad_norm": 0.15879128873348236,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 4168
    },
    {
      "epoch": 4.249745158002039,
      "grad_norm": 0.11637900024652481,
      "learning_rate": 0.001,
      "loss": 0.2445,
      "step": 4169
    },
    {
      "epoch": 4.250764525993883,
      "grad_norm": 0.09545458853244781,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 4170
    },
    {
      "epoch": 4.251783893985729,
      "grad_norm": 0.10000696778297424,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 4171
    },
    {
      "epoch": 4.252803261977574,
      "grad_norm": 0.10088308155536652,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 4172
    },
    {
      "epoch": 4.253822629969419,
      "grad_norm": 0.0818859189748764,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 4173
    },
    {
      "epoch": 4.254841997961264,
      "grad_norm": 0.11894924938678741,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 4174
    },
    {
      "epoch": 4.255861365953109,
      "grad_norm": 0.17637048661708832,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 4175
    },
    {
      "epoch": 4.256880733944954,
      "grad_norm": 0.13792921602725983,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 4176
    },
    {
      "epoch": 4.257900101936799,
      "grad_norm": 0.07134654372930527,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 4177
    },
    {
      "epoch": 4.258919469928644,
      "grad_norm": 0.11937620490789413,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 4178
    },
    {
      "epoch": 4.259938837920489,
      "grad_norm": 0.13909825682640076,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 4179
    },
    {
      "epoch": 4.260958205912335,
      "grad_norm": 0.19082778692245483,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 4180
    },
    {
      "epoch": 4.261977573904179,
      "grad_norm": 0.11120382696390152,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 4181
    },
    {
      "epoch": 4.2629969418960245,
      "grad_norm": 0.21203173696994781,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 4182
    },
    {
      "epoch": 4.26401630988787,
      "grad_norm": 0.11957185715436935,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 4183
    },
    {
      "epoch": 4.265035677879714,
      "grad_norm": 0.2225130945444107,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 4184
    },
    {
      "epoch": 4.26605504587156,
      "grad_norm": 0.14546291530132294,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 4185
    },
    {
      "epoch": 4.267074413863405,
      "grad_norm": 0.155924454331398,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 4186
    },
    {
      "epoch": 4.268093781855249,
      "grad_norm": 0.12334950268268585,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 4187
    },
    {
      "epoch": 4.269113149847095,
      "grad_norm": 0.14619822800159454,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 4188
    },
    {
      "epoch": 4.27013251783894,
      "grad_norm": 0.11744896322488785,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 4189
    },
    {
      "epoch": 4.271151885830785,
      "grad_norm": 0.1562509387731552,
      "learning_rate": 0.001,
      "loss": 0.2244,
      "step": 4190
    },
    {
      "epoch": 4.27217125382263,
      "grad_norm": 0.14343184232711792,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4191
    },
    {
      "epoch": 4.273190621814475,
      "grad_norm": 0.11097666621208191,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 4192
    },
    {
      "epoch": 4.27420998980632,
      "grad_norm": 0.12104769051074982,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 4193
    },
    {
      "epoch": 4.275229357798165,
      "grad_norm": 0.13001561164855957,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 4194
    },
    {
      "epoch": 4.27624872579001,
      "grad_norm": 0.09168165922164917,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 4195
    },
    {
      "epoch": 4.2772680937818555,
      "grad_norm": 0.14624381065368652,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 4196
    },
    {
      "epoch": 4.2782874617737,
      "grad_norm": 0.13785281777381897,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4197
    },
    {
      "epoch": 4.279306829765545,
      "grad_norm": 0.07132859528064728,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 4198
    },
    {
      "epoch": 4.2803261977573905,
      "grad_norm": 0.14740054309368134,
      "learning_rate": 0.001,
      "loss": 0.2302,
      "step": 4199
    },
    {
      "epoch": 4.281345565749236,
      "grad_norm": 0.1291031390428543,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4200
    },
    {
      "epoch": 4.28236493374108,
      "grad_norm": 0.14364813268184662,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 4201
    },
    {
      "epoch": 4.283384301732926,
      "grad_norm": 0.1346459537744522,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 4202
    },
    {
      "epoch": 4.284403669724771,
      "grad_norm": 0.1512712985277176,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 4203
    },
    {
      "epoch": 4.285423037716615,
      "grad_norm": 0.13450679183006287,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 4204
    },
    {
      "epoch": 4.286442405708461,
      "grad_norm": 0.1899263858795166,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 4205
    },
    {
      "epoch": 4.287461773700306,
      "grad_norm": 0.11030017584562302,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 4206
    },
    {
      "epoch": 4.2884811416921504,
      "grad_norm": 0.22206160426139832,
      "learning_rate": 0.001,
      "loss": 0.2501,
      "step": 4207
    },
    {
      "epoch": 4.289500509683996,
      "grad_norm": 0.10457142442464828,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 4208
    },
    {
      "epoch": 4.290519877675841,
      "grad_norm": 0.1402357667684555,
      "learning_rate": 0.001,
      "loss": 0.2373,
      "step": 4209
    },
    {
      "epoch": 4.291539245667686,
      "grad_norm": 0.12406786531209946,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 4210
    },
    {
      "epoch": 4.292558613659531,
      "grad_norm": 0.17156696319580078,
      "learning_rate": 0.001,
      "loss": 0.2322,
      "step": 4211
    },
    {
      "epoch": 4.293577981651376,
      "grad_norm": 0.1270778626203537,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 4212
    },
    {
      "epoch": 4.2945973496432215,
      "grad_norm": 0.2150382399559021,
      "learning_rate": 0.001,
      "loss": 0.2299,
      "step": 4213
    },
    {
      "epoch": 4.295616717635066,
      "grad_norm": 0.1526661068201065,
      "learning_rate": 0.001,
      "loss": 0.2426,
      "step": 4214
    },
    {
      "epoch": 4.296636085626911,
      "grad_norm": 0.11239887773990631,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 4215
    },
    {
      "epoch": 4.297655453618757,
      "grad_norm": 0.08512220531702042,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 4216
    },
    {
      "epoch": 4.298674821610602,
      "grad_norm": 0.15220734477043152,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 4217
    },
    {
      "epoch": 4.299694189602446,
      "grad_norm": 0.13323533535003662,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 4218
    },
    {
      "epoch": 4.300713557594292,
      "grad_norm": 0.217933788895607,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 4219
    },
    {
      "epoch": 4.301732925586137,
      "grad_norm": 0.11498548090457916,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 4220
    },
    {
      "epoch": 4.302752293577981,
      "grad_norm": 0.19444739818572998,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4221
    },
    {
      "epoch": 4.303771661569827,
      "grad_norm": 0.16233645379543304,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 4222
    },
    {
      "epoch": 4.304791029561672,
      "grad_norm": 0.1192517802119255,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 4223
    },
    {
      "epoch": 4.3058103975535165,
      "grad_norm": 0.21369294822216034,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4224
    },
    {
      "epoch": 4.306829765545362,
      "grad_norm": 0.10437870770692825,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 4225
    },
    {
      "epoch": 4.307849133537207,
      "grad_norm": 0.21176639199256897,
      "learning_rate": 0.001,
      "loss": 0.2479,
      "step": 4226
    },
    {
      "epoch": 4.3088685015290515,
      "grad_norm": 0.10965793579816818,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 4227
    },
    {
      "epoch": 4.309887869520897,
      "grad_norm": 0.12450308352708817,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 4228
    },
    {
      "epoch": 4.310907237512742,
      "grad_norm": 0.1501854509115219,
      "learning_rate": 0.001,
      "loss": 0.2224,
      "step": 4229
    },
    {
      "epoch": 4.3119266055045875,
      "grad_norm": 0.19491425156593323,
      "learning_rate": 0.001,
      "loss": 0.2493,
      "step": 4230
    },
    {
      "epoch": 4.312945973496432,
      "grad_norm": 0.1315186768770218,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 4231
    },
    {
      "epoch": 4.313965341488277,
      "grad_norm": 0.16190782189369202,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 4232
    },
    {
      "epoch": 4.314984709480123,
      "grad_norm": 0.14577621221542358,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4233
    },
    {
      "epoch": 4.316004077471967,
      "grad_norm": 0.06948576122522354,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 4234
    },
    {
      "epoch": 4.317023445463812,
      "grad_norm": 0.08111859858036041,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 4235
    },
    {
      "epoch": 4.318042813455658,
      "grad_norm": 0.13847316801548004,
      "learning_rate": 0.001,
      "loss": 0.2323,
      "step": 4236
    },
    {
      "epoch": 4.319062181447503,
      "grad_norm": 0.18992426991462708,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 4237
    },
    {
      "epoch": 4.320081549439347,
      "grad_norm": 0.2377576380968094,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 4238
    },
    {
      "epoch": 4.321100917431193,
      "grad_norm": 0.12302497029304504,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 4239
    },
    {
      "epoch": 4.322120285423038,
      "grad_norm": 0.1542295664548874,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 4240
    },
    {
      "epoch": 4.3231396534148825,
      "grad_norm": 0.1335218995809555,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 4241
    },
    {
      "epoch": 4.324159021406728,
      "grad_norm": 0.18893441557884216,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4242
    },
    {
      "epoch": 4.325178389398573,
      "grad_norm": 0.2195834368467331,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 4243
    },
    {
      "epoch": 4.326197757390418,
      "grad_norm": 0.18531224131584167,
      "learning_rate": 0.001,
      "loss": 0.2156,
      "step": 4244
    },
    {
      "epoch": 4.327217125382263,
      "grad_norm": 0.0942077711224556,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 4245
    },
    {
      "epoch": 4.328236493374108,
      "grad_norm": 0.11054907739162445,
      "learning_rate": 0.001,
      "loss": 0.2358,
      "step": 4246
    },
    {
      "epoch": 4.329255861365953,
      "grad_norm": 0.17882134020328522,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 4247
    },
    {
      "epoch": 4.330275229357798,
      "grad_norm": 0.14493122696876526,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 4248
    },
    {
      "epoch": 4.331294597349643,
      "grad_norm": 0.08489486575126648,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 4249
    },
    {
      "epoch": 4.332313965341489,
      "grad_norm": 0.11603927612304688,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 4250
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.11144385486841202,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 4251
    },
    {
      "epoch": 4.334352701325178,
      "grad_norm": 0.0863015279173851,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 4252
    },
    {
      "epoch": 4.335372069317024,
      "grad_norm": 0.17868773639202118,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4253
    },
    {
      "epoch": 4.336391437308868,
      "grad_norm": 0.09928232431411743,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 4254
    },
    {
      "epoch": 4.337410805300713,
      "grad_norm": 0.12284356355667114,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 4255
    },
    {
      "epoch": 4.338430173292559,
      "grad_norm": 0.16134563088417053,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 4256
    },
    {
      "epoch": 4.339449541284404,
      "grad_norm": 0.1422288417816162,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 4257
    },
    {
      "epoch": 4.3404689092762485,
      "grad_norm": 0.16042114794254303,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 4258
    },
    {
      "epoch": 4.341488277268094,
      "grad_norm": 0.11919674277305603,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 4259
    },
    {
      "epoch": 4.342507645259939,
      "grad_norm": 0.13994136452674866,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 4260
    },
    {
      "epoch": 4.343527013251784,
      "grad_norm": 0.19254128634929657,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 4261
    },
    {
      "epoch": 4.344546381243629,
      "grad_norm": 0.13310562074184418,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 4262
    },
    {
      "epoch": 4.345565749235474,
      "grad_norm": 0.1481383740901947,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4263
    },
    {
      "epoch": 4.346585117227319,
      "grad_norm": 0.0994894877076149,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4264
    },
    {
      "epoch": 4.347604485219164,
      "grad_norm": 0.15435582399368286,
      "learning_rate": 0.001,
      "loss": 0.2278,
      "step": 4265
    },
    {
      "epoch": 4.348623853211009,
      "grad_norm": 0.17497363686561584,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 4266
    },
    {
      "epoch": 4.349643221202855,
      "grad_norm": 0.1714775562286377,
      "learning_rate": 0.001,
      "loss": 0.23,
      "step": 4267
    },
    {
      "epoch": 4.350662589194699,
      "grad_norm": 0.1750602126121521,
      "learning_rate": 0.001,
      "loss": 0.2407,
      "step": 4268
    },
    {
      "epoch": 4.351681957186544,
      "grad_norm": 0.11362946778535843,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 4269
    },
    {
      "epoch": 4.35270132517839,
      "grad_norm": 0.15819334983825684,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 4270
    },
    {
      "epoch": 4.353720693170234,
      "grad_norm": 0.07400140911340714,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4271
    },
    {
      "epoch": 4.3547400611620795,
      "grad_norm": 0.11359100043773651,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4272
    },
    {
      "epoch": 4.355759429153925,
      "grad_norm": 0.1258777529001236,
      "learning_rate": 0.001,
      "loss": 0.2264,
      "step": 4273
    },
    {
      "epoch": 4.356778797145769,
      "grad_norm": 0.17443156242370605,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 4274
    },
    {
      "epoch": 4.3577981651376145,
      "grad_norm": 0.11114872246980667,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 4275
    },
    {
      "epoch": 4.35881753312946,
      "grad_norm": 0.11282593011856079,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 4276
    },
    {
      "epoch": 4.359836901121305,
      "grad_norm": 0.1572873294353485,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 4277
    },
    {
      "epoch": 4.36085626911315,
      "grad_norm": 0.19277361035346985,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 4278
    },
    {
      "epoch": 4.361875637104995,
      "grad_norm": 0.1900387853384018,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 4279
    },
    {
      "epoch": 4.36289500509684,
      "grad_norm": 0.19286906719207764,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 4280
    },
    {
      "epoch": 4.363914373088685,
      "grad_norm": 0.14165829122066498,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 4281
    },
    {
      "epoch": 4.36493374108053,
      "grad_norm": 0.12038204073905945,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 4282
    },
    {
      "epoch": 4.365953109072375,
      "grad_norm": 0.2415851652622223,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4283
    },
    {
      "epoch": 4.36697247706422,
      "grad_norm": 0.149239644408226,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 4284
    },
    {
      "epoch": 4.367991845056065,
      "grad_norm": 0.12352897971868515,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 4285
    },
    {
      "epoch": 4.36901121304791,
      "grad_norm": 0.1276860535144806,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 4286
    },
    {
      "epoch": 4.370030581039756,
      "grad_norm": 0.1562834531068802,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 4287
    },
    {
      "epoch": 4.3710499490316,
      "grad_norm": 0.10291332006454468,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4288
    },
    {
      "epoch": 4.3720693170234455,
      "grad_norm": 0.13851264119148254,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4289
    },
    {
      "epoch": 4.373088685015291,
      "grad_norm": 0.20549272000789642,
      "learning_rate": 0.001,
      "loss": 0.2285,
      "step": 4290
    },
    {
      "epoch": 4.374108053007135,
      "grad_norm": 0.21175551414489746,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 4291
    },
    {
      "epoch": 4.3751274209989806,
      "grad_norm": 0.09686005115509033,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 4292
    },
    {
      "epoch": 4.376146788990826,
      "grad_norm": 0.1435072273015976,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4293
    },
    {
      "epoch": 4.377166156982671,
      "grad_norm": 0.23597632348537445,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 4294
    },
    {
      "epoch": 4.378185524974516,
      "grad_norm": 0.1306823194026947,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 4295
    },
    {
      "epoch": 4.379204892966361,
      "grad_norm": 0.13824330270290375,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 4296
    },
    {
      "epoch": 4.380224260958206,
      "grad_norm": 0.18497121334075928,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 4297
    },
    {
      "epoch": 4.381243628950051,
      "grad_norm": 0.1276204138994217,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 4298
    },
    {
      "epoch": 4.382262996941896,
      "grad_norm": 0.21407002210617065,
      "learning_rate": 0.001,
      "loss": 0.2273,
      "step": 4299
    },
    {
      "epoch": 4.383282364933741,
      "grad_norm": 0.19181188941001892,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 4300
    },
    {
      "epoch": 4.384301732925586,
      "grad_norm": 0.13453473150730133,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 4301
    },
    {
      "epoch": 4.385321100917431,
      "grad_norm": 0.21779701113700867,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 4302
    },
    {
      "epoch": 4.386340468909276,
      "grad_norm": 0.20293062925338745,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4303
    },
    {
      "epoch": 4.387359836901121,
      "grad_norm": 0.12025950103998184,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 4304
    },
    {
      "epoch": 4.388379204892966,
      "grad_norm": 0.16925270855426788,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 4305
    },
    {
      "epoch": 4.3893985728848115,
      "grad_norm": 0.20351339876651764,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4306
    },
    {
      "epoch": 4.390417940876657,
      "grad_norm": 0.22293469309806824,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 4307
    },
    {
      "epoch": 4.391437308868501,
      "grad_norm": 0.1359153538942337,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4308
    },
    {
      "epoch": 4.392456676860347,
      "grad_norm": 0.09672115743160248,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 4309
    },
    {
      "epoch": 4.393476044852192,
      "grad_norm": 0.09613315761089325,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 4310
    },
    {
      "epoch": 4.394495412844036,
      "grad_norm": 0.14602579176425934,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 4311
    },
    {
      "epoch": 4.395514780835882,
      "grad_norm": 0.1349412202835083,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4312
    },
    {
      "epoch": 4.396534148827727,
      "grad_norm": 0.19207029044628143,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 4313
    },
    {
      "epoch": 4.397553516819572,
      "grad_norm": 0.14775359630584717,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 4314
    },
    {
      "epoch": 4.398572884811417,
      "grad_norm": 0.1790650635957718,
      "learning_rate": 0.001,
      "loss": 0.2318,
      "step": 4315
    },
    {
      "epoch": 4.399592252803262,
      "grad_norm": 0.10229021310806274,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 4316
    },
    {
      "epoch": 4.400611620795107,
      "grad_norm": 0.1142011508345604,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 4317
    },
    {
      "epoch": 4.401630988786952,
      "grad_norm": 0.16986164450645447,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 4318
    },
    {
      "epoch": 4.402650356778797,
      "grad_norm": 0.22233857214450836,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 4319
    },
    {
      "epoch": 4.4036697247706424,
      "grad_norm": 0.25648659467697144,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 4320
    },
    {
      "epoch": 4.404689092762487,
      "grad_norm": 0.1220199465751648,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 4321
    },
    {
      "epoch": 4.405708460754332,
      "grad_norm": 0.14511039853096008,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 4322
    },
    {
      "epoch": 4.4067278287461775,
      "grad_norm": 0.12448308616876602,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 4323
    },
    {
      "epoch": 4.407747196738022,
      "grad_norm": 0.1516716033220291,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 4324
    },
    {
      "epoch": 4.408766564729867,
      "grad_norm": 0.13447949290275574,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 4325
    },
    {
      "epoch": 4.409785932721713,
      "grad_norm": 0.22390465438365936,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4326
    },
    {
      "epoch": 4.410805300713558,
      "grad_norm": 0.14005324244499207,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 4327
    },
    {
      "epoch": 4.411824668705402,
      "grad_norm": 0.1907958984375,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 4328
    },
    {
      "epoch": 4.412844036697248,
      "grad_norm": 0.10090252757072449,
      "learning_rate": 0.001,
      "loss": 0.2333,
      "step": 4329
    },
    {
      "epoch": 4.413863404689093,
      "grad_norm": 0.1605943739414215,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4330
    },
    {
      "epoch": 4.414882772680937,
      "grad_norm": 0.13635985553264618,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 4331
    },
    {
      "epoch": 4.415902140672783,
      "grad_norm": 0.132736474275589,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 4332
    },
    {
      "epoch": 4.416921508664628,
      "grad_norm": 0.14305734634399414,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 4333
    },
    {
      "epoch": 4.417940876656473,
      "grad_norm": 0.11944051086902618,
      "learning_rate": 0.001,
      "loss": 0.2267,
      "step": 4334
    },
    {
      "epoch": 4.418960244648318,
      "grad_norm": 0.10659458488225937,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4335
    },
    {
      "epoch": 4.419979612640163,
      "grad_norm": 0.0938393622636795,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 4336
    },
    {
      "epoch": 4.4209989806320085,
      "grad_norm": 0.23937225341796875,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 4337
    },
    {
      "epoch": 4.422018348623853,
      "grad_norm": 0.2601083219051361,
      "learning_rate": 0.001,
      "loss": 0.2279,
      "step": 4338
    },
    {
      "epoch": 4.423037716615698,
      "grad_norm": 0.13379055261611938,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 4339
    },
    {
      "epoch": 4.4240570846075435,
      "grad_norm": 0.23030340671539307,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 4340
    },
    {
      "epoch": 4.425076452599388,
      "grad_norm": 0.11572391539812088,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 4341
    },
    {
      "epoch": 4.426095820591233,
      "grad_norm": 0.11147725582122803,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 4342
    },
    {
      "epoch": 4.427115188583079,
      "grad_norm": 0.2273533046245575,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 4343
    },
    {
      "epoch": 4.428134556574924,
      "grad_norm": 0.1624213010072708,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 4344
    },
    {
      "epoch": 4.429153924566768,
      "grad_norm": 0.10733789205551147,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4345
    },
    {
      "epoch": 4.430173292558614,
      "grad_norm": 0.13698936998844147,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4346
    },
    {
      "epoch": 4.431192660550459,
      "grad_norm": 0.20899179577827454,
      "learning_rate": 0.001,
      "loss": 0.2321,
      "step": 4347
    },
    {
      "epoch": 4.4322120285423035,
      "grad_norm": 0.2624887526035309,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 4348
    },
    {
      "epoch": 4.433231396534149,
      "grad_norm": 0.15032121539115906,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 4349
    },
    {
      "epoch": 4.434250764525994,
      "grad_norm": 0.20260973274707794,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 4350
    },
    {
      "epoch": 4.4352701325178385,
      "grad_norm": 0.255818247795105,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 4351
    },
    {
      "epoch": 4.436289500509684,
      "grad_norm": 0.17141127586364746,
      "learning_rate": 0.001,
      "loss": 0.2251,
      "step": 4352
    },
    {
      "epoch": 4.437308868501529,
      "grad_norm": 0.1981269121170044,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 4353
    },
    {
      "epoch": 4.4383282364933745,
      "grad_norm": 0.0993937999010086,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4354
    },
    {
      "epoch": 4.439347604485219,
      "grad_norm": 0.22053585946559906,
      "learning_rate": 0.001,
      "loss": 0.2441,
      "step": 4355
    },
    {
      "epoch": 4.440366972477064,
      "grad_norm": 0.07526858896017075,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 4356
    },
    {
      "epoch": 4.44138634046891,
      "grad_norm": 0.10448263585567474,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 4357
    },
    {
      "epoch": 4.442405708460754,
      "grad_norm": 0.11350943893194199,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 4358
    },
    {
      "epoch": 4.443425076452599,
      "grad_norm": 0.19177865982055664,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 4359
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 0.16580073535442352,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 4360
    },
    {
      "epoch": 4.445463812436289,
      "grad_norm": 0.11572971940040588,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 4361
    },
    {
      "epoch": 4.446483180428134,
      "grad_norm": 0.11235333234071732,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 4362
    },
    {
      "epoch": 4.44750254841998,
      "grad_norm": 0.10244964808225632,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 4363
    },
    {
      "epoch": 4.448521916411825,
      "grad_norm": 0.21933096647262573,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 4364
    },
    {
      "epoch": 4.4495412844036695,
      "grad_norm": 0.11758805811405182,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 4365
    },
    {
      "epoch": 4.450560652395515,
      "grad_norm": 0.1290627121925354,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 4366
    },
    {
      "epoch": 4.45158002038736,
      "grad_norm": 0.2402949333190918,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 4367
    },
    {
      "epoch": 4.4525993883792045,
      "grad_norm": 0.21875691413879395,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 4368
    },
    {
      "epoch": 4.45361875637105,
      "grad_norm": 0.12333697825670242,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 4369
    },
    {
      "epoch": 4.454638124362895,
      "grad_norm": 0.1800173968076706,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 4370
    },
    {
      "epoch": 4.4556574923547405,
      "grad_norm": 0.16748325526714325,
      "learning_rate": 0.001,
      "loss": 0.236,
      "step": 4371
    },
    {
      "epoch": 4.456676860346585,
      "grad_norm": 0.1395125687122345,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 4372
    },
    {
      "epoch": 4.45769622833843,
      "grad_norm": 0.11777874082326889,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 4373
    },
    {
      "epoch": 4.458715596330276,
      "grad_norm": 0.14730100333690643,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 4374
    },
    {
      "epoch": 4.45973496432212,
      "grad_norm": 0.14997056126594543,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 4375
    },
    {
      "epoch": 4.460754332313965,
      "grad_norm": 0.14299455285072327,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 4376
    },
    {
      "epoch": 4.461773700305811,
      "grad_norm": 0.13969311118125916,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 4377
    },
    {
      "epoch": 4.462793068297655,
      "grad_norm": 0.12493449449539185,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 4378
    },
    {
      "epoch": 4.4638124362895,
      "grad_norm": 0.1273532211780548,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 4379
    },
    {
      "epoch": 4.464831804281346,
      "grad_norm": 0.17391325533390045,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 4380
    },
    {
      "epoch": 4.46585117227319,
      "grad_norm": 0.15716321766376495,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 4381
    },
    {
      "epoch": 4.4668705402650355,
      "grad_norm": 0.15981131792068481,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 4382
    },
    {
      "epoch": 4.467889908256881,
      "grad_norm": 0.2448398470878601,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 4383
    },
    {
      "epoch": 4.468909276248726,
      "grad_norm": 0.13470105826854706,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 4384
    },
    {
      "epoch": 4.469928644240571,
      "grad_norm": 0.13988657295703888,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 4385
    },
    {
      "epoch": 4.470948012232416,
      "grad_norm": 0.1670297235250473,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 4386
    },
    {
      "epoch": 4.471967380224261,
      "grad_norm": 0.2544742822647095,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 4387
    },
    {
      "epoch": 4.472986748216106,
      "grad_norm": 0.13260896503925323,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 4388
    },
    {
      "epoch": 4.474006116207951,
      "grad_norm": 0.18877287209033966,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 4389
    },
    {
      "epoch": 4.475025484199796,
      "grad_norm": 0.19568093121051788,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 4390
    },
    {
      "epoch": 4.476044852191642,
      "grad_norm": 0.12026191502809525,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 4391
    },
    {
      "epoch": 4.477064220183486,
      "grad_norm": 0.14954279363155365,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 4392
    },
    {
      "epoch": 4.478083588175331,
      "grad_norm": 0.1347852647304535,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 4393
    },
    {
      "epoch": 4.479102956167177,
      "grad_norm": 0.13875655829906464,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 4394
    },
    {
      "epoch": 4.480122324159021,
      "grad_norm": 0.09612632542848587,
      "learning_rate": 0.001,
      "loss": 0.2156,
      "step": 4395
    },
    {
      "epoch": 4.481141692150866,
      "grad_norm": 0.12397006899118423,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 4396
    },
    {
      "epoch": 4.482161060142712,
      "grad_norm": 0.13168315589427948,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 4397
    },
    {
      "epoch": 4.483180428134556,
      "grad_norm": 0.10856550186872482,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 4398
    },
    {
      "epoch": 4.4841997961264015,
      "grad_norm": 0.21980346739292145,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 4399
    },
    {
      "epoch": 4.485219164118247,
      "grad_norm": 0.12414144724607468,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 4400
    },
    {
      "epoch": 4.486238532110092,
      "grad_norm": 0.10745059698820114,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 4401
    },
    {
      "epoch": 4.487257900101937,
      "grad_norm": 0.10386203974485397,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 4402
    },
    {
      "epoch": 4.488277268093782,
      "grad_norm": 0.13353213667869568,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 4403
    },
    {
      "epoch": 4.489296636085627,
      "grad_norm": 0.1384425163269043,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 4404
    },
    {
      "epoch": 4.490316004077472,
      "grad_norm": 0.10775164514780045,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 4405
    },
    {
      "epoch": 4.491335372069317,
      "grad_norm": 0.10677535086870193,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 4406
    },
    {
      "epoch": 4.492354740061162,
      "grad_norm": 0.10882914066314697,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 4407
    },
    {
      "epoch": 4.493374108053007,
      "grad_norm": 0.11908965557813644,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4408
    },
    {
      "epoch": 4.494393476044852,
      "grad_norm": 0.14462856948375702,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 4409
    },
    {
      "epoch": 4.495412844036697,
      "grad_norm": 0.11079341173171997,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4410
    },
    {
      "epoch": 4.496432212028543,
      "grad_norm": 0.11648054420948029,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 4411
    },
    {
      "epoch": 4.497451580020387,
      "grad_norm": 0.1277391016483307,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 4412
    },
    {
      "epoch": 4.4984709480122325,
      "grad_norm": 0.14928840100765228,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 4413
    },
    {
      "epoch": 4.499490316004078,
      "grad_norm": 0.2123214602470398,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 4414
    },
    {
      "epoch": 4.500509683995922,
      "grad_norm": 0.12479642778635025,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 4415
    },
    {
      "epoch": 4.5015290519877675,
      "grad_norm": 0.12326128035783768,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 4416
    },
    {
      "epoch": 4.502548419979613,
      "grad_norm": 0.20964039862155914,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 4417
    },
    {
      "epoch": 4.503567787971457,
      "grad_norm": 0.08820278942584991,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 4418
    },
    {
      "epoch": 4.504587155963303,
      "grad_norm": 0.13601179420948029,
      "learning_rate": 0.001,
      "loss": 0.2384,
      "step": 4419
    },
    {
      "epoch": 4.505606523955148,
      "grad_norm": 0.11085068434476852,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 4420
    },
    {
      "epoch": 4.506625891946992,
      "grad_norm": 0.140377938747406,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 4421
    },
    {
      "epoch": 4.507645259938838,
      "grad_norm": 0.1283067911863327,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 4422
    },
    {
      "epoch": 4.508664627930683,
      "grad_norm": 0.18170690536499023,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4423
    },
    {
      "epoch": 4.509683995922528,
      "grad_norm": 0.15857049822807312,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 4424
    },
    {
      "epoch": 4.510703363914373,
      "grad_norm": 0.11253464967012405,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 4425
    },
    {
      "epoch": 4.511722731906218,
      "grad_norm": 0.10811417549848557,
      "learning_rate": 0.001,
      "loss": 0.2239,
      "step": 4426
    },
    {
      "epoch": 4.512742099898063,
      "grad_norm": 0.15325234830379486,
      "learning_rate": 0.001,
      "loss": 0.2241,
      "step": 4427
    },
    {
      "epoch": 4.513761467889909,
      "grad_norm": 0.14444588124752045,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4428
    },
    {
      "epoch": 4.514780835881753,
      "grad_norm": 0.19244258105754852,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 4429
    },
    {
      "epoch": 4.5158002038735985,
      "grad_norm": 0.11475439369678497,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 4430
    },
    {
      "epoch": 4.516819571865444,
      "grad_norm": 0.17206856608390808,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 4431
    },
    {
      "epoch": 4.517838939857288,
      "grad_norm": 0.15201568603515625,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 4432
    },
    {
      "epoch": 4.518858307849134,
      "grad_norm": 0.12414339929819107,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 4433
    },
    {
      "epoch": 4.519877675840979,
      "grad_norm": 0.22247514128684998,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 4434
    },
    {
      "epoch": 4.520897043832823,
      "grad_norm": 0.22999869287014008,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 4435
    },
    {
      "epoch": 4.521916411824669,
      "grad_norm": 0.20216494798660278,
      "learning_rate": 0.001,
      "loss": 0.2406,
      "step": 4436
    },
    {
      "epoch": 4.522935779816514,
      "grad_norm": 0.1336662769317627,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 4437
    },
    {
      "epoch": 4.523955147808358,
      "grad_norm": 0.12813614308834076,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 4438
    },
    {
      "epoch": 4.524974515800204,
      "grad_norm": 0.18534159660339355,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 4439
    },
    {
      "epoch": 4.525993883792049,
      "grad_norm": 0.11843454837799072,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 4440
    },
    {
      "epoch": 4.527013251783894,
      "grad_norm": 0.18154014647006989,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 4441
    },
    {
      "epoch": 4.528032619775739,
      "grad_norm": 0.14004403352737427,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 4442
    },
    {
      "epoch": 4.529051987767584,
      "grad_norm": 0.11698412150144577,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 4443
    },
    {
      "epoch": 4.530071355759429,
      "grad_norm": 0.21234220266342163,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4444
    },
    {
      "epoch": 4.531090723751274,
      "grad_norm": 0.14596422016620636,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 4445
    },
    {
      "epoch": 4.532110091743119,
      "grad_norm": 0.1773678958415985,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 4446
    },
    {
      "epoch": 4.5331294597349645,
      "grad_norm": 0.18891891837120056,
      "learning_rate": 0.001,
      "loss": 0.2578,
      "step": 4447
    },
    {
      "epoch": 4.53414882772681,
      "grad_norm": 0.11171772330999374,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 4448
    },
    {
      "epoch": 4.535168195718654,
      "grad_norm": 0.18090581893920898,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 4449
    },
    {
      "epoch": 4.5361875637105,
      "grad_norm": 0.15665607154369354,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 4450
    },
    {
      "epoch": 4.537206931702345,
      "grad_norm": 0.09979182481765747,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 4451
    },
    {
      "epoch": 4.538226299694189,
      "grad_norm": 0.09814219921827316,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 4452
    },
    {
      "epoch": 4.539245667686035,
      "grad_norm": 0.0902218222618103,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 4453
    },
    {
      "epoch": 4.54026503567788,
      "grad_norm": 0.1176518052816391,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4454
    },
    {
      "epoch": 4.541284403669724,
      "grad_norm": 0.18800905346870422,
      "learning_rate": 0.001,
      "loss": 0.2318,
      "step": 4455
    },
    {
      "epoch": 4.54230377166157,
      "grad_norm": 0.1320091038942337,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 4456
    },
    {
      "epoch": 4.543323139653415,
      "grad_norm": 0.18345659971237183,
      "learning_rate": 0.001,
      "loss": 0.2196,
      "step": 4457
    },
    {
      "epoch": 4.5443425076452595,
      "grad_norm": 0.12149976938962936,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 4458
    },
    {
      "epoch": 4.545361875637105,
      "grad_norm": 0.08497212827205658,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 4459
    },
    {
      "epoch": 4.54638124362895,
      "grad_norm": 0.14534707367420197,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 4460
    },
    {
      "epoch": 4.5474006116207955,
      "grad_norm": 0.17973960936069489,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4461
    },
    {
      "epoch": 4.54841997961264,
      "grad_norm": 0.1189894750714302,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4462
    },
    {
      "epoch": 4.549439347604485,
      "grad_norm": 0.13815715909004211,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 4463
    },
    {
      "epoch": 4.5504587155963305,
      "grad_norm": 0.1829846352338791,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 4464
    },
    {
      "epoch": 4.551478083588175,
      "grad_norm": 0.1821533739566803,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4465
    },
    {
      "epoch": 4.55249745158002,
      "grad_norm": 0.12682870030403137,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 4466
    },
    {
      "epoch": 4.553516819571866,
      "grad_norm": 0.15981252491474152,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 4467
    },
    {
      "epoch": 4.554536187563711,
      "grad_norm": 0.21477511525154114,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 4468
    },
    {
      "epoch": 4.555555555555555,
      "grad_norm": 0.08740697801113129,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 4469
    },
    {
      "epoch": 4.556574923547401,
      "grad_norm": 0.15538959205150604,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 4470
    },
    {
      "epoch": 4.557594291539246,
      "grad_norm": 0.12261717766523361,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 4471
    },
    {
      "epoch": 4.55861365953109,
      "grad_norm": 0.1269233375787735,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 4472
    },
    {
      "epoch": 4.559633027522936,
      "grad_norm": 0.12325702607631683,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 4473
    },
    {
      "epoch": 4.560652395514781,
      "grad_norm": 0.16702382266521454,
      "learning_rate": 0.001,
      "loss": 0.2275,
      "step": 4474
    },
    {
      "epoch": 4.5616717635066255,
      "grad_norm": 0.12005823850631714,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 4475
    },
    {
      "epoch": 4.562691131498471,
      "grad_norm": 0.16157081723213196,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4476
    },
    {
      "epoch": 4.563710499490316,
      "grad_norm": 0.1985834836959839,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 4477
    },
    {
      "epoch": 4.564729867482161,
      "grad_norm": 0.17138302326202393,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 4478
    },
    {
      "epoch": 4.565749235474006,
      "grad_norm": 0.15762373805046082,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4479
    },
    {
      "epoch": 4.566768603465851,
      "grad_norm": 0.1411670595407486,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 4480
    },
    {
      "epoch": 4.5677879714576965,
      "grad_norm": 0.11542807519435883,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 4481
    },
    {
      "epoch": 4.568807339449541,
      "grad_norm": 0.11926726251840591,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 4482
    },
    {
      "epoch": 4.569826707441386,
      "grad_norm": 0.09992200136184692,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 4483
    },
    {
      "epoch": 4.570846075433232,
      "grad_norm": 0.1798388957977295,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 4484
    },
    {
      "epoch": 4.571865443425077,
      "grad_norm": 0.12924425303936005,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 4485
    },
    {
      "epoch": 4.572884811416921,
      "grad_norm": 0.2389458864927292,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 4486
    },
    {
      "epoch": 4.573904179408767,
      "grad_norm": 0.13719066977500916,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 4487
    },
    {
      "epoch": 4.574923547400612,
      "grad_norm": 0.13741101324558258,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 4488
    },
    {
      "epoch": 4.5759429153924565,
      "grad_norm": 0.17095257341861725,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 4489
    },
    {
      "epoch": 4.576962283384302,
      "grad_norm": 0.16083531081676483,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 4490
    },
    {
      "epoch": 4.577981651376147,
      "grad_norm": 0.22825095057487488,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 4491
    },
    {
      "epoch": 4.5790010193679915,
      "grad_norm": 0.177475705742836,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 4492
    },
    {
      "epoch": 4.580020387359837,
      "grad_norm": 0.10285009443759918,
      "learning_rate": 0.001,
      "loss": 0.2236,
      "step": 4493
    },
    {
      "epoch": 4.581039755351682,
      "grad_norm": 0.1682155877351761,
      "learning_rate": 0.001,
      "loss": 0.2289,
      "step": 4494
    },
    {
      "epoch": 4.582059123343527,
      "grad_norm": 0.15739959478378296,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 4495
    },
    {
      "epoch": 4.583078491335372,
      "grad_norm": 0.14909271895885468,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 4496
    },
    {
      "epoch": 4.584097859327217,
      "grad_norm": 0.19546625018119812,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4497
    },
    {
      "epoch": 4.585117227319062,
      "grad_norm": 0.12921267747879028,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 4498
    },
    {
      "epoch": 4.586136595310907,
      "grad_norm": 0.18661032617092133,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4499
    },
    {
      "epoch": 4.587155963302752,
      "grad_norm": 0.14149831235408783,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 4500
    },
    {
      "epoch": 4.588175331294598,
      "grad_norm": 0.11742053180932999,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 4501
    },
    {
      "epoch": 4.589194699286442,
      "grad_norm": 0.1678524762392044,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 4502
    },
    {
      "epoch": 4.590214067278287,
      "grad_norm": 0.1529017835855484,
      "learning_rate": 0.001,
      "loss": 0.2305,
      "step": 4503
    },
    {
      "epoch": 4.591233435270133,
      "grad_norm": 0.12029054760932922,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 4504
    },
    {
      "epoch": 4.592252803261978,
      "grad_norm": 0.0913485512137413,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 4505
    },
    {
      "epoch": 4.5932721712538225,
      "grad_norm": 0.11426717042922974,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 4506
    },
    {
      "epoch": 4.594291539245668,
      "grad_norm": 0.1662997603416443,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4507
    },
    {
      "epoch": 4.595310907237513,
      "grad_norm": 0.14239485561847687,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 4508
    },
    {
      "epoch": 4.5963302752293576,
      "grad_norm": 0.10107076913118362,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4509
    },
    {
      "epoch": 4.597349643221203,
      "grad_norm": 0.13071288168430328,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 4510
    },
    {
      "epoch": 4.598369011213048,
      "grad_norm": 0.17520302534103394,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4511
    },
    {
      "epoch": 4.599388379204893,
      "grad_norm": 0.11665617674589157,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 4512
    },
    {
      "epoch": 4.600407747196738,
      "grad_norm": 0.14483845233917236,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 4513
    },
    {
      "epoch": 4.601427115188583,
      "grad_norm": 0.10854882746934891,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 4514
    },
    {
      "epoch": 4.602446483180428,
      "grad_norm": 0.13363295793533325,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 4515
    },
    {
      "epoch": 4.603465851172273,
      "grad_norm": 0.10491176694631577,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 4516
    },
    {
      "epoch": 4.604485219164118,
      "grad_norm": 0.21202078461647034,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 4517
    },
    {
      "epoch": 4.605504587155964,
      "grad_norm": 0.1475561410188675,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 4518
    },
    {
      "epoch": 4.606523955147808,
      "grad_norm": 0.1772920936346054,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4519
    },
    {
      "epoch": 4.607543323139653,
      "grad_norm": 0.16394731402397156,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 4520
    },
    {
      "epoch": 4.608562691131499,
      "grad_norm": 0.1522017866373062,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 4521
    },
    {
      "epoch": 4.609582059123343,
      "grad_norm": 0.1484842151403427,
      "learning_rate": 0.001,
      "loss": 0.2333,
      "step": 4522
    },
    {
      "epoch": 4.6106014271151885,
      "grad_norm": 0.1271413117647171,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 4523
    },
    {
      "epoch": 4.611620795107034,
      "grad_norm": 0.13731932640075684,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 4524
    },
    {
      "epoch": 4.612640163098879,
      "grad_norm": 0.14559566974639893,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 4525
    },
    {
      "epoch": 4.613659531090724,
      "grad_norm": 0.15176667273044586,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4526
    },
    {
      "epoch": 4.614678899082569,
      "grad_norm": 0.14048564434051514,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 4527
    },
    {
      "epoch": 4.615698267074414,
      "grad_norm": 0.16833190619945526,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 4528
    },
    {
      "epoch": 4.616717635066259,
      "grad_norm": 0.16882072389125824,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 4529
    },
    {
      "epoch": 4.617737003058104,
      "grad_norm": 0.13252472877502441,
      "learning_rate": 0.001,
      "loss": 0.2351,
      "step": 4530
    },
    {
      "epoch": 4.618756371049949,
      "grad_norm": 0.08086811751127243,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4531
    },
    {
      "epoch": 4.619775739041794,
      "grad_norm": 0.1964845061302185,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4532
    },
    {
      "epoch": 4.620795107033639,
      "grad_norm": 0.12216314673423767,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4533
    },
    {
      "epoch": 4.621814475025484,
      "grad_norm": 0.14020678400993347,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 4534
    },
    {
      "epoch": 4.622833843017329,
      "grad_norm": 0.1266871988773346,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 4535
    },
    {
      "epoch": 4.623853211009174,
      "grad_norm": 0.18045155704021454,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 4536
    },
    {
      "epoch": 4.6248725790010194,
      "grad_norm": 0.1990938037633896,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 4537
    },
    {
      "epoch": 4.625891946992865,
      "grad_norm": 0.213799387216568,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4538
    },
    {
      "epoch": 4.626911314984709,
      "grad_norm": 0.11477908492088318,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 4539
    },
    {
      "epoch": 4.6279306829765545,
      "grad_norm": 0.2091909497976303,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 4540
    },
    {
      "epoch": 4.6289500509684,
      "grad_norm": 0.2706622779369354,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 4541
    },
    {
      "epoch": 4.629969418960244,
      "grad_norm": 0.1524796485900879,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 4542
    },
    {
      "epoch": 4.63098878695209,
      "grad_norm": 0.1276993453502655,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 4543
    },
    {
      "epoch": 4.632008154943935,
      "grad_norm": 0.14015311002731323,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 4544
    },
    {
      "epoch": 4.63302752293578,
      "grad_norm": 0.14253190159797668,
      "learning_rate": 0.001,
      "loss": 0.2394,
      "step": 4545
    },
    {
      "epoch": 4.634046890927625,
      "grad_norm": 0.10483107715845108,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4546
    },
    {
      "epoch": 4.63506625891947,
      "grad_norm": 0.12127717584371567,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 4547
    },
    {
      "epoch": 4.636085626911315,
      "grad_norm": 0.20314477384090424,
      "learning_rate": 0.001,
      "loss": 0.2299,
      "step": 4548
    },
    {
      "epoch": 4.63710499490316,
      "grad_norm": 0.175106018781662,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 4549
    },
    {
      "epoch": 4.638124362895005,
      "grad_norm": 0.20540249347686768,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 4550
    },
    {
      "epoch": 4.63914373088685,
      "grad_norm": 0.1485072523355484,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 4551
    },
    {
      "epoch": 4.640163098878695,
      "grad_norm": 0.18558058142662048,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 4552
    },
    {
      "epoch": 4.64118246687054,
      "grad_norm": 0.11485573649406433,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4553
    },
    {
      "epoch": 4.6422018348623855,
      "grad_norm": 0.1799663007259369,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 4554
    },
    {
      "epoch": 4.64322120285423,
      "grad_norm": 0.1504368931055069,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 4555
    },
    {
      "epoch": 4.644240570846075,
      "grad_norm": 0.2992371916770935,
      "learning_rate": 0.001,
      "loss": 0.2661,
      "step": 4556
    },
    {
      "epoch": 4.6452599388379205,
      "grad_norm": 0.19319893419742584,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 4557
    },
    {
      "epoch": 4.646279306829766,
      "grad_norm": 0.13544081151485443,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 4558
    },
    {
      "epoch": 4.64729867482161,
      "grad_norm": 0.12367624789476395,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 4559
    },
    {
      "epoch": 4.648318042813456,
      "grad_norm": 0.16609621047973633,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 4560
    },
    {
      "epoch": 4.649337410805301,
      "grad_norm": 0.21168465912342072,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 4561
    },
    {
      "epoch": 4.650356778797146,
      "grad_norm": 0.13784287869930267,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 4562
    },
    {
      "epoch": 4.651376146788991,
      "grad_norm": 0.18727557361125946,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 4563
    },
    {
      "epoch": 4.652395514780836,
      "grad_norm": 0.28667041659355164,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4564
    },
    {
      "epoch": 4.653414882772681,
      "grad_norm": 0.14998461306095123,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 4565
    },
    {
      "epoch": 4.654434250764526,
      "grad_norm": 0.12498557567596436,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 4566
    },
    {
      "epoch": 4.655453618756371,
      "grad_norm": 0.1795216202735901,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 4567
    },
    {
      "epoch": 4.656472986748216,
      "grad_norm": 0.1560046672821045,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4568
    },
    {
      "epoch": 4.657492354740061,
      "grad_norm": 0.2148105651140213,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 4569
    },
    {
      "epoch": 4.658511722731906,
      "grad_norm": 0.18879900872707367,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 4570
    },
    {
      "epoch": 4.6595310907237515,
      "grad_norm": 0.15589186549186707,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 4571
    },
    {
      "epoch": 4.660550458715596,
      "grad_norm": 0.10569430142641068,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 4572
    },
    {
      "epoch": 4.661569826707441,
      "grad_norm": 0.11400529742240906,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4573
    },
    {
      "epoch": 4.662589194699287,
      "grad_norm": 0.08560555428266525,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 4574
    },
    {
      "epoch": 4.663608562691132,
      "grad_norm": 0.11954903602600098,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 4575
    },
    {
      "epoch": 4.664627930682976,
      "grad_norm": 0.08181092143058777,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 4576
    },
    {
      "epoch": 4.665647298674822,
      "grad_norm": 0.12130711227655411,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 4577
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.13066186010837555,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 4578
    },
    {
      "epoch": 4.667686034658511,
      "grad_norm": 0.16938194632530212,
      "learning_rate": 0.001,
      "loss": 0.2325,
      "step": 4579
    },
    {
      "epoch": 4.668705402650357,
      "grad_norm": 0.11474976688623428,
      "learning_rate": 0.001,
      "loss": 0.2278,
      "step": 4580
    },
    {
      "epoch": 4.669724770642202,
      "grad_norm": 0.11355426907539368,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4581
    },
    {
      "epoch": 4.670744138634047,
      "grad_norm": 0.17954722046852112,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 4582
    },
    {
      "epoch": 4.671763506625892,
      "grad_norm": 0.17641019821166992,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 4583
    },
    {
      "epoch": 4.672782874617737,
      "grad_norm": 0.15715180337429047,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 4584
    },
    {
      "epoch": 4.673802242609582,
      "grad_norm": 0.16838328540325165,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 4585
    },
    {
      "epoch": 4.674821610601427,
      "grad_norm": 0.1431000530719757,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 4586
    },
    {
      "epoch": 4.675840978593272,
      "grad_norm": 0.12133883684873581,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 4587
    },
    {
      "epoch": 4.6768603465851175,
      "grad_norm": 0.11814917623996735,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 4588
    },
    {
      "epoch": 4.677879714576962,
      "grad_norm": 0.17461463809013367,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 4589
    },
    {
      "epoch": 4.678899082568807,
      "grad_norm": 0.1512306034564972,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 4590
    },
    {
      "epoch": 4.679918450560653,
      "grad_norm": 0.10300657898187637,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 4591
    },
    {
      "epoch": 4.680937818552497,
      "grad_norm": 0.13011080026626587,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 4592
    },
    {
      "epoch": 4.681957186544342,
      "grad_norm": 0.10232832282781601,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 4593
    },
    {
      "epoch": 4.682976554536188,
      "grad_norm": 0.1847456395626068,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4594
    },
    {
      "epoch": 4.683995922528033,
      "grad_norm": 0.09486506879329681,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 4595
    },
    {
      "epoch": 4.685015290519877,
      "grad_norm": 0.12445192784070969,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 4596
    },
    {
      "epoch": 4.686034658511723,
      "grad_norm": 0.10755351930856705,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 4597
    },
    {
      "epoch": 4.687054026503568,
      "grad_norm": 0.14599187672138214,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 4598
    },
    {
      "epoch": 4.6880733944954125,
      "grad_norm": 0.0868612751364708,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 4599
    },
    {
      "epoch": 4.689092762487258,
      "grad_norm": 0.08715265244245529,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 4600
    },
    {
      "epoch": 4.690112130479103,
      "grad_norm": 0.1341249942779541,
      "learning_rate": 0.001,
      "loss": 0.2378,
      "step": 4601
    },
    {
      "epoch": 4.6911314984709485,
      "grad_norm": 0.11725160479545593,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 4602
    },
    {
      "epoch": 4.692150866462793,
      "grad_norm": 0.12876690924167633,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 4603
    },
    {
      "epoch": 4.693170234454638,
      "grad_norm": 0.1432153582572937,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 4604
    },
    {
      "epoch": 4.6941896024464835,
      "grad_norm": 0.1433485597372055,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 4605
    },
    {
      "epoch": 4.695208970438328,
      "grad_norm": 0.20685355365276337,
      "learning_rate": 0.001,
      "loss": 0.2202,
      "step": 4606
    },
    {
      "epoch": 4.696228338430173,
      "grad_norm": 0.18505892157554626,
      "learning_rate": 0.001,
      "loss": 0.2252,
      "step": 4607
    },
    {
      "epoch": 4.697247706422019,
      "grad_norm": 0.1506803333759308,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4608
    },
    {
      "epoch": 4.698267074413863,
      "grad_norm": 0.18867556750774384,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 4609
    },
    {
      "epoch": 4.699286442405708,
      "grad_norm": 0.14654383063316345,
      "learning_rate": 0.001,
      "loss": 0.2498,
      "step": 4610
    },
    {
      "epoch": 4.700305810397554,
      "grad_norm": 0.16951358318328857,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 4611
    },
    {
      "epoch": 4.701325178389398,
      "grad_norm": 0.12869058549404144,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 4612
    },
    {
      "epoch": 4.702344546381243,
      "grad_norm": 0.10233497619628906,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 4613
    },
    {
      "epoch": 4.703363914373089,
      "grad_norm": 0.17245516180992126,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 4614
    },
    {
      "epoch": 4.704383282364934,
      "grad_norm": 0.11293824017047882,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 4615
    },
    {
      "epoch": 4.7054026503567785,
      "grad_norm": 0.13724450767040253,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 4616
    },
    {
      "epoch": 4.706422018348624,
      "grad_norm": 0.13608358800411224,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4617
    },
    {
      "epoch": 4.707441386340469,
      "grad_norm": 0.10986112803220749,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 4618
    },
    {
      "epoch": 4.708460754332314,
      "grad_norm": 0.16174060106277466,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4619
    },
    {
      "epoch": 4.709480122324159,
      "grad_norm": 0.15377281606197357,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 4620
    },
    {
      "epoch": 4.710499490316004,
      "grad_norm": 0.13206440210342407,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 4621
    },
    {
      "epoch": 4.7115188583078496,
      "grad_norm": 0.18295542895793915,
      "learning_rate": 0.001,
      "loss": 0.2305,
      "step": 4622
    },
    {
      "epoch": 4.712538226299694,
      "grad_norm": 0.09949807077646255,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 4623
    },
    {
      "epoch": 4.713557594291539,
      "grad_norm": 0.14879904687404633,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 4624
    },
    {
      "epoch": 4.714576962283385,
      "grad_norm": 0.21328485012054443,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4625
    },
    {
      "epoch": 4.715596330275229,
      "grad_norm": 0.09693101793527603,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 4626
    },
    {
      "epoch": 4.716615698267074,
      "grad_norm": 0.13095150887966156,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 4627
    },
    {
      "epoch": 4.71763506625892,
      "grad_norm": 0.1255008578300476,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 4628
    },
    {
      "epoch": 4.718654434250764,
      "grad_norm": 0.1011548787355423,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 4629
    },
    {
      "epoch": 4.7196738022426095,
      "grad_norm": 0.17130544781684875,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 4630
    },
    {
      "epoch": 4.720693170234455,
      "grad_norm": 0.14688771963119507,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 4631
    },
    {
      "epoch": 4.721712538226299,
      "grad_norm": 0.09424063563346863,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 4632
    },
    {
      "epoch": 4.7227319062181445,
      "grad_norm": 0.15066146850585938,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 4633
    },
    {
      "epoch": 4.72375127420999,
      "grad_norm": 0.1290961354970932,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4634
    },
    {
      "epoch": 4.724770642201835,
      "grad_norm": 0.21238747239112854,
      "learning_rate": 0.001,
      "loss": 0.2372,
      "step": 4635
    },
    {
      "epoch": 4.72579001019368,
      "grad_norm": 0.13203664124011993,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 4636
    },
    {
      "epoch": 4.726809378185525,
      "grad_norm": 0.14062438905239105,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 4637
    },
    {
      "epoch": 4.72782874617737,
      "grad_norm": 0.09075091034173965,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 4638
    },
    {
      "epoch": 4.728848114169216,
      "grad_norm": 0.15386217832565308,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 4639
    },
    {
      "epoch": 4.72986748216106,
      "grad_norm": 0.21014215052127838,
      "learning_rate": 0.001,
      "loss": 0.2284,
      "step": 4640
    },
    {
      "epoch": 4.730886850152905,
      "grad_norm": 0.1285560578107834,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 4641
    },
    {
      "epoch": 4.731906218144751,
      "grad_norm": 0.2240292876958847,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 4642
    },
    {
      "epoch": 4.732925586136595,
      "grad_norm": 0.11571815609931946,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 4643
    },
    {
      "epoch": 4.73394495412844,
      "grad_norm": 0.14453618228435516,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 4644
    },
    {
      "epoch": 4.734964322120286,
      "grad_norm": 0.137826606631279,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 4645
    },
    {
      "epoch": 4.73598369011213,
      "grad_norm": 0.14055372774600983,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 4646
    },
    {
      "epoch": 4.7370030581039755,
      "grad_norm": 0.12503626942634583,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4647
    },
    {
      "epoch": 4.738022426095821,
      "grad_norm": 0.20896047353744507,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 4648
    },
    {
      "epoch": 4.739041794087665,
      "grad_norm": 0.15319649875164032,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 4649
    },
    {
      "epoch": 4.740061162079511,
      "grad_norm": 0.1238492950797081,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4650
    },
    {
      "epoch": 4.741080530071356,
      "grad_norm": 0.11201215535402298,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 4651
    },
    {
      "epoch": 4.742099898063201,
      "grad_norm": 0.10415901243686676,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4652
    },
    {
      "epoch": 4.743119266055046,
      "grad_norm": 0.1857917308807373,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 4653
    },
    {
      "epoch": 4.744138634046891,
      "grad_norm": 0.1252642571926117,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 4654
    },
    {
      "epoch": 4.745158002038736,
      "grad_norm": 0.1630484163761139,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 4655
    },
    {
      "epoch": 4.746177370030581,
      "grad_norm": 0.16527009010314941,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 4656
    },
    {
      "epoch": 4.747196738022426,
      "grad_norm": 0.20863263309001923,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 4657
    },
    {
      "epoch": 4.748216106014271,
      "grad_norm": 0.1654406189918518,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4658
    },
    {
      "epoch": 4.749235474006117,
      "grad_norm": 0.19747021794319153,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 4659
    },
    {
      "epoch": 4.750254841997961,
      "grad_norm": 0.10884685069322586,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 4660
    },
    {
      "epoch": 4.751274209989806,
      "grad_norm": 0.17129643261432648,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 4661
    },
    {
      "epoch": 4.752293577981652,
      "grad_norm": 0.17792829871177673,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 4662
    },
    {
      "epoch": 4.753312945973496,
      "grad_norm": 0.1570727676153183,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 4663
    },
    {
      "epoch": 4.7543323139653415,
      "grad_norm": 0.1573847383260727,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 4664
    },
    {
      "epoch": 4.755351681957187,
      "grad_norm": 0.1840219795703888,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 4665
    },
    {
      "epoch": 4.756371049949031,
      "grad_norm": 0.1305590122938156,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 4666
    },
    {
      "epoch": 4.757390417940877,
      "grad_norm": 0.1574992686510086,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 4667
    },
    {
      "epoch": 4.758409785932722,
      "grad_norm": 0.1572250872850418,
      "learning_rate": 0.001,
      "loss": 0.2351,
      "step": 4668
    },
    {
      "epoch": 4.759429153924566,
      "grad_norm": 0.2514943778514862,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 4669
    },
    {
      "epoch": 4.760448521916412,
      "grad_norm": 0.1796092838048935,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 4670
    },
    {
      "epoch": 4.761467889908257,
      "grad_norm": 0.18870531022548676,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4671
    },
    {
      "epoch": 4.762487257900102,
      "grad_norm": 0.15542542934417725,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 4672
    },
    {
      "epoch": 4.763506625891947,
      "grad_norm": 0.2786453664302826,
      "learning_rate": 0.001,
      "loss": 0.2349,
      "step": 4673
    },
    {
      "epoch": 4.764525993883792,
      "grad_norm": 0.12832166254520416,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 4674
    },
    {
      "epoch": 4.765545361875637,
      "grad_norm": 0.14320023357868195,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 4675
    },
    {
      "epoch": 4.766564729867482,
      "grad_norm": 0.13372990489006042,
      "learning_rate": 0.001,
      "loss": 0.2211,
      "step": 4676
    },
    {
      "epoch": 4.767584097859327,
      "grad_norm": 0.17936725914478302,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4677
    },
    {
      "epoch": 4.7686034658511725,
      "grad_norm": 0.14392900466918945,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 4678
    },
    {
      "epoch": 4.769622833843018,
      "grad_norm": 0.18226338922977448,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 4679
    },
    {
      "epoch": 4.770642201834862,
      "grad_norm": 0.12158122658729553,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 4680
    },
    {
      "epoch": 4.7716615698267075,
      "grad_norm": 0.08942662179470062,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 4681
    },
    {
      "epoch": 4.772680937818553,
      "grad_norm": 0.23015078902244568,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 4682
    },
    {
      "epoch": 4.773700305810397,
      "grad_norm": 0.19745750725269318,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 4683
    },
    {
      "epoch": 4.774719673802243,
      "grad_norm": 0.14522092044353485,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 4684
    },
    {
      "epoch": 4.775739041794088,
      "grad_norm": 0.15041370689868927,
      "learning_rate": 0.001,
      "loss": 0.2211,
      "step": 4685
    },
    {
      "epoch": 4.776758409785932,
      "grad_norm": 0.18100203573703766,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 4686
    },
    {
      "epoch": 4.777777777777778,
      "grad_norm": 0.08546219021081924,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 4687
    },
    {
      "epoch": 4.778797145769623,
      "grad_norm": 0.21879015862941742,
      "learning_rate": 0.001,
      "loss": 0.2335,
      "step": 4688
    },
    {
      "epoch": 4.779816513761467,
      "grad_norm": 0.14119434356689453,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4689
    },
    {
      "epoch": 4.780835881753313,
      "grad_norm": 0.08990805596113205,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 4690
    },
    {
      "epoch": 4.781855249745158,
      "grad_norm": 0.19502077996730804,
      "learning_rate": 0.001,
      "loss": 0.2401,
      "step": 4691
    },
    {
      "epoch": 4.782874617737003,
      "grad_norm": 0.06447276473045349,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 4692
    },
    {
      "epoch": 4.783893985728848,
      "grad_norm": 0.17650912702083588,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 4693
    },
    {
      "epoch": 4.784913353720693,
      "grad_norm": 0.1324159950017929,
      "learning_rate": 0.001,
      "loss": 0.2357,
      "step": 4694
    },
    {
      "epoch": 4.7859327217125385,
      "grad_norm": 0.12717117369174957,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 4695
    },
    {
      "epoch": 4.786952089704383,
      "grad_norm": 0.1064486876130104,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 4696
    },
    {
      "epoch": 4.787971457696228,
      "grad_norm": 0.16223685443401337,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 4697
    },
    {
      "epoch": 4.7889908256880735,
      "grad_norm": 0.117463119328022,
      "learning_rate": 0.001,
      "loss": 0.2196,
      "step": 4698
    },
    {
      "epoch": 4.790010193679919,
      "grad_norm": 0.14617297053337097,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 4699
    },
    {
      "epoch": 4.791029561671763,
      "grad_norm": 0.1003652811050415,
      "learning_rate": 0.001,
      "loss": 0.2236,
      "step": 4700
    },
    {
      "epoch": 4.792048929663609,
      "grad_norm": 0.20001426339149475,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 4701
    },
    {
      "epoch": 4.793068297655454,
      "grad_norm": 0.08311928808689117,
      "learning_rate": 0.001,
      "loss": 0.2224,
      "step": 4702
    },
    {
      "epoch": 4.794087665647298,
      "grad_norm": 0.14965635538101196,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 4703
    },
    {
      "epoch": 4.795107033639144,
      "grad_norm": 0.12098406255245209,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 4704
    },
    {
      "epoch": 4.796126401630989,
      "grad_norm": 0.2921164333820343,
      "learning_rate": 0.001,
      "loss": 0.2695,
      "step": 4705
    },
    {
      "epoch": 4.7971457696228335,
      "grad_norm": 0.12472867965698242,
      "learning_rate": 0.001,
      "loss": 0.2435,
      "step": 4706
    },
    {
      "epoch": 4.798165137614679,
      "grad_norm": 0.15169991552829742,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 4707
    },
    {
      "epoch": 4.799184505606524,
      "grad_norm": 0.1853950321674347,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 4708
    },
    {
      "epoch": 4.8002038735983685,
      "grad_norm": 0.09035345911979675,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 4709
    },
    {
      "epoch": 4.801223241590214,
      "grad_norm": 0.17004595696926117,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 4710
    },
    {
      "epoch": 4.802242609582059,
      "grad_norm": 0.1459094136953354,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4711
    },
    {
      "epoch": 4.8032619775739045,
      "grad_norm": 0.11587125808000565,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 4712
    },
    {
      "epoch": 4.804281345565749,
      "grad_norm": 0.12893076241016388,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 4713
    },
    {
      "epoch": 4.805300713557594,
      "grad_norm": 0.14141936600208282,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 4714
    },
    {
      "epoch": 4.80632008154944,
      "grad_norm": 0.14104107022285461,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 4715
    },
    {
      "epoch": 4.807339449541285,
      "grad_norm": 0.12853796780109406,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 4716
    },
    {
      "epoch": 4.808358817533129,
      "grad_norm": 0.1554146409034729,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 4717
    },
    {
      "epoch": 4.809378185524975,
      "grad_norm": 0.1908697634935379,
      "learning_rate": 0.001,
      "loss": 0.2371,
      "step": 4718
    },
    {
      "epoch": 4.81039755351682,
      "grad_norm": 0.13673457503318787,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 4719
    },
    {
      "epoch": 4.811416921508664,
      "grad_norm": 0.09229843318462372,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 4720
    },
    {
      "epoch": 4.81243628950051,
      "grad_norm": 0.1678987294435501,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 4721
    },
    {
      "epoch": 4.813455657492355,
      "grad_norm": 0.19117394089698792,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 4722
    },
    {
      "epoch": 4.8144750254841995,
      "grad_norm": 0.19194906949996948,
      "learning_rate": 0.001,
      "loss": 0.2224,
      "step": 4723
    },
    {
      "epoch": 4.815494393476045,
      "grad_norm": 0.1549261510372162,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 4724
    },
    {
      "epoch": 4.81651376146789,
      "grad_norm": 0.15201444923877716,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4725
    },
    {
      "epoch": 4.8175331294597346,
      "grad_norm": 0.12716476619243622,
      "learning_rate": 0.001,
      "loss": 0.2345,
      "step": 4726
    },
    {
      "epoch": 4.81855249745158,
      "grad_norm": 0.15920084714889526,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 4727
    },
    {
      "epoch": 4.819571865443425,
      "grad_norm": 0.1037580817937851,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 4728
    },
    {
      "epoch": 4.8205912334352705,
      "grad_norm": 0.15646307170391083,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 4729
    },
    {
      "epoch": 4.821610601427115,
      "grad_norm": 0.10969525575637817,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 4730
    },
    {
      "epoch": 4.82262996941896,
      "grad_norm": 0.1257629543542862,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 4731
    },
    {
      "epoch": 4.823649337410806,
      "grad_norm": 0.22077414393424988,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 4732
    },
    {
      "epoch": 4.82466870540265,
      "grad_norm": 0.13462325930595398,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 4733
    },
    {
      "epoch": 4.825688073394495,
      "grad_norm": 0.13414788246154785,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 4734
    },
    {
      "epoch": 4.826707441386341,
      "grad_norm": 0.1525968462228775,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 4735
    },
    {
      "epoch": 4.827726809378186,
      "grad_norm": 0.07662344723939896,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4736
    },
    {
      "epoch": 4.82874617737003,
      "grad_norm": 0.09390150010585785,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 4737
    },
    {
      "epoch": 4.829765545361876,
      "grad_norm": 0.15361110866069794,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 4738
    },
    {
      "epoch": 4.830784913353721,
      "grad_norm": 0.1896105855703354,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 4739
    },
    {
      "epoch": 4.8318042813455655,
      "grad_norm": 0.14792749285697937,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 4740
    },
    {
      "epoch": 4.832823649337411,
      "grad_norm": 0.09422106295824051,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 4741
    },
    {
      "epoch": 4.833843017329256,
      "grad_norm": 0.16287510097026825,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 4742
    },
    {
      "epoch": 4.834862385321101,
      "grad_norm": 0.23357164859771729,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 4743
    },
    {
      "epoch": 4.835881753312946,
      "grad_norm": 0.15213972330093384,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 4744
    },
    {
      "epoch": 4.836901121304791,
      "grad_norm": 0.16636836528778076,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 4745
    },
    {
      "epoch": 4.837920489296636,
      "grad_norm": 0.16363930702209473,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 4746
    },
    {
      "epoch": 4.838939857288481,
      "grad_norm": 0.1455782651901245,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 4747
    },
    {
      "epoch": 4.839959225280326,
      "grad_norm": 0.1547214537858963,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 4748
    },
    {
      "epoch": 4.840978593272172,
      "grad_norm": 0.2178768813610077,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 4749
    },
    {
      "epoch": 4.841997961264016,
      "grad_norm": 0.15427982807159424,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4750
    },
    {
      "epoch": 4.843017329255861,
      "grad_norm": 0.13085485994815826,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 4751
    },
    {
      "epoch": 4.844036697247707,
      "grad_norm": 0.1813116818666458,
      "learning_rate": 0.001,
      "loss": 0.2421,
      "step": 4752
    },
    {
      "epoch": 4.845056065239551,
      "grad_norm": 0.1412878781557083,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 4753
    },
    {
      "epoch": 4.8460754332313964,
      "grad_norm": 0.16963155567646027,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 4754
    },
    {
      "epoch": 4.847094801223242,
      "grad_norm": 0.21886463463306427,
      "learning_rate": 0.001,
      "loss": 0.2323,
      "step": 4755
    },
    {
      "epoch": 4.848114169215087,
      "grad_norm": 0.09905830770730972,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4756
    },
    {
      "epoch": 4.8491335372069315,
      "grad_norm": 0.12869064509868622,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 4757
    },
    {
      "epoch": 4.850152905198777,
      "grad_norm": 0.20313869416713715,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 4758
    },
    {
      "epoch": 4.851172273190622,
      "grad_norm": 0.07350512593984604,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 4759
    },
    {
      "epoch": 4.852191641182467,
      "grad_norm": 0.0842147246003151,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 4760
    },
    {
      "epoch": 4.853211009174312,
      "grad_norm": 0.12656265497207642,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4761
    },
    {
      "epoch": 4.854230377166157,
      "grad_norm": 0.19965873658657074,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 4762
    },
    {
      "epoch": 4.855249745158002,
      "grad_norm": 0.07288280874490738,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 4763
    },
    {
      "epoch": 4.856269113149847,
      "grad_norm": 0.125533789396286,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 4764
    },
    {
      "epoch": 4.857288481141692,
      "grad_norm": 0.15173640847206116,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 4765
    },
    {
      "epoch": 4.858307849133537,
      "grad_norm": 0.17329207062721252,
      "learning_rate": 0.001,
      "loss": 0.2491,
      "step": 4766
    },
    {
      "epoch": 4.859327217125382,
      "grad_norm": 0.06726787239313126,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4767
    },
    {
      "epoch": 4.860346585117227,
      "grad_norm": 0.2796039283275604,
      "learning_rate": 0.001,
      "loss": 0.231,
      "step": 4768
    },
    {
      "epoch": 4.861365953109073,
      "grad_norm": 0.11605608463287354,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 4769
    },
    {
      "epoch": 4.862385321100917,
      "grad_norm": 0.10644461959600449,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 4770
    },
    {
      "epoch": 4.8634046890927625,
      "grad_norm": 0.1489197015762329,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 4771
    },
    {
      "epoch": 4.864424057084608,
      "grad_norm": 0.17809994518756866,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 4772
    },
    {
      "epoch": 4.865443425076452,
      "grad_norm": 0.16677862405776978,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 4773
    },
    {
      "epoch": 4.8664627930682975,
      "grad_norm": 0.21208956837654114,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 4774
    },
    {
      "epoch": 4.867482161060143,
      "grad_norm": 0.15068839490413666,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4775
    },
    {
      "epoch": 4.868501529051988,
      "grad_norm": 0.13155288994312286,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 4776
    },
    {
      "epoch": 4.869520897043833,
      "grad_norm": 0.18911851942539215,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 4777
    },
    {
      "epoch": 4.870540265035678,
      "grad_norm": 0.18102577328681946,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 4778
    },
    {
      "epoch": 4.871559633027523,
      "grad_norm": 0.16676169633865356,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 4779
    },
    {
      "epoch": 4.872579001019368,
      "grad_norm": 0.1266046166419983,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4780
    },
    {
      "epoch": 4.873598369011213,
      "grad_norm": 0.17749670147895813,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 4781
    },
    {
      "epoch": 4.874617737003058,
      "grad_norm": 0.1953325718641281,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 4782
    },
    {
      "epoch": 4.875637104994903,
      "grad_norm": 0.08006034046411514,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 4783
    },
    {
      "epoch": 4.876656472986748,
      "grad_norm": 0.14248043298721313,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 4784
    },
    {
      "epoch": 4.877675840978593,
      "grad_norm": 0.15398269891738892,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4785
    },
    {
      "epoch": 4.878695208970438,
      "grad_norm": 0.12523874640464783,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 4786
    },
    {
      "epoch": 4.879714576962283,
      "grad_norm": 0.15189844369888306,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 4787
    },
    {
      "epoch": 4.8807339449541285,
      "grad_norm": 0.19227589666843414,
      "learning_rate": 0.001,
      "loss": 0.2292,
      "step": 4788
    },
    {
      "epoch": 4.881753312945974,
      "grad_norm": 0.20205146074295044,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 4789
    },
    {
      "epoch": 4.882772680937818,
      "grad_norm": 0.1943972408771515,
      "learning_rate": 0.001,
      "loss": 0.2494,
      "step": 4790
    },
    {
      "epoch": 4.883792048929664,
      "grad_norm": 0.14250127971172333,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 4791
    },
    {
      "epoch": 4.884811416921509,
      "grad_norm": 0.15093594789505005,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 4792
    },
    {
      "epoch": 4.885830784913354,
      "grad_norm": 0.14704272150993347,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 4793
    },
    {
      "epoch": 4.886850152905199,
      "grad_norm": 0.09263966232538223,
      "learning_rate": 0.001,
      "loss": 0.2327,
      "step": 4794
    },
    {
      "epoch": 4.887869520897044,
      "grad_norm": 0.10012681782245636,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 4795
    },
    {
      "epoch": 4.888888888888889,
      "grad_norm": 0.1521129310131073,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 4796
    },
    {
      "epoch": 4.889908256880734,
      "grad_norm": 0.20633672177791595,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 4797
    },
    {
      "epoch": 4.890927624872579,
      "grad_norm": 0.14376214146614075,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 4798
    },
    {
      "epoch": 4.891946992864424,
      "grad_norm": 0.37629178166389465,
      "learning_rate": 0.001,
      "loss": 0.2412,
      "step": 4799
    },
    {
      "epoch": 4.892966360856269,
      "grad_norm": 0.1418193131685257,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 4800
    },
    {
      "epoch": 4.893985728848114,
      "grad_norm": 0.0893983393907547,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 4801
    },
    {
      "epoch": 4.895005096839959,
      "grad_norm": 0.12021937221288681,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 4802
    },
    {
      "epoch": 4.896024464831804,
      "grad_norm": 0.1876564770936966,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 4803
    },
    {
      "epoch": 4.897043832823649,
      "grad_norm": 0.2183697372674942,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 4804
    },
    {
      "epoch": 4.8980632008154945,
      "grad_norm": 0.14597372710704803,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 4805
    },
    {
      "epoch": 4.89908256880734,
      "grad_norm": 0.18101727962493896,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 4806
    },
    {
      "epoch": 4.900101936799184,
      "grad_norm": 0.09350236505270004,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 4807
    },
    {
      "epoch": 4.90112130479103,
      "grad_norm": 0.11604572087526321,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 4808
    },
    {
      "epoch": 4.902140672782875,
      "grad_norm": 0.15999215841293335,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 4809
    },
    {
      "epoch": 4.903160040774719,
      "grad_norm": 0.14620229601860046,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 4810
    },
    {
      "epoch": 4.904179408766565,
      "grad_norm": 0.13901935517787933,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 4811
    },
    {
      "epoch": 4.90519877675841,
      "grad_norm": 0.11775361746549606,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 4812
    },
    {
      "epoch": 4.906218144750255,
      "grad_norm": 0.12027815729379654,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4813
    },
    {
      "epoch": 4.9072375127421,
      "grad_norm": 0.16566303372383118,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 4814
    },
    {
      "epoch": 4.908256880733945,
      "grad_norm": 0.09760399162769318,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 4815
    },
    {
      "epoch": 4.90927624872579,
      "grad_norm": 0.10676445811986923,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 4816
    },
    {
      "epoch": 4.910295616717635,
      "grad_norm": 0.14261111617088318,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 4817
    },
    {
      "epoch": 4.91131498470948,
      "grad_norm": 0.13213291764259338,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 4818
    },
    {
      "epoch": 4.9123343527013255,
      "grad_norm": 0.13256768882274628,
      "learning_rate": 0.001,
      "loss": 0.2307,
      "step": 4819
    },
    {
      "epoch": 4.91335372069317,
      "grad_norm": 0.07670795917510986,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4820
    },
    {
      "epoch": 4.914373088685015,
      "grad_norm": 0.11551491171121597,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 4821
    },
    {
      "epoch": 4.9153924566768605,
      "grad_norm": 0.1669449508190155,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 4822
    },
    {
      "epoch": 4.916411824668705,
      "grad_norm": 0.15004397928714752,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 4823
    },
    {
      "epoch": 4.91743119266055,
      "grad_norm": 0.1476469188928604,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 4824
    },
    {
      "epoch": 4.918450560652396,
      "grad_norm": 0.16167867183685303,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4825
    },
    {
      "epoch": 4.919469928644241,
      "grad_norm": 0.1426118016242981,
      "learning_rate": 0.001,
      "loss": 0.2351,
      "step": 4826
    },
    {
      "epoch": 4.920489296636085,
      "grad_norm": 0.22970238327980042,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 4827
    },
    {
      "epoch": 4.921508664627931,
      "grad_norm": 0.1210484579205513,
      "learning_rate": 0.001,
      "loss": 0.2368,
      "step": 4828
    },
    {
      "epoch": 4.922528032619776,
      "grad_norm": 0.0994994193315506,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 4829
    },
    {
      "epoch": 4.92354740061162,
      "grad_norm": 0.11243675649166107,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4830
    },
    {
      "epoch": 4.924566768603466,
      "grad_norm": 0.1870281845331192,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 4831
    },
    {
      "epoch": 4.925586136595311,
      "grad_norm": 0.17231030762195587,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 4832
    },
    {
      "epoch": 4.926605504587156,
      "grad_norm": 0.10175874829292297,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 4833
    },
    {
      "epoch": 4.927624872579001,
      "grad_norm": 0.13820894062519073,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 4834
    },
    {
      "epoch": 4.928644240570846,
      "grad_norm": 0.16185592114925385,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 4835
    },
    {
      "epoch": 4.9296636085626915,
      "grad_norm": 0.12943536043167114,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 4836
    },
    {
      "epoch": 4.930682976554536,
      "grad_norm": 0.2082729935646057,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 4837
    },
    {
      "epoch": 4.931702344546381,
      "grad_norm": 0.12920106947422028,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 4838
    },
    {
      "epoch": 4.9327217125382266,
      "grad_norm": 0.1091533899307251,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 4839
    },
    {
      "epoch": 4.933741080530071,
      "grad_norm": 0.09700711816549301,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4840
    },
    {
      "epoch": 4.934760448521916,
      "grad_norm": 0.15001732110977173,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 4841
    },
    {
      "epoch": 4.935779816513762,
      "grad_norm": 0.15973785519599915,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 4842
    },
    {
      "epoch": 4.936799184505606,
      "grad_norm": 0.2199576497077942,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 4843
    },
    {
      "epoch": 4.937818552497451,
      "grad_norm": 0.12433784455060959,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 4844
    },
    {
      "epoch": 4.938837920489297,
      "grad_norm": 0.2528247535228729,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 4845
    },
    {
      "epoch": 4.939857288481142,
      "grad_norm": 0.12902839481830597,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 4846
    },
    {
      "epoch": 4.9408766564729865,
      "grad_norm": 0.1420033574104309,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 4847
    },
    {
      "epoch": 4.941896024464832,
      "grad_norm": 0.18353508412837982,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 4848
    },
    {
      "epoch": 4.942915392456677,
      "grad_norm": 0.12062235921621323,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 4849
    },
    {
      "epoch": 4.9439347604485215,
      "grad_norm": 0.12165828049182892,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 4850
    },
    {
      "epoch": 4.944954128440367,
      "grad_norm": 0.1266857385635376,
      "learning_rate": 0.001,
      "loss": 0.2338,
      "step": 4851
    },
    {
      "epoch": 4.945973496432212,
      "grad_norm": 0.13617642223834991,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 4852
    },
    {
      "epoch": 4.9469928644240575,
      "grad_norm": 0.1357281655073166,
      "learning_rate": 0.001,
      "loss": 0.2341,
      "step": 4853
    },
    {
      "epoch": 4.948012232415902,
      "grad_norm": 0.15274445712566376,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 4854
    },
    {
      "epoch": 4.949031600407747,
      "grad_norm": 0.09861474484205246,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 4855
    },
    {
      "epoch": 4.950050968399593,
      "grad_norm": 0.17074567079544067,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 4856
    },
    {
      "epoch": 4.951070336391437,
      "grad_norm": 0.10913024842739105,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 4857
    },
    {
      "epoch": 4.952089704383282,
      "grad_norm": 0.13723109662532806,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 4858
    },
    {
      "epoch": 4.953109072375128,
      "grad_norm": 0.08281239122152328,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 4859
    },
    {
      "epoch": 4.954128440366972,
      "grad_norm": 0.13321493566036224,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 4860
    },
    {
      "epoch": 4.955147808358817,
      "grad_norm": 0.16137799620628357,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4861
    },
    {
      "epoch": 4.956167176350663,
      "grad_norm": 0.10931655764579773,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 4862
    },
    {
      "epoch": 4.957186544342507,
      "grad_norm": 0.1119019091129303,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4863
    },
    {
      "epoch": 4.9582059123343525,
      "grad_norm": 0.1797817200422287,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 4864
    },
    {
      "epoch": 4.959225280326198,
      "grad_norm": 0.10078069567680359,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 4865
    },
    {
      "epoch": 4.960244648318043,
      "grad_norm": 0.09677847474813461,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 4866
    },
    {
      "epoch": 4.961264016309888,
      "grad_norm": 0.08392087370157242,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 4867
    },
    {
      "epoch": 4.962283384301733,
      "grad_norm": 0.19708172976970673,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 4868
    },
    {
      "epoch": 4.963302752293578,
      "grad_norm": 0.1575739085674286,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 4869
    },
    {
      "epoch": 4.9643221202854235,
      "grad_norm": 0.17006434500217438,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 4870
    },
    {
      "epoch": 4.965341488277268,
      "grad_norm": 0.18916210532188416,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 4871
    },
    {
      "epoch": 4.966360856269113,
      "grad_norm": 0.08753777295351028,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 4872
    },
    {
      "epoch": 4.967380224260959,
      "grad_norm": 0.09455296397209167,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 4873
    },
    {
      "epoch": 4.968399592252803,
      "grad_norm": 0.15130269527435303,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 4874
    },
    {
      "epoch": 4.969418960244648,
      "grad_norm": 0.14623107016086578,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 4875
    },
    {
      "epoch": 4.970438328236494,
      "grad_norm": 0.19937382638454437,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 4876
    },
    {
      "epoch": 4.971457696228338,
      "grad_norm": 0.17238149046897888,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 4877
    },
    {
      "epoch": 4.972477064220183,
      "grad_norm": 0.11043253540992737,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4878
    },
    {
      "epoch": 4.973496432212029,
      "grad_norm": 0.16985826194286346,
      "learning_rate": 0.001,
      "loss": 0.2312,
      "step": 4879
    },
    {
      "epoch": 4.974515800203873,
      "grad_norm": 0.0840621069073677,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 4880
    },
    {
      "epoch": 4.9755351681957185,
      "grad_norm": 0.17874851822853088,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 4881
    },
    {
      "epoch": 4.976554536187564,
      "grad_norm": 0.21171437203884125,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 4882
    },
    {
      "epoch": 4.977573904179409,
      "grad_norm": 0.29673972725868225,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 4883
    },
    {
      "epoch": 4.978593272171254,
      "grad_norm": 0.18646757304668427,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 4884
    },
    {
      "epoch": 4.979612640163099,
      "grad_norm": 0.15654316544532776,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 4885
    },
    {
      "epoch": 4.980632008154944,
      "grad_norm": 0.21466943621635437,
      "learning_rate": 0.001,
      "loss": 0.2512,
      "step": 4886
    },
    {
      "epoch": 4.981651376146789,
      "grad_norm": 0.2505522072315216,
      "learning_rate": 0.001,
      "loss": 0.2275,
      "step": 4887
    },
    {
      "epoch": 4.982670744138634,
      "grad_norm": 0.12548623979091644,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 4888
    },
    {
      "epoch": 4.983690112130479,
      "grad_norm": 0.10602393746376038,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 4889
    },
    {
      "epoch": 4.984709480122325,
      "grad_norm": 0.1318601369857788,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 4890
    },
    {
      "epoch": 4.985728848114169,
      "grad_norm": 0.17387747764587402,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 4891
    },
    {
      "epoch": 4.986748216106014,
      "grad_norm": 0.09362727403640747,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 4892
    },
    {
      "epoch": 4.98776758409786,
      "grad_norm": 0.10488133132457733,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 4893
    },
    {
      "epoch": 4.988786952089704,
      "grad_norm": 0.1151716336607933,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 4894
    },
    {
      "epoch": 4.9898063200815495,
      "grad_norm": 0.09704062342643738,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 4895
    },
    {
      "epoch": 4.990825688073395,
      "grad_norm": 0.10601263493299484,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 4896
    },
    {
      "epoch": 4.991845056065239,
      "grad_norm": 0.14606690406799316,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 4897
    },
    {
      "epoch": 4.9928644240570845,
      "grad_norm": 0.14201103150844574,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 4898
    },
    {
      "epoch": 4.99388379204893,
      "grad_norm": 0.09900911897420883,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 4899
    },
    {
      "epoch": 4.994903160040774,
      "grad_norm": 0.13549822568893433,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4900
    },
    {
      "epoch": 4.99592252803262,
      "grad_norm": 0.11644455045461655,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 4901
    },
    {
      "epoch": 4.996941896024465,
      "grad_norm": 0.08736873418092728,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 4902
    },
    {
      "epoch": 4.99796126401631,
      "grad_norm": 0.2372910976409912,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 4903
    },
    {
      "epoch": 4.998980632008155,
      "grad_norm": 0.10684489458799362,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 4904
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.101124607026577,
      "learning_rate": 0.001,
      "loss": 0.2196,
      "step": 4905
    },
    {
      "epoch": 5.0,
      "eval_-_f1-score": 0.24,
      "eval_-_precision": 1.0,
      "eval_-_recall": 0.13636363636363635,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9585762503835532,
      "eval_<_precision": 0.9539902280130294,
      "eval_<_recall": 0.9632065775950668,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.7540983606557377,
      "eval_=_precision": 0.7666666666666667,
      "eval_=_recall": 0.7419354838709677,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9588053553038105,
      "eval_>_precision": 0.9607843137254902,
      "eval_>_recall": 0.9568345323741008,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9528,
      "eval_loss": 0.11621405929327011,
      "eval_macro_avg_f1-score": 0.7278699915857754,
      "eval_macro_avg_precision": 0.9203603021012966,
      "eval_macro_avg_recall": 0.6995850575509429,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9301,
      "eval_samples_per_second": 773.388,
      "eval_steps_per_second": 3.094,
      "eval_weighted_avg_f1-score": 0.9520357905111648,
      "eval_weighted_avg_precision": 0.9527511478891231,
      "eval_weighted_avg_recall": 0.9528,
      "eval_weighted_avg_support": 10000.0,
      "step": 4905
    },
    {
      "epoch": 5.001019367991845,
      "grad_norm": 0.15738676488399506,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 4906
    },
    {
      "epoch": 5.00203873598369,
      "grad_norm": 0.16465988755226135,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 4907
    },
    {
      "epoch": 5.003058103975535,
      "grad_norm": 0.10019824653863907,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 4908
    },
    {
      "epoch": 5.00407747196738,
      "grad_norm": 0.11397045850753784,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 4909
    },
    {
      "epoch": 5.005096839959226,
      "grad_norm": 0.1272169053554535,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 4910
    },
    {
      "epoch": 5.00611620795107,
      "grad_norm": 0.06281337141990662,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 4911
    },
    {
      "epoch": 5.0071355759429155,
      "grad_norm": 0.12748172879219055,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 4912
    },
    {
      "epoch": 5.008154943934761,
      "grad_norm": 0.1406361609697342,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 4913
    },
    {
      "epoch": 5.009174311926605,
      "grad_norm": 0.12654243409633636,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 4914
    },
    {
      "epoch": 5.0101936799184505,
      "grad_norm": 0.10646931082010269,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 4915
    },
    {
      "epoch": 5.011213047910296,
      "grad_norm": 0.07984162122011185,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 4916
    },
    {
      "epoch": 5.01223241590214,
      "grad_norm": 0.09428122639656067,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 4917
    },
    {
      "epoch": 5.013251783893986,
      "grad_norm": 0.13574060797691345,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 4918
    },
    {
      "epoch": 5.014271151885831,
      "grad_norm": 0.12785333395004272,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 4919
    },
    {
      "epoch": 5.015290519877676,
      "grad_norm": 0.15794409811496735,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 4920
    },
    {
      "epoch": 5.016309887869521,
      "grad_norm": 0.11794458329677582,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 4921
    },
    {
      "epoch": 5.017329255861366,
      "grad_norm": 0.12148325890302658,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 4922
    },
    {
      "epoch": 5.018348623853211,
      "grad_norm": 0.12743492424488068,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 4923
    },
    {
      "epoch": 5.019367991845056,
      "grad_norm": 0.10951193422079086,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 4924
    },
    {
      "epoch": 5.020387359836901,
      "grad_norm": 0.12924233078956604,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 4925
    },
    {
      "epoch": 5.021406727828746,
      "grad_norm": 0.09473257511854172,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 4926
    },
    {
      "epoch": 5.022426095820591,
      "grad_norm": 0.22880588471889496,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 4927
    },
    {
      "epoch": 5.023445463812436,
      "grad_norm": 0.13960401713848114,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 4928
    },
    {
      "epoch": 5.0244648318042815,
      "grad_norm": 0.16134905815124512,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 4929
    },
    {
      "epoch": 5.025484199796127,
      "grad_norm": 0.14985889196395874,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 4930
    },
    {
      "epoch": 5.026503567787971,
      "grad_norm": 0.11863578110933304,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 4931
    },
    {
      "epoch": 5.027522935779817,
      "grad_norm": 0.10041427612304688,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 4932
    },
    {
      "epoch": 5.028542303771662,
      "grad_norm": 0.13581456243991852,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 4933
    },
    {
      "epoch": 5.029561671763506,
      "grad_norm": 0.12212180346250534,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 4934
    },
    {
      "epoch": 5.030581039755352,
      "grad_norm": 0.1381126195192337,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 4935
    },
    {
      "epoch": 5.031600407747197,
      "grad_norm": 0.15886250138282776,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 4936
    },
    {
      "epoch": 5.032619775739041,
      "grad_norm": 0.1174323782324791,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 4937
    },
    {
      "epoch": 5.033639143730887,
      "grad_norm": 0.1494198590517044,
      "learning_rate": 0.001,
      "loss": 0.2367,
      "step": 4938
    },
    {
      "epoch": 5.034658511722732,
      "grad_norm": 0.14045430719852448,
      "learning_rate": 0.001,
      "loss": 0.2338,
      "step": 4939
    },
    {
      "epoch": 5.035677879714577,
      "grad_norm": 0.12742270529270172,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 4940
    },
    {
      "epoch": 5.036697247706422,
      "grad_norm": 0.20694735646247864,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 4941
    },
    {
      "epoch": 5.037716615698267,
      "grad_norm": 0.14502115547657013,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 4942
    },
    {
      "epoch": 5.038735983690112,
      "grad_norm": 0.10751405358314514,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 4943
    },
    {
      "epoch": 5.039755351681957,
      "grad_norm": 0.08991393446922302,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 4944
    },
    {
      "epoch": 5.040774719673802,
      "grad_norm": 0.20233087241649628,
      "learning_rate": 0.001,
      "loss": 0.2183,
      "step": 4945
    },
    {
      "epoch": 5.0417940876656475,
      "grad_norm": 0.07916950434446335,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 4946
    },
    {
      "epoch": 5.042813455657492,
      "grad_norm": 0.255768746137619,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 4947
    },
    {
      "epoch": 5.043832823649337,
      "grad_norm": 0.09481880068778992,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 4948
    },
    {
      "epoch": 5.044852191641183,
      "grad_norm": 0.09874048829078674,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 4949
    },
    {
      "epoch": 5.045871559633028,
      "grad_norm": 0.09097674489021301,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 4950
    },
    {
      "epoch": 5.046890927624872,
      "grad_norm": 0.1871061623096466,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 4951
    },
    {
      "epoch": 5.047910295616718,
      "grad_norm": 0.06989873200654984,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 4952
    },
    {
      "epoch": 5.048929663608563,
      "grad_norm": 0.19088800251483917,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 4953
    },
    {
      "epoch": 5.049949031600407,
      "grad_norm": 0.13133350014686584,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4954
    },
    {
      "epoch": 5.050968399592253,
      "grad_norm": 0.10406795144081116,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 4955
    },
    {
      "epoch": 5.051987767584098,
      "grad_norm": 0.13655291497707367,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 4956
    },
    {
      "epoch": 5.0530071355759425,
      "grad_norm": 0.14725059270858765,
      "learning_rate": 0.001,
      "loss": 0.2369,
      "step": 4957
    },
    {
      "epoch": 5.054026503567788,
      "grad_norm": 0.2346954345703125,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 4958
    },
    {
      "epoch": 5.055045871559633,
      "grad_norm": 0.11782625317573547,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 4959
    },
    {
      "epoch": 5.0560652395514785,
      "grad_norm": 0.1392330378293991,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 4960
    },
    {
      "epoch": 5.057084607543323,
      "grad_norm": 0.18755386769771576,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 4961
    },
    {
      "epoch": 5.058103975535168,
      "grad_norm": 0.17572425305843353,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 4962
    },
    {
      "epoch": 5.0591233435270135,
      "grad_norm": 0.1598128080368042,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 4963
    },
    {
      "epoch": 5.060142711518858,
      "grad_norm": 0.1087174117565155,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 4964
    },
    {
      "epoch": 5.061162079510703,
      "grad_norm": 0.16095727682113647,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 4965
    },
    {
      "epoch": 5.062181447502549,
      "grad_norm": 0.11187310516834259,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 4966
    },
    {
      "epoch": 5.063200815494393,
      "grad_norm": 0.11496900767087936,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 4967
    },
    {
      "epoch": 5.064220183486238,
      "grad_norm": 0.12781451642513275,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 4968
    },
    {
      "epoch": 5.065239551478084,
      "grad_norm": 0.22630049288272858,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 4969
    },
    {
      "epoch": 5.066258919469929,
      "grad_norm": 0.1412433683872223,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 4970
    },
    {
      "epoch": 5.0672782874617734,
      "grad_norm": 0.11111991852521896,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 4971
    },
    {
      "epoch": 5.068297655453619,
      "grad_norm": 0.19510382413864136,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 4972
    },
    {
      "epoch": 5.069317023445464,
      "grad_norm": 0.16248689591884613,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 4973
    },
    {
      "epoch": 5.0703363914373085,
      "grad_norm": 0.15251758694648743,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 4974
    },
    {
      "epoch": 5.071355759429154,
      "grad_norm": 0.2698502838611603,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 4975
    },
    {
      "epoch": 5.072375127420999,
      "grad_norm": 0.062364932149648666,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 4976
    },
    {
      "epoch": 5.073394495412844,
      "grad_norm": 0.09931977093219757,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 4977
    },
    {
      "epoch": 5.074413863404689,
      "grad_norm": 0.12554900348186493,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 4978
    },
    {
      "epoch": 5.075433231396534,
      "grad_norm": 0.15366694331169128,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 4979
    },
    {
      "epoch": 5.07645259938838,
      "grad_norm": 0.16880150139331818,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 4980
    },
    {
      "epoch": 5.077471967380224,
      "grad_norm": 0.1322949379682541,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 4981
    },
    {
      "epoch": 5.078491335372069,
      "grad_norm": 0.15808402001857758,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 4982
    },
    {
      "epoch": 5.079510703363915,
      "grad_norm": 0.09899747371673584,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 4983
    },
    {
      "epoch": 5.080530071355759,
      "grad_norm": 0.1145128607749939,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 4984
    },
    {
      "epoch": 5.081549439347604,
      "grad_norm": 0.07822646200656891,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 4985
    },
    {
      "epoch": 5.08256880733945,
      "grad_norm": 0.1261271983385086,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 4986
    },
    {
      "epoch": 5.083588175331295,
      "grad_norm": 0.08880171924829483,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 4987
    },
    {
      "epoch": 5.0846075433231395,
      "grad_norm": 0.10269857943058014,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 4988
    },
    {
      "epoch": 5.085626911314985,
      "grad_norm": 0.12580271065235138,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 4989
    },
    {
      "epoch": 5.08664627930683,
      "grad_norm": 0.17832867801189423,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 4990
    },
    {
      "epoch": 5.0876656472986745,
      "grad_norm": 0.21582624316215515,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 4991
    },
    {
      "epoch": 5.08868501529052,
      "grad_norm": 0.1386348009109497,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 4992
    },
    {
      "epoch": 5.089704383282365,
      "grad_norm": 0.3680213391780853,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 4993
    },
    {
      "epoch": 5.09072375127421,
      "grad_norm": 0.12889982759952545,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 4994
    },
    {
      "epoch": 5.091743119266055,
      "grad_norm": 0.16751356422901154,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 4995
    },
    {
      "epoch": 5.0927624872579,
      "grad_norm": 0.1693449467420578,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 4996
    },
    {
      "epoch": 5.093781855249746,
      "grad_norm": 0.11091483384370804,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 4997
    },
    {
      "epoch": 5.09480122324159,
      "grad_norm": 0.1485728621482849,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 4998
    },
    {
      "epoch": 5.095820591233435,
      "grad_norm": 0.14712370932102203,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 4999
    },
    {
      "epoch": 5.096839959225281,
      "grad_norm": 0.1631365567445755,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 5000
    },
    {
      "epoch": 5.097859327217125,
      "grad_norm": 0.13536669313907623,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 5001
    },
    {
      "epoch": 5.09887869520897,
      "grad_norm": 0.12207327783107758,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 5002
    },
    {
      "epoch": 5.099898063200816,
      "grad_norm": 0.10883574932813644,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 5003
    },
    {
      "epoch": 5.10091743119266,
      "grad_norm": 0.12168338149785995,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 5004
    },
    {
      "epoch": 5.1019367991845055,
      "grad_norm": 0.32170382142066956,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 5005
    },
    {
      "epoch": 5.102956167176351,
      "grad_norm": 0.19843780994415283,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 5006
    },
    {
      "epoch": 5.103975535168196,
      "grad_norm": 0.10381142795085907,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 5007
    },
    {
      "epoch": 5.104994903160041,
      "grad_norm": 0.12841688096523285,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 5008
    },
    {
      "epoch": 5.106014271151886,
      "grad_norm": 0.0807202085852623,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 5009
    },
    {
      "epoch": 5.107033639143731,
      "grad_norm": 0.1491183191537857,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 5010
    },
    {
      "epoch": 5.108053007135576,
      "grad_norm": 0.1891411989927292,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5011
    },
    {
      "epoch": 5.109072375127421,
      "grad_norm": 0.13495025038719177,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 5012
    },
    {
      "epoch": 5.110091743119266,
      "grad_norm": 0.18439048528671265,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 5013
    },
    {
      "epoch": 5.111111111111111,
      "grad_norm": 0.13075414299964905,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 5014
    },
    {
      "epoch": 5.112130479102956,
      "grad_norm": 0.14963461458683014,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 5015
    },
    {
      "epoch": 5.113149847094801,
      "grad_norm": 0.1032918244600296,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 5016
    },
    {
      "epoch": 5.114169215086647,
      "grad_norm": 0.1808272749185562,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 5017
    },
    {
      "epoch": 5.115188583078491,
      "grad_norm": 0.07542525231838226,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 5018
    },
    {
      "epoch": 5.116207951070336,
      "grad_norm": 0.13946442306041718,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 5019
    },
    {
      "epoch": 5.117227319062182,
      "grad_norm": 0.17104528844356537,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 5020
    },
    {
      "epoch": 5.118246687054026,
      "grad_norm": 0.14121173322200775,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 5021
    },
    {
      "epoch": 5.1192660550458715,
      "grad_norm": 0.1343061923980713,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 5022
    },
    {
      "epoch": 5.120285423037717,
      "grad_norm": 0.12397193908691406,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 5023
    },
    {
      "epoch": 5.121304791029561,
      "grad_norm": 0.16489766538143158,
      "learning_rate": 0.001,
      "loss": 0.2313,
      "step": 5024
    },
    {
      "epoch": 5.122324159021407,
      "grad_norm": 0.11776421964168549,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 5025
    },
    {
      "epoch": 5.123343527013252,
      "grad_norm": 0.1293444037437439,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 5026
    },
    {
      "epoch": 5.124362895005097,
      "grad_norm": 0.11801837384700775,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 5027
    },
    {
      "epoch": 5.125382262996942,
      "grad_norm": 0.10796353220939636,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 5028
    },
    {
      "epoch": 5.126401630988787,
      "grad_norm": 0.12010937184095383,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 5029
    },
    {
      "epoch": 5.127420998980632,
      "grad_norm": 0.15461485087871552,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 5030
    },
    {
      "epoch": 5.128440366972477,
      "grad_norm": 0.22196364402770996,
      "learning_rate": 0.001,
      "loss": 0.2296,
      "step": 5031
    },
    {
      "epoch": 5.129459734964322,
      "grad_norm": 0.13506543636322021,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 5032
    },
    {
      "epoch": 5.130479102956167,
      "grad_norm": 0.1188390776515007,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5033
    },
    {
      "epoch": 5.131498470948012,
      "grad_norm": 0.10673157870769501,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 5034
    },
    {
      "epoch": 5.132517838939857,
      "grad_norm": 0.1850343495607376,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 5035
    },
    {
      "epoch": 5.1335372069317025,
      "grad_norm": 0.1341399997472763,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 5036
    },
    {
      "epoch": 5.134556574923548,
      "grad_norm": 0.12088801711797714,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 5037
    },
    {
      "epoch": 5.135575942915392,
      "grad_norm": 0.1510908603668213,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 5038
    },
    {
      "epoch": 5.1365953109072375,
      "grad_norm": 0.11523159593343735,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 5039
    },
    {
      "epoch": 5.137614678899083,
      "grad_norm": 0.07449327409267426,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 5040
    },
    {
      "epoch": 5.138634046890927,
      "grad_norm": 0.12486070394515991,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 5041
    },
    {
      "epoch": 5.139653414882773,
      "grad_norm": 0.14605067670345306,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 5042
    },
    {
      "epoch": 5.140672782874618,
      "grad_norm": 0.2025914043188095,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 5043
    },
    {
      "epoch": 5.141692150866462,
      "grad_norm": 0.0894729420542717,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5044
    },
    {
      "epoch": 5.142711518858308,
      "grad_norm": 0.15718460083007812,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 5045
    },
    {
      "epoch": 5.143730886850153,
      "grad_norm": 0.12720580399036407,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 5046
    },
    {
      "epoch": 5.144750254841998,
      "grad_norm": 0.07946484535932541,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 5047
    },
    {
      "epoch": 5.145769622833843,
      "grad_norm": 0.13956762850284576,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 5048
    },
    {
      "epoch": 5.146788990825688,
      "grad_norm": 0.1253947913646698,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 5049
    },
    {
      "epoch": 5.147808358817533,
      "grad_norm": 0.1504380702972412,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 5050
    },
    {
      "epoch": 5.148827726809378,
      "grad_norm": 0.16785357892513275,
      "learning_rate": 0.001,
      "loss": 0.2343,
      "step": 5051
    },
    {
      "epoch": 5.149847094801223,
      "grad_norm": 0.08804964274168015,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5052
    },
    {
      "epoch": 5.1508664627930685,
      "grad_norm": 0.09915187209844589,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 5053
    },
    {
      "epoch": 5.151885830784913,
      "grad_norm": 0.15063178539276123,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5054
    },
    {
      "epoch": 5.152905198776758,
      "grad_norm": 0.18224774301052094,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 5055
    },
    {
      "epoch": 5.1539245667686036,
      "grad_norm": 0.0803571343421936,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 5056
    },
    {
      "epoch": 5.154943934760449,
      "grad_norm": 0.0873011127114296,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 5057
    },
    {
      "epoch": 5.155963302752293,
      "grad_norm": 0.21425485610961914,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 5058
    },
    {
      "epoch": 5.156982670744139,
      "grad_norm": 0.15335209667682648,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5059
    },
    {
      "epoch": 5.158002038735984,
      "grad_norm": 0.1439293920993805,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 5060
    },
    {
      "epoch": 5.159021406727828,
      "grad_norm": 0.18358518183231354,
      "learning_rate": 0.001,
      "loss": 0.2373,
      "step": 5061
    },
    {
      "epoch": 5.160040774719674,
      "grad_norm": 0.1271110326051712,
      "learning_rate": 0.001,
      "loss": 0.2306,
      "step": 5062
    },
    {
      "epoch": 5.161060142711519,
      "grad_norm": 0.1281079202890396,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 5063
    },
    {
      "epoch": 5.162079510703364,
      "grad_norm": 0.23388494551181793,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 5064
    },
    {
      "epoch": 5.163098878695209,
      "grad_norm": 0.12553560733795166,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 5065
    },
    {
      "epoch": 5.164118246687054,
      "grad_norm": 0.11455513536930084,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 5066
    },
    {
      "epoch": 5.165137614678899,
      "grad_norm": 0.08314712345600128,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5067
    },
    {
      "epoch": 5.166156982670744,
      "grad_norm": 0.14277346432209015,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 5068
    },
    {
      "epoch": 5.167176350662589,
      "grad_norm": 0.17862136662006378,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 5069
    },
    {
      "epoch": 5.1681957186544345,
      "grad_norm": 0.142241969704628,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5070
    },
    {
      "epoch": 5.169215086646279,
      "grad_norm": 0.2154841125011444,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5071
    },
    {
      "epoch": 5.170234454638124,
      "grad_norm": 0.0991440936923027,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 5072
    },
    {
      "epoch": 5.17125382262997,
      "grad_norm": 0.18103650212287903,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 5073
    },
    {
      "epoch": 5.172273190621815,
      "grad_norm": 0.1428980827331543,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5074
    },
    {
      "epoch": 5.173292558613659,
      "grad_norm": 0.14689584076404572,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 5075
    },
    {
      "epoch": 5.174311926605505,
      "grad_norm": 0.13898268342018127,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 5076
    },
    {
      "epoch": 5.17533129459735,
      "grad_norm": 0.149307519197464,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 5077
    },
    {
      "epoch": 5.176350662589194,
      "grad_norm": 0.13925611972808838,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 5078
    },
    {
      "epoch": 5.17737003058104,
      "grad_norm": 0.15293453633785248,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 5079
    },
    {
      "epoch": 5.178389398572885,
      "grad_norm": 0.1154639944434166,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 5080
    },
    {
      "epoch": 5.1794087665647295,
      "grad_norm": 0.1805998980998993,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 5081
    },
    {
      "epoch": 5.180428134556575,
      "grad_norm": 0.15218833088874817,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 5082
    },
    {
      "epoch": 5.18144750254842,
      "grad_norm": 0.11548126488924026,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 5083
    },
    {
      "epoch": 5.1824668705402654,
      "grad_norm": 0.13275884091854095,
      "learning_rate": 0.001,
      "loss": 0.2324,
      "step": 5084
    },
    {
      "epoch": 5.18348623853211,
      "grad_norm": 0.1434716284275055,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 5085
    },
    {
      "epoch": 5.184505606523955,
      "grad_norm": 0.15236802399158478,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 5086
    },
    {
      "epoch": 5.1855249745158005,
      "grad_norm": 0.09929598867893219,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 5087
    },
    {
      "epoch": 5.186544342507645,
      "grad_norm": 0.11108112335205078,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 5088
    },
    {
      "epoch": 5.18756371049949,
      "grad_norm": 0.12668496370315552,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5089
    },
    {
      "epoch": 5.188583078491336,
      "grad_norm": 0.1610584408044815,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5090
    },
    {
      "epoch": 5.18960244648318,
      "grad_norm": 0.1566876471042633,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 5091
    },
    {
      "epoch": 5.190621814475025,
      "grad_norm": 0.08573177456855774,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 5092
    },
    {
      "epoch": 5.191641182466871,
      "grad_norm": 0.1359473317861557,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 5093
    },
    {
      "epoch": 5.192660550458716,
      "grad_norm": 0.09770458936691284,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 5094
    },
    {
      "epoch": 5.19367991845056,
      "grad_norm": 0.09650330245494843,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 5095
    },
    {
      "epoch": 5.194699286442406,
      "grad_norm": 0.08816292881965637,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 5096
    },
    {
      "epoch": 5.195718654434251,
      "grad_norm": 0.13536995649337769,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 5097
    },
    {
      "epoch": 5.1967380224260955,
      "grad_norm": 0.15268968045711517,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 5098
    },
    {
      "epoch": 5.197757390417941,
      "grad_norm": 0.11674761772155762,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 5099
    },
    {
      "epoch": 5.198776758409786,
      "grad_norm": 0.10606484860181808,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 5100
    },
    {
      "epoch": 5.199796126401631,
      "grad_norm": 0.13264714181423187,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 5101
    },
    {
      "epoch": 5.200815494393476,
      "grad_norm": 0.14491446316242218,
      "learning_rate": 0.001,
      "loss": 0.2385,
      "step": 5102
    },
    {
      "epoch": 5.201834862385321,
      "grad_norm": 0.1252172440290451,
      "learning_rate": 0.001,
      "loss": 0.2321,
      "step": 5103
    },
    {
      "epoch": 5.2028542303771665,
      "grad_norm": 0.1860581785440445,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 5104
    },
    {
      "epoch": 5.203873598369011,
      "grad_norm": 0.2299872785806656,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 5105
    },
    {
      "epoch": 5.204892966360856,
      "grad_norm": 0.09317246824502945,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 5106
    },
    {
      "epoch": 5.205912334352702,
      "grad_norm": 0.09257464855909348,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 5107
    },
    {
      "epoch": 5.206931702344546,
      "grad_norm": 0.15116268396377563,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 5108
    },
    {
      "epoch": 5.207951070336391,
      "grad_norm": 0.12261075526475906,
      "learning_rate": 0.001,
      "loss": 0.2239,
      "step": 5109
    },
    {
      "epoch": 5.208970438328237,
      "grad_norm": 0.13706575334072113,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 5110
    },
    {
      "epoch": 5.209989806320081,
      "grad_norm": 0.17968933284282684,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 5111
    },
    {
      "epoch": 5.2110091743119265,
      "grad_norm": 0.09209290146827698,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 5112
    },
    {
      "epoch": 5.212028542303772,
      "grad_norm": 0.1378496140241623,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 5113
    },
    {
      "epoch": 5.213047910295617,
      "grad_norm": 0.12057674676179886,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 5114
    },
    {
      "epoch": 5.2140672782874615,
      "grad_norm": 0.17883791029453278,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 5115
    },
    {
      "epoch": 5.215086646279307,
      "grad_norm": 0.19184169173240662,
      "learning_rate": 0.001,
      "loss": 0.2346,
      "step": 5116
    },
    {
      "epoch": 5.216106014271152,
      "grad_norm": 0.1718452423810959,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 5117
    },
    {
      "epoch": 5.217125382262997,
      "grad_norm": 0.10818804055452347,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5118
    },
    {
      "epoch": 5.218144750254842,
      "grad_norm": 0.1368783861398697,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 5119
    },
    {
      "epoch": 5.219164118246687,
      "grad_norm": 0.1506144255399704,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 5120
    },
    {
      "epoch": 5.220183486238533,
      "grad_norm": 0.15560893714427948,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 5121
    },
    {
      "epoch": 5.221202854230377,
      "grad_norm": 0.17462189495563507,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 5122
    },
    {
      "epoch": 5.222222222222222,
      "grad_norm": 0.1735232025384903,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 5123
    },
    {
      "epoch": 5.223241590214068,
      "grad_norm": 0.14968466758728027,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 5124
    },
    {
      "epoch": 5.224260958205912,
      "grad_norm": 0.142329141497612,
      "learning_rate": 0.001,
      "loss": 0.2241,
      "step": 5125
    },
    {
      "epoch": 5.225280326197757,
      "grad_norm": 0.133188396692276,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 5126
    },
    {
      "epoch": 5.226299694189603,
      "grad_norm": 0.12155348807573318,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 5127
    },
    {
      "epoch": 5.227319062181447,
      "grad_norm": 0.10897155851125717,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 5128
    },
    {
      "epoch": 5.2283384301732925,
      "grad_norm": 0.13463224470615387,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 5129
    },
    {
      "epoch": 5.229357798165138,
      "grad_norm": 0.10744353383779526,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 5130
    },
    {
      "epoch": 5.230377166156982,
      "grad_norm": 0.1936051845550537,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 5131
    },
    {
      "epoch": 5.2313965341488275,
      "grad_norm": 0.24068878591060638,
      "learning_rate": 0.001,
      "loss": 0.255,
      "step": 5132
    },
    {
      "epoch": 5.232415902140673,
      "grad_norm": 0.17769035696983337,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 5133
    },
    {
      "epoch": 5.233435270132518,
      "grad_norm": 0.09071960300207138,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 5134
    },
    {
      "epoch": 5.234454638124363,
      "grad_norm": 0.22417499125003815,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 5135
    },
    {
      "epoch": 5.235474006116208,
      "grad_norm": 0.23639331758022308,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5136
    },
    {
      "epoch": 5.236493374108053,
      "grad_norm": 0.14564836025238037,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 5137
    },
    {
      "epoch": 5.237512742099898,
      "grad_norm": 0.10208278894424438,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 5138
    },
    {
      "epoch": 5.238532110091743,
      "grad_norm": 0.10501212626695633,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 5139
    },
    {
      "epoch": 5.239551478083588,
      "grad_norm": 0.13740931451320648,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 5140
    },
    {
      "epoch": 5.240570846075434,
      "grad_norm": 0.1094571128487587,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5141
    },
    {
      "epoch": 5.241590214067278,
      "grad_norm": 0.1407993882894516,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5142
    },
    {
      "epoch": 5.242609582059123,
      "grad_norm": 0.06806561350822449,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 5143
    },
    {
      "epoch": 5.243628950050969,
      "grad_norm": 0.1249161809682846,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 5144
    },
    {
      "epoch": 5.244648318042813,
      "grad_norm": 0.11119981855154037,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5145
    },
    {
      "epoch": 5.2456676860346585,
      "grad_norm": 0.08371584862470627,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 5146
    },
    {
      "epoch": 5.246687054026504,
      "grad_norm": 0.129582941532135,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 5147
    },
    {
      "epoch": 5.247706422018348,
      "grad_norm": 0.1460813283920288,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 5148
    },
    {
      "epoch": 5.248725790010194,
      "grad_norm": 0.15850038826465607,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5149
    },
    {
      "epoch": 5.249745158002039,
      "grad_norm": 0.09520512819290161,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 5150
    },
    {
      "epoch": 5.250764525993883,
      "grad_norm": 0.17143966257572174,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5151
    },
    {
      "epoch": 5.251783893985729,
      "grad_norm": 0.17911435663700104,
      "learning_rate": 0.001,
      "loss": 0.2316,
      "step": 5152
    },
    {
      "epoch": 5.252803261977574,
      "grad_norm": 0.17189499735832214,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 5153
    },
    {
      "epoch": 5.253822629969419,
      "grad_norm": 0.11607781797647476,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 5154
    },
    {
      "epoch": 5.254841997961264,
      "grad_norm": 0.14539723098278046,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 5155
    },
    {
      "epoch": 5.255861365953109,
      "grad_norm": 0.19013650715351105,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 5156
    },
    {
      "epoch": 5.256880733944954,
      "grad_norm": 0.14201804995536804,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 5157
    },
    {
      "epoch": 5.257900101936799,
      "grad_norm": 0.17072705924510956,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 5158
    },
    {
      "epoch": 5.258919469928644,
      "grad_norm": 0.11522410809993744,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 5159
    },
    {
      "epoch": 5.259938837920489,
      "grad_norm": 0.14808176457881927,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 5160
    },
    {
      "epoch": 5.260958205912335,
      "grad_norm": 0.11845199763774872,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 5161
    },
    {
      "epoch": 5.261977573904179,
      "grad_norm": 0.07542688399553299,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 5162
    },
    {
      "epoch": 5.2629969418960245,
      "grad_norm": 0.13887374103069305,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 5163
    },
    {
      "epoch": 5.26401630988787,
      "grad_norm": 0.15825237333774567,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5164
    },
    {
      "epoch": 5.265035677879714,
      "grad_norm": 0.32768967747688293,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5165
    },
    {
      "epoch": 5.26605504587156,
      "grad_norm": 0.16679984331130981,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 5166
    },
    {
      "epoch": 5.267074413863405,
      "grad_norm": 0.14440001547336578,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5167
    },
    {
      "epoch": 5.268093781855249,
      "grad_norm": 0.08216661959886551,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 5168
    },
    {
      "epoch": 5.269113149847095,
      "grad_norm": 0.12193872034549713,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 5169
    },
    {
      "epoch": 5.27013251783894,
      "grad_norm": 0.11641860753297806,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5170
    },
    {
      "epoch": 5.271151885830785,
      "grad_norm": 0.11557698249816895,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 5171
    },
    {
      "epoch": 5.27217125382263,
      "grad_norm": 0.20409265160560608,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5172
    },
    {
      "epoch": 5.273190621814475,
      "grad_norm": 0.13532721996307373,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 5173
    },
    {
      "epoch": 5.27420998980632,
      "grad_norm": 0.16717906296253204,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 5174
    },
    {
      "epoch": 5.275229357798165,
      "grad_norm": 0.10564972460269928,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 5175
    },
    {
      "epoch": 5.27624872579001,
      "grad_norm": 0.13160692155361176,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 5176
    },
    {
      "epoch": 5.2772680937818555,
      "grad_norm": 0.0856066569685936,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 5177
    },
    {
      "epoch": 5.2782874617737,
      "grad_norm": 0.13539427518844604,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 5178
    },
    {
      "epoch": 5.279306829765545,
      "grad_norm": 0.09550612419843674,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 5179
    },
    {
      "epoch": 5.2803261977573905,
      "grad_norm": 0.17557105422019958,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 5180
    },
    {
      "epoch": 5.281345565749236,
      "grad_norm": 0.11672551929950714,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 5181
    },
    {
      "epoch": 5.28236493374108,
      "grad_norm": 0.10748041421175003,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 5182
    },
    {
      "epoch": 5.283384301732926,
      "grad_norm": 0.11073075979948044,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5183
    },
    {
      "epoch": 5.284403669724771,
      "grad_norm": 0.11650872975587845,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 5184
    },
    {
      "epoch": 5.285423037716615,
      "grad_norm": 0.126178577542305,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5185
    },
    {
      "epoch": 5.286442405708461,
      "grad_norm": 0.08103503286838531,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5186
    },
    {
      "epoch": 5.287461773700306,
      "grad_norm": 0.14581702649593353,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 5187
    },
    {
      "epoch": 5.2884811416921504,
      "grad_norm": 0.12383952736854553,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 5188
    },
    {
      "epoch": 5.289500509683996,
      "grad_norm": 0.19782324135303497,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 5189
    },
    {
      "epoch": 5.290519877675841,
      "grad_norm": 0.15085987746715546,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 5190
    },
    {
      "epoch": 5.291539245667686,
      "grad_norm": 0.14043191075325012,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 5191
    },
    {
      "epoch": 5.292558613659531,
      "grad_norm": 0.14293818175792694,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5192
    },
    {
      "epoch": 5.293577981651376,
      "grad_norm": 0.34584784507751465,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 5193
    },
    {
      "epoch": 5.2945973496432215,
      "grad_norm": 0.2252131700515747,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 5194
    },
    {
      "epoch": 5.295616717635066,
      "grad_norm": 0.16505436599254608,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 5195
    },
    {
      "epoch": 5.296636085626911,
      "grad_norm": 0.232885479927063,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5196
    },
    {
      "epoch": 5.297655453618757,
      "grad_norm": 0.09519437700510025,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 5197
    },
    {
      "epoch": 5.298674821610602,
      "grad_norm": 0.17670166492462158,
      "learning_rate": 0.001,
      "loss": 0.2156,
      "step": 5198
    },
    {
      "epoch": 5.299694189602446,
      "grad_norm": 0.1578904390335083,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 5199
    },
    {
      "epoch": 5.300713557594292,
      "grad_norm": 0.27528446912765503,
      "learning_rate": 0.001,
      "loss": 0.2628,
      "step": 5200
    },
    {
      "epoch": 5.301732925586137,
      "grad_norm": 0.07638347148895264,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 5201
    },
    {
      "epoch": 5.302752293577981,
      "grad_norm": 0.12725378572940826,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 5202
    },
    {
      "epoch": 5.303771661569827,
      "grad_norm": 0.11510258913040161,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 5203
    },
    {
      "epoch": 5.304791029561672,
      "grad_norm": 0.1412239968776703,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 5204
    },
    {
      "epoch": 5.3058103975535165,
      "grad_norm": 0.11119646579027176,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 5205
    },
    {
      "epoch": 5.306829765545362,
      "grad_norm": 0.11108049750328064,
      "learning_rate": 0.001,
      "loss": 0.2257,
      "step": 5206
    },
    {
      "epoch": 5.307849133537207,
      "grad_norm": 0.15159915387630463,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 5207
    },
    {
      "epoch": 5.3088685015290515,
      "grad_norm": 0.18222756683826447,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 5208
    },
    {
      "epoch": 5.309887869520897,
      "grad_norm": 0.1361214816570282,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 5209
    },
    {
      "epoch": 5.310907237512742,
      "grad_norm": 0.10235876590013504,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 5210
    },
    {
      "epoch": 5.3119266055045875,
      "grad_norm": 0.17463088035583496,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5211
    },
    {
      "epoch": 5.312945973496432,
      "grad_norm": 0.13684605062007904,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 5212
    },
    {
      "epoch": 5.313965341488277,
      "grad_norm": 0.12316468358039856,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5213
    },
    {
      "epoch": 5.314984709480123,
      "grad_norm": 0.07952635735273361,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 5214
    },
    {
      "epoch": 5.316004077471967,
      "grad_norm": 0.12565793097019196,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5215
    },
    {
      "epoch": 5.317023445463812,
      "grad_norm": 0.0842951089143753,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5216
    },
    {
      "epoch": 5.318042813455658,
      "grad_norm": 0.0989125594496727,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 5217
    },
    {
      "epoch": 5.319062181447503,
      "grad_norm": 0.11836792528629303,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 5218
    },
    {
      "epoch": 5.320081549439347,
      "grad_norm": 0.201321542263031,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 5219
    },
    {
      "epoch": 5.321100917431193,
      "grad_norm": 0.15150490403175354,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 5220
    },
    {
      "epoch": 5.322120285423038,
      "grad_norm": 0.17114678025245667,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 5221
    },
    {
      "epoch": 5.3231396534148825,
      "grad_norm": 0.205746591091156,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5222
    },
    {
      "epoch": 5.324159021406728,
      "grad_norm": 0.21894800662994385,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5223
    },
    {
      "epoch": 5.325178389398573,
      "grad_norm": 0.12124869227409363,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 5224
    },
    {
      "epoch": 5.326197757390418,
      "grad_norm": 0.10051396489143372,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 5225
    },
    {
      "epoch": 5.327217125382263,
      "grad_norm": 0.08969444036483765,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 5226
    },
    {
      "epoch": 5.328236493374108,
      "grad_norm": 0.11438996344804764,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 5227
    },
    {
      "epoch": 5.329255861365953,
      "grad_norm": 0.17119188606739044,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5228
    },
    {
      "epoch": 5.330275229357798,
      "grad_norm": 0.08027365803718567,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 5229
    },
    {
      "epoch": 5.331294597349643,
      "grad_norm": 0.15594641864299774,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5230
    },
    {
      "epoch": 5.332313965341489,
      "grad_norm": 0.12526017427444458,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 5231
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.12260201573371887,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5232
    },
    {
      "epoch": 5.334352701325178,
      "grad_norm": 0.10985662043094635,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5233
    },
    {
      "epoch": 5.335372069317024,
      "grad_norm": 0.09161324799060822,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 5234
    },
    {
      "epoch": 5.336391437308868,
      "grad_norm": 0.17663565278053284,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 5235
    },
    {
      "epoch": 5.337410805300713,
      "grad_norm": 0.14892438054084778,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 5236
    },
    {
      "epoch": 5.338430173292559,
      "grad_norm": 0.09837781637907028,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5237
    },
    {
      "epoch": 5.339449541284404,
      "grad_norm": 0.10498072952032089,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 5238
    },
    {
      "epoch": 5.3404689092762485,
      "grad_norm": 0.13494564592838287,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5239
    },
    {
      "epoch": 5.341488277268094,
      "grad_norm": 0.4613388180732727,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 5240
    },
    {
      "epoch": 5.342507645259939,
      "grad_norm": 0.1278800070285797,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 5241
    },
    {
      "epoch": 5.343527013251784,
      "grad_norm": 0.12240156531333923,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 5242
    },
    {
      "epoch": 5.344546381243629,
      "grad_norm": 0.10874035209417343,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 5243
    },
    {
      "epoch": 5.345565749235474,
      "grad_norm": 0.24289342761039734,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 5244
    },
    {
      "epoch": 5.346585117227319,
      "grad_norm": 0.16324207186698914,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 5245
    },
    {
      "epoch": 5.347604485219164,
      "grad_norm": 0.13786251842975616,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 5246
    },
    {
      "epoch": 5.348623853211009,
      "grad_norm": 0.12890920042991638,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 5247
    },
    {
      "epoch": 5.349643221202855,
      "grad_norm": 0.17351557314395905,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 5248
    },
    {
      "epoch": 5.350662589194699,
      "grad_norm": 0.11881867051124573,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 5249
    },
    {
      "epoch": 5.351681957186544,
      "grad_norm": 0.11497527360916138,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 5250
    },
    {
      "epoch": 5.35270132517839,
      "grad_norm": 0.15788833796977997,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 5251
    },
    {
      "epoch": 5.353720693170234,
      "grad_norm": 0.10575554519891739,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 5252
    },
    {
      "epoch": 5.3547400611620795,
      "grad_norm": 0.13912762701511383,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 5253
    },
    {
      "epoch": 5.355759429153925,
      "grad_norm": 0.16851931810379028,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 5254
    },
    {
      "epoch": 5.356778797145769,
      "grad_norm": 0.09194491803646088,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 5255
    },
    {
      "epoch": 5.3577981651376145,
      "grad_norm": 0.15628238022327423,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 5256
    },
    {
      "epoch": 5.35881753312946,
      "grad_norm": 0.1191045492887497,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 5257
    },
    {
      "epoch": 5.359836901121305,
      "grad_norm": 0.09500733017921448,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 5258
    },
    {
      "epoch": 5.36085626911315,
      "grad_norm": 0.16769418120384216,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 5259
    },
    {
      "epoch": 5.361875637104995,
      "grad_norm": 0.1431904435157776,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 5260
    },
    {
      "epoch": 5.36289500509684,
      "grad_norm": 0.19204078614711761,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 5261
    },
    {
      "epoch": 5.363914373088685,
      "grad_norm": 0.1312398761510849,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5262
    },
    {
      "epoch": 5.36493374108053,
      "grad_norm": 0.16594088077545166,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 5263
    },
    {
      "epoch": 5.365953109072375,
      "grad_norm": 0.1343456506729126,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 5264
    },
    {
      "epoch": 5.36697247706422,
      "grad_norm": 0.09233098477125168,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 5265
    },
    {
      "epoch": 5.367991845056065,
      "grad_norm": 0.10144589841365814,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 5266
    },
    {
      "epoch": 5.36901121304791,
      "grad_norm": 0.11805708706378937,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 5267
    },
    {
      "epoch": 5.370030581039756,
      "grad_norm": 0.15496087074279785,
      "learning_rate": 0.001,
      "loss": 0.2256,
      "step": 5268
    },
    {
      "epoch": 5.3710499490316,
      "grad_norm": 0.1644081473350525,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 5269
    },
    {
      "epoch": 5.3720693170234455,
      "grad_norm": 0.1135048046708107,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 5270
    },
    {
      "epoch": 5.373088685015291,
      "grad_norm": 0.10124624520540237,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 5271
    },
    {
      "epoch": 5.374108053007135,
      "grad_norm": 0.10806548595428467,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5272
    },
    {
      "epoch": 5.3751274209989806,
      "grad_norm": 0.11210223287343979,
      "learning_rate": 0.001,
      "loss": 0.2267,
      "step": 5273
    },
    {
      "epoch": 5.376146788990826,
      "grad_norm": 0.12513625621795654,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5274
    },
    {
      "epoch": 5.377166156982671,
      "grad_norm": 0.18410272896289825,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 5275
    },
    {
      "epoch": 5.378185524974516,
      "grad_norm": 0.23902420699596405,
      "learning_rate": 0.001,
      "loss": 0.2462,
      "step": 5276
    },
    {
      "epoch": 5.379204892966361,
      "grad_norm": 0.19859308004379272,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 5277
    },
    {
      "epoch": 5.380224260958206,
      "grad_norm": 0.07952935248613358,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 5278
    },
    {
      "epoch": 5.381243628950051,
      "grad_norm": 0.12664751708507538,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 5279
    },
    {
      "epoch": 5.382262996941896,
      "grad_norm": 0.10960087180137634,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 5280
    },
    {
      "epoch": 5.383282364933741,
      "grad_norm": 0.13892817497253418,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 5281
    },
    {
      "epoch": 5.384301732925586,
      "grad_norm": 0.14590755105018616,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 5282
    },
    {
      "epoch": 5.385321100917431,
      "grad_norm": 0.09482226520776749,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 5283
    },
    {
      "epoch": 5.386340468909276,
      "grad_norm": 0.10675369203090668,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 5284
    },
    {
      "epoch": 5.387359836901121,
      "grad_norm": 0.11083907634019852,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 5285
    },
    {
      "epoch": 5.388379204892966,
      "grad_norm": 0.10111924260854721,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 5286
    },
    {
      "epoch": 5.3893985728848115,
      "grad_norm": 0.1451759785413742,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 5287
    },
    {
      "epoch": 5.390417940876657,
      "grad_norm": 0.0786614716053009,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 5288
    },
    {
      "epoch": 5.391437308868501,
      "grad_norm": 0.1336367279291153,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 5289
    },
    {
      "epoch": 5.392456676860347,
      "grad_norm": 0.08758754283189774,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5290
    },
    {
      "epoch": 5.393476044852192,
      "grad_norm": 0.15231086313724518,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 5291
    },
    {
      "epoch": 5.394495412844036,
      "grad_norm": 0.09663671255111694,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 5292
    },
    {
      "epoch": 5.395514780835882,
      "grad_norm": 0.3583686649799347,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 5293
    },
    {
      "epoch": 5.396534148827727,
      "grad_norm": 0.14496809244155884,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 5294
    },
    {
      "epoch": 5.397553516819572,
      "grad_norm": 0.1372929960489273,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 5295
    },
    {
      "epoch": 5.398572884811417,
      "grad_norm": 0.09680810570716858,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 5296
    },
    {
      "epoch": 5.399592252803262,
      "grad_norm": 0.1556919813156128,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 5297
    },
    {
      "epoch": 5.400611620795107,
      "grad_norm": 0.12617217004299164,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5298
    },
    {
      "epoch": 5.401630988786952,
      "grad_norm": 0.12305089086294174,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5299
    },
    {
      "epoch": 5.402650356778797,
      "grad_norm": 0.16992685198783875,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 5300
    },
    {
      "epoch": 5.4036697247706424,
      "grad_norm": 0.1426609605550766,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 5301
    },
    {
      "epoch": 5.404689092762487,
      "grad_norm": 0.15835075080394745,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 5302
    },
    {
      "epoch": 5.405708460754332,
      "grad_norm": 0.16414201259613037,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 5303
    },
    {
      "epoch": 5.4067278287461775,
      "grad_norm": 0.1356576681137085,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 5304
    },
    {
      "epoch": 5.407747196738022,
      "grad_norm": 0.15289166569709778,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 5305
    },
    {
      "epoch": 5.408766564729867,
      "grad_norm": 0.19010034203529358,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 5306
    },
    {
      "epoch": 5.409785932721713,
      "grad_norm": 0.19508063793182373,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 5307
    },
    {
      "epoch": 5.410805300713558,
      "grad_norm": 0.1704995036125183,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 5308
    },
    {
      "epoch": 5.411824668705402,
      "grad_norm": 0.14164020121097565,
      "learning_rate": 0.001,
      "loss": 0.2261,
      "step": 5309
    },
    {
      "epoch": 5.412844036697248,
      "grad_norm": 0.12180055677890778,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 5310
    },
    {
      "epoch": 5.413863404689093,
      "grad_norm": 0.12467128038406372,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 5311
    },
    {
      "epoch": 5.414882772680937,
      "grad_norm": 0.1292324960231781,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 5312
    },
    {
      "epoch": 5.415902140672783,
      "grad_norm": 0.130478635430336,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 5313
    },
    {
      "epoch": 5.416921508664628,
      "grad_norm": 0.1260857880115509,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 5314
    },
    {
      "epoch": 5.417940876656473,
      "grad_norm": 0.14492259919643402,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 5315
    },
    {
      "epoch": 5.418960244648318,
      "grad_norm": 0.0797726958990097,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 5316
    },
    {
      "epoch": 5.419979612640163,
      "grad_norm": 0.2130574733018875,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5317
    },
    {
      "epoch": 5.4209989806320085,
      "grad_norm": 0.17541269958019257,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 5318
    },
    {
      "epoch": 5.422018348623853,
      "grad_norm": 0.1849827915430069,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 5319
    },
    {
      "epoch": 5.423037716615698,
      "grad_norm": 0.14611020684242249,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 5320
    },
    {
      "epoch": 5.4240570846075435,
      "grad_norm": 0.17779387533664703,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 5321
    },
    {
      "epoch": 5.425076452599388,
      "grad_norm": 0.14224125444889069,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 5322
    },
    {
      "epoch": 5.426095820591233,
      "grad_norm": 0.22380386292934418,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 5323
    },
    {
      "epoch": 5.427115188583079,
      "grad_norm": 0.22439377009868622,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 5324
    },
    {
      "epoch": 5.428134556574924,
      "grad_norm": 0.17319044470787048,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 5325
    },
    {
      "epoch": 5.429153924566768,
      "grad_norm": 0.11507231742143631,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 5326
    },
    {
      "epoch": 5.430173292558614,
      "grad_norm": 0.1687183678150177,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 5327
    },
    {
      "epoch": 5.431192660550459,
      "grad_norm": 0.175299733877182,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 5328
    },
    {
      "epoch": 5.4322120285423035,
      "grad_norm": 0.18240123987197876,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 5329
    },
    {
      "epoch": 5.433231396534149,
      "grad_norm": 0.16161303222179413,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 5330
    },
    {
      "epoch": 5.434250764525994,
      "grad_norm": 0.08041398972272873,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 5331
    },
    {
      "epoch": 5.4352701325178385,
      "grad_norm": 0.19985730946063995,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 5332
    },
    {
      "epoch": 5.436289500509684,
      "grad_norm": 0.1385718435049057,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 5333
    },
    {
      "epoch": 5.437308868501529,
      "grad_norm": 0.13003624975681305,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 5334
    },
    {
      "epoch": 5.4383282364933745,
      "grad_norm": 0.18924878537654877,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 5335
    },
    {
      "epoch": 5.439347604485219,
      "grad_norm": 0.19922855496406555,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5336
    },
    {
      "epoch": 5.440366972477064,
      "grad_norm": 0.13942332565784454,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 5337
    },
    {
      "epoch": 5.44138634046891,
      "grad_norm": 0.0982201099395752,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 5338
    },
    {
      "epoch": 5.442405708460754,
      "grad_norm": 0.09521805495023727,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 5339
    },
    {
      "epoch": 5.443425076452599,
      "grad_norm": 0.09019250422716141,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 5340
    },
    {
      "epoch": 5.444444444444445,
      "grad_norm": 0.11365538835525513,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 5341
    },
    {
      "epoch": 5.445463812436289,
      "grad_norm": 0.30714675784111023,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5342
    },
    {
      "epoch": 5.446483180428134,
      "grad_norm": 0.16048294305801392,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 5343
    },
    {
      "epoch": 5.44750254841998,
      "grad_norm": 0.14772193133831024,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 5344
    },
    {
      "epoch": 5.448521916411825,
      "grad_norm": 0.18153968453407288,
      "learning_rate": 0.001,
      "loss": 0.2189,
      "step": 5345
    },
    {
      "epoch": 5.4495412844036695,
      "grad_norm": 0.1289636492729187,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5346
    },
    {
      "epoch": 5.450560652395515,
      "grad_norm": 0.1491810828447342,
      "learning_rate": 0.001,
      "loss": 0.2277,
      "step": 5347
    },
    {
      "epoch": 5.45158002038736,
      "grad_norm": 0.15358059108257294,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 5348
    },
    {
      "epoch": 5.4525993883792045,
      "grad_norm": 0.14159104228019714,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 5349
    },
    {
      "epoch": 5.45361875637105,
      "grad_norm": 0.15566371381282806,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 5350
    },
    {
      "epoch": 5.454638124362895,
      "grad_norm": 0.12130793184041977,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 5351
    },
    {
      "epoch": 5.4556574923547405,
      "grad_norm": 0.11684193462133408,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 5352
    },
    {
      "epoch": 5.456676860346585,
      "grad_norm": 0.11919503659009933,
      "learning_rate": 0.001,
      "loss": 0.2283,
      "step": 5353
    },
    {
      "epoch": 5.45769622833843,
      "grad_norm": 0.2707482576370239,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 5354
    },
    {
      "epoch": 5.458715596330276,
      "grad_norm": 0.11400710791349411,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 5355
    },
    {
      "epoch": 5.45973496432212,
      "grad_norm": 0.10581222176551819,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 5356
    },
    {
      "epoch": 5.460754332313965,
      "grad_norm": 0.19263985753059387,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 5357
    },
    {
      "epoch": 5.461773700305811,
      "grad_norm": 0.22112704813480377,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 5358
    },
    {
      "epoch": 5.462793068297655,
      "grad_norm": 0.15806686878204346,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 5359
    },
    {
      "epoch": 5.4638124362895,
      "grad_norm": 0.1375333070755005,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 5360
    },
    {
      "epoch": 5.464831804281346,
      "grad_norm": 0.15742550790309906,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 5361
    },
    {
      "epoch": 5.46585117227319,
      "grad_norm": 0.09783437848091125,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 5362
    },
    {
      "epoch": 5.4668705402650355,
      "grad_norm": 0.1533932238817215,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 5363
    },
    {
      "epoch": 5.467889908256881,
      "grad_norm": 0.19033415615558624,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 5364
    },
    {
      "epoch": 5.468909276248726,
      "grad_norm": 0.18026703596115112,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 5365
    },
    {
      "epoch": 5.469928644240571,
      "grad_norm": 0.40818533301353455,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 5366
    },
    {
      "epoch": 5.470948012232416,
      "grad_norm": 0.35688653588294983,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 5367
    },
    {
      "epoch": 5.471967380224261,
      "grad_norm": 0.1120174303650856,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 5368
    },
    {
      "epoch": 5.472986748216106,
      "grad_norm": 0.24643397331237793,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 5369
    },
    {
      "epoch": 5.474006116207951,
      "grad_norm": 0.10428552329540253,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 5370
    },
    {
      "epoch": 5.475025484199796,
      "grad_norm": 0.13858017325401306,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 5371
    },
    {
      "epoch": 5.476044852191642,
      "grad_norm": 0.2655140161514282,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 5372
    },
    {
      "epoch": 5.477064220183486,
      "grad_norm": 0.10975445061922073,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 5373
    },
    {
      "epoch": 5.478083588175331,
      "grad_norm": 0.1709277331829071,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 5374
    },
    {
      "epoch": 5.479102956167177,
      "grad_norm": 0.07703804224729538,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 5375
    },
    {
      "epoch": 5.480122324159021,
      "grad_norm": 0.15818409621715546,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 5376
    },
    {
      "epoch": 5.481141692150866,
      "grad_norm": 0.19160279631614685,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 5377
    },
    {
      "epoch": 5.482161060142712,
      "grad_norm": 0.16954955458641052,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 5378
    },
    {
      "epoch": 5.483180428134556,
      "grad_norm": 0.1619480848312378,
      "learning_rate": 0.001,
      "loss": 0.2466,
      "step": 5379
    },
    {
      "epoch": 5.4841997961264015,
      "grad_norm": 0.09987375885248184,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 5380
    },
    {
      "epoch": 5.485219164118247,
      "grad_norm": 0.09230823069810867,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 5381
    },
    {
      "epoch": 5.486238532110092,
      "grad_norm": 0.1460157334804535,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 5382
    },
    {
      "epoch": 5.487257900101937,
      "grad_norm": 0.2474067658185959,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5383
    },
    {
      "epoch": 5.488277268093782,
      "grad_norm": 0.18831488490104675,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 5384
    },
    {
      "epoch": 5.489296636085627,
      "grad_norm": 0.09305782616138458,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 5385
    },
    {
      "epoch": 5.490316004077472,
      "grad_norm": 0.13445842266082764,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 5386
    },
    {
      "epoch": 5.491335372069317,
      "grad_norm": 0.08642803877592087,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 5387
    },
    {
      "epoch": 5.492354740061162,
      "grad_norm": 0.09206891804933548,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 5388
    },
    {
      "epoch": 5.493374108053007,
      "grad_norm": 0.09455139935016632,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 5389
    },
    {
      "epoch": 5.494393476044852,
      "grad_norm": 0.13543102145195007,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5390
    },
    {
      "epoch": 5.495412844036697,
      "grad_norm": 0.28728386759757996,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5391
    },
    {
      "epoch": 5.496432212028543,
      "grad_norm": 0.10450006276369095,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 5392
    },
    {
      "epoch": 5.497451580020387,
      "grad_norm": 0.12242688983678818,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 5393
    },
    {
      "epoch": 5.4984709480122325,
      "grad_norm": 0.12661004066467285,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 5394
    },
    {
      "epoch": 5.499490316004078,
      "grad_norm": 0.1429787129163742,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 5395
    },
    {
      "epoch": 5.500509683995922,
      "grad_norm": 0.1428556740283966,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 5396
    },
    {
      "epoch": 5.5015290519877675,
      "grad_norm": 0.10695093125104904,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 5397
    },
    {
      "epoch": 5.502548419979613,
      "grad_norm": 0.0939318984746933,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 5398
    },
    {
      "epoch": 5.503567787971457,
      "grad_norm": 0.13213615119457245,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 5399
    },
    {
      "epoch": 5.504587155963303,
      "grad_norm": 0.09220827370882034,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 5400
    },
    {
      "epoch": 5.505606523955148,
      "grad_norm": 0.1014513298869133,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5401
    },
    {
      "epoch": 5.506625891946992,
      "grad_norm": 0.11428724229335785,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5402
    },
    {
      "epoch": 5.507645259938838,
      "grad_norm": 0.12109724432229996,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 5403
    },
    {
      "epoch": 5.508664627930683,
      "grad_norm": 0.11808837205171585,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 5404
    },
    {
      "epoch": 5.509683995922528,
      "grad_norm": 0.11689688265323639,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 5405
    },
    {
      "epoch": 5.510703363914373,
      "grad_norm": 0.14040783047676086,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 5406
    },
    {
      "epoch": 5.511722731906218,
      "grad_norm": 0.10225845128297806,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 5407
    },
    {
      "epoch": 5.512742099898063,
      "grad_norm": 0.2203460931777954,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 5408
    },
    {
      "epoch": 5.513761467889909,
      "grad_norm": 0.13435962796211243,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 5409
    },
    {
      "epoch": 5.514780835881753,
      "grad_norm": 0.12669110298156738,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 5410
    },
    {
      "epoch": 5.5158002038735985,
      "grad_norm": 0.1932062804698944,
      "learning_rate": 0.001,
      "loss": 0.23,
      "step": 5411
    },
    {
      "epoch": 5.516819571865444,
      "grad_norm": 0.14123524725437164,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 5412
    },
    {
      "epoch": 5.517838939857288,
      "grad_norm": 0.13193097710609436,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 5413
    },
    {
      "epoch": 5.518858307849134,
      "grad_norm": 0.1914459466934204,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5414
    },
    {
      "epoch": 5.519877675840979,
      "grad_norm": 0.11487438529729843,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 5415
    },
    {
      "epoch": 5.520897043832823,
      "grad_norm": 0.17988620698451996,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 5416
    },
    {
      "epoch": 5.521916411824669,
      "grad_norm": 0.25121572613716125,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 5417
    },
    {
      "epoch": 5.522935779816514,
      "grad_norm": 0.1781102567911148,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 5418
    },
    {
      "epoch": 5.523955147808358,
      "grad_norm": 0.1585506945848465,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 5419
    },
    {
      "epoch": 5.524974515800204,
      "grad_norm": 0.11431632936000824,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 5420
    },
    {
      "epoch": 5.525993883792049,
      "grad_norm": 0.08756301552057266,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 5421
    },
    {
      "epoch": 5.527013251783894,
      "grad_norm": 0.16733264923095703,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 5422
    },
    {
      "epoch": 5.528032619775739,
      "grad_norm": 0.09779055416584015,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 5423
    },
    {
      "epoch": 5.529051987767584,
      "grad_norm": 0.08020399510860443,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 5424
    },
    {
      "epoch": 5.530071355759429,
      "grad_norm": 0.0871986523270607,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 5425
    },
    {
      "epoch": 5.531090723751274,
      "grad_norm": 0.16287493705749512,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 5426
    },
    {
      "epoch": 5.532110091743119,
      "grad_norm": 0.2512317895889282,
      "learning_rate": 0.001,
      "loss": 0.2361,
      "step": 5427
    },
    {
      "epoch": 5.5331294597349645,
      "grad_norm": 0.1947810798883438,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 5428
    },
    {
      "epoch": 5.53414882772681,
      "grad_norm": 0.11213124543428421,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 5429
    },
    {
      "epoch": 5.535168195718654,
      "grad_norm": 0.11589514464139938,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 5430
    },
    {
      "epoch": 5.5361875637105,
      "grad_norm": 0.1514219492673874,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 5431
    },
    {
      "epoch": 5.537206931702345,
      "grad_norm": 0.15621766448020935,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5432
    },
    {
      "epoch": 5.538226299694189,
      "grad_norm": 0.07062448561191559,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 5433
    },
    {
      "epoch": 5.539245667686035,
      "grad_norm": 0.17156168818473816,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5434
    },
    {
      "epoch": 5.54026503567788,
      "grad_norm": 0.11438880115747452,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5435
    },
    {
      "epoch": 5.541284403669724,
      "grad_norm": 0.16432902216911316,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 5436
    },
    {
      "epoch": 5.54230377166157,
      "grad_norm": 0.16454268991947174,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5437
    },
    {
      "epoch": 5.543323139653415,
      "grad_norm": 0.17840005457401276,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 5438
    },
    {
      "epoch": 5.5443425076452595,
      "grad_norm": 0.11710969358682632,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 5439
    },
    {
      "epoch": 5.545361875637105,
      "grad_norm": 0.0892157182097435,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 5440
    },
    {
      "epoch": 5.54638124362895,
      "grad_norm": 0.14993837475776672,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 5441
    },
    {
      "epoch": 5.5474006116207955,
      "grad_norm": 0.08665682375431061,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 5442
    },
    {
      "epoch": 5.54841997961264,
      "grad_norm": 0.14455397427082062,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 5443
    },
    {
      "epoch": 5.549439347604485,
      "grad_norm": 0.07351122051477432,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 5444
    },
    {
      "epoch": 5.5504587155963305,
      "grad_norm": 0.08184944838285446,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 5445
    },
    {
      "epoch": 5.551478083588175,
      "grad_norm": 0.09001541882753372,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 5446
    },
    {
      "epoch": 5.55249745158002,
      "grad_norm": 0.14991579949855804,
      "learning_rate": 0.001,
      "loss": 0.2363,
      "step": 5447
    },
    {
      "epoch": 5.553516819571866,
      "grad_norm": 0.15126702189445496,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 5448
    },
    {
      "epoch": 5.554536187563711,
      "grad_norm": 0.140230193734169,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 5449
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 0.08703404664993286,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 5450
    },
    {
      "epoch": 5.556574923547401,
      "grad_norm": 0.22520989179611206,
      "learning_rate": 0.001,
      "loss": 0.2291,
      "step": 5451
    },
    {
      "epoch": 5.557594291539246,
      "grad_norm": 0.12861110270023346,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 5452
    },
    {
      "epoch": 5.55861365953109,
      "grad_norm": 0.0909428820014,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 5453
    },
    {
      "epoch": 5.559633027522936,
      "grad_norm": 0.1443507969379425,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 5454
    },
    {
      "epoch": 5.560652395514781,
      "grad_norm": 0.13800719380378723,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 5455
    },
    {
      "epoch": 5.5616717635066255,
      "grad_norm": 0.15586091578006744,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 5456
    },
    {
      "epoch": 5.562691131498471,
      "grad_norm": 0.11773912608623505,
      "learning_rate": 0.001,
      "loss": 0.2249,
      "step": 5457
    },
    {
      "epoch": 5.563710499490316,
      "grad_norm": 0.15319596230983734,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 5458
    },
    {
      "epoch": 5.564729867482161,
      "grad_norm": 0.11956337094306946,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 5459
    },
    {
      "epoch": 5.565749235474006,
      "grad_norm": 0.12911182641983032,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5460
    },
    {
      "epoch": 5.566768603465851,
      "grad_norm": 0.10736256837844849,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 5461
    },
    {
      "epoch": 5.5677879714576965,
      "grad_norm": 0.11635056138038635,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 5462
    },
    {
      "epoch": 5.568807339449541,
      "grad_norm": 0.12725137174129486,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 5463
    },
    {
      "epoch": 5.569826707441386,
      "grad_norm": 0.18083158135414124,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5464
    },
    {
      "epoch": 5.570846075433232,
      "grad_norm": 0.19928167760372162,
      "learning_rate": 0.001,
      "loss": 0.2272,
      "step": 5465
    },
    {
      "epoch": 5.571865443425077,
      "grad_norm": 0.09747917205095291,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 5466
    },
    {
      "epoch": 5.572884811416921,
      "grad_norm": 0.16163679957389832,
      "learning_rate": 0.001,
      "loss": 0.2268,
      "step": 5467
    },
    {
      "epoch": 5.573904179408767,
      "grad_norm": 0.10424433648586273,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 5468
    },
    {
      "epoch": 5.574923547400612,
      "grad_norm": 0.21720153093338013,
      "learning_rate": 0.001,
      "loss": 0.2328,
      "step": 5469
    },
    {
      "epoch": 5.5759429153924565,
      "grad_norm": 0.08875681459903717,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 5470
    },
    {
      "epoch": 5.576962283384302,
      "grad_norm": 0.18742433190345764,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 5471
    },
    {
      "epoch": 5.577981651376147,
      "grad_norm": 0.12800627946853638,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 5472
    },
    {
      "epoch": 5.5790010193679915,
      "grad_norm": 0.13401761651039124,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 5473
    },
    {
      "epoch": 5.580020387359837,
      "grad_norm": 0.0840342566370964,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 5474
    },
    {
      "epoch": 5.581039755351682,
      "grad_norm": 0.102932408452034,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 5475
    },
    {
      "epoch": 5.582059123343527,
      "grad_norm": 0.19212917983531952,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 5476
    },
    {
      "epoch": 5.583078491335372,
      "grad_norm": 0.16781626641750336,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 5477
    },
    {
      "epoch": 5.584097859327217,
      "grad_norm": 0.20628896355628967,
      "learning_rate": 0.001,
      "loss": 0.2405,
      "step": 5478
    },
    {
      "epoch": 5.585117227319062,
      "grad_norm": 0.14323735237121582,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 5479
    },
    {
      "epoch": 5.586136595310907,
      "grad_norm": 0.05953618511557579,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 5480
    },
    {
      "epoch": 5.587155963302752,
      "grad_norm": 0.0905388817191124,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 5481
    },
    {
      "epoch": 5.588175331294598,
      "grad_norm": 0.10620177537202835,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5482
    },
    {
      "epoch": 5.589194699286442,
      "grad_norm": 0.14539800584316254,
      "learning_rate": 0.001,
      "loss": 0.2305,
      "step": 5483
    },
    {
      "epoch": 5.590214067278287,
      "grad_norm": 0.16766101121902466,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 5484
    },
    {
      "epoch": 5.591233435270133,
      "grad_norm": 0.09663649648427963,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5485
    },
    {
      "epoch": 5.592252803261978,
      "grad_norm": 0.10353640466928482,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5486
    },
    {
      "epoch": 5.5932721712538225,
      "grad_norm": 0.07645362615585327,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 5487
    },
    {
      "epoch": 5.594291539245668,
      "grad_norm": 0.10284369438886642,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5488
    },
    {
      "epoch": 5.595310907237513,
      "grad_norm": 0.09651776403188705,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 5489
    },
    {
      "epoch": 5.5963302752293576,
      "grad_norm": 0.10996187478303909,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 5490
    },
    {
      "epoch": 5.597349643221203,
      "grad_norm": 0.20032194256782532,
      "learning_rate": 0.001,
      "loss": 0.2213,
      "step": 5491
    },
    {
      "epoch": 5.598369011213048,
      "grad_norm": 0.2646883726119995,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 5492
    },
    {
      "epoch": 5.599388379204893,
      "grad_norm": 0.159861758351326,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 5493
    },
    {
      "epoch": 5.600407747196738,
      "grad_norm": 0.08572913706302643,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 5494
    },
    {
      "epoch": 5.601427115188583,
      "grad_norm": 0.14171847701072693,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 5495
    },
    {
      "epoch": 5.602446483180428,
      "grad_norm": 0.11388372629880905,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 5496
    },
    {
      "epoch": 5.603465851172273,
      "grad_norm": 0.22169747948646545,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 5497
    },
    {
      "epoch": 5.604485219164118,
      "grad_norm": 0.07610759139060974,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 5498
    },
    {
      "epoch": 5.605504587155964,
      "grad_norm": 0.14164341986179352,
      "learning_rate": 0.001,
      "loss": 0.225,
      "step": 5499
    },
    {
      "epoch": 5.606523955147808,
      "grad_norm": 0.09499131888151169,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 5500
    },
    {
      "epoch": 5.607543323139653,
      "grad_norm": 0.09278638660907745,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 5501
    },
    {
      "epoch": 5.608562691131499,
      "grad_norm": 0.22330008447170258,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 5502
    },
    {
      "epoch": 5.609582059123343,
      "grad_norm": 0.1144765242934227,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 5503
    },
    {
      "epoch": 5.6106014271151885,
      "grad_norm": 0.13780748844146729,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 5504
    },
    {
      "epoch": 5.611620795107034,
      "grad_norm": 0.17269715666770935,
      "learning_rate": 0.001,
      "loss": 0.2423,
      "step": 5505
    },
    {
      "epoch": 5.612640163098879,
      "grad_norm": 0.19421963393688202,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 5506
    },
    {
      "epoch": 5.613659531090724,
      "grad_norm": 0.10479217022657394,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 5507
    },
    {
      "epoch": 5.614678899082569,
      "grad_norm": 0.12661868333816528,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 5508
    },
    {
      "epoch": 5.615698267074414,
      "grad_norm": 0.14116522669792175,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 5509
    },
    {
      "epoch": 5.616717635066259,
      "grad_norm": 0.2317456156015396,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 5510
    },
    {
      "epoch": 5.617737003058104,
      "grad_norm": 0.1398436278104782,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 5511
    },
    {
      "epoch": 5.618756371049949,
      "grad_norm": 0.15496979653835297,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 5512
    },
    {
      "epoch": 5.619775739041794,
      "grad_norm": 0.12438599020242691,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 5513
    },
    {
      "epoch": 5.620795107033639,
      "grad_norm": 0.14636053144931793,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 5514
    },
    {
      "epoch": 5.621814475025484,
      "grad_norm": 0.17878465354442596,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 5515
    },
    {
      "epoch": 5.622833843017329,
      "grad_norm": 0.13725073635578156,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 5516
    },
    {
      "epoch": 5.623853211009174,
      "grad_norm": 0.16350319981575012,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 5517
    },
    {
      "epoch": 5.6248725790010194,
      "grad_norm": 0.17175982892513275,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 5518
    },
    {
      "epoch": 5.625891946992865,
      "grad_norm": 0.12218049168586731,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 5519
    },
    {
      "epoch": 5.626911314984709,
      "grad_norm": 0.12557320296764374,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 5520
    },
    {
      "epoch": 5.6279306829765545,
      "grad_norm": 0.1167483776807785,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 5521
    },
    {
      "epoch": 5.6289500509684,
      "grad_norm": 0.08645501732826233,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 5522
    },
    {
      "epoch": 5.629969418960244,
      "grad_norm": 0.07601726800203323,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 5523
    },
    {
      "epoch": 5.63098878695209,
      "grad_norm": 0.08034888654947281,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 5524
    },
    {
      "epoch": 5.632008154943935,
      "grad_norm": 0.14924436807632446,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 5525
    },
    {
      "epoch": 5.63302752293578,
      "grad_norm": 0.14104342460632324,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5526
    },
    {
      "epoch": 5.634046890927625,
      "grad_norm": 0.2607934772968292,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 5527
    },
    {
      "epoch": 5.63506625891947,
      "grad_norm": 0.10548994690179825,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 5528
    },
    {
      "epoch": 5.636085626911315,
      "grad_norm": 0.09040988236665726,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 5529
    },
    {
      "epoch": 5.63710499490316,
      "grad_norm": 0.12476623058319092,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 5530
    },
    {
      "epoch": 5.638124362895005,
      "grad_norm": 0.21504907310009003,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 5531
    },
    {
      "epoch": 5.63914373088685,
      "grad_norm": 0.12312032282352448,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5532
    },
    {
      "epoch": 5.640163098878695,
      "grad_norm": 0.10276835411787033,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 5533
    },
    {
      "epoch": 5.64118246687054,
      "grad_norm": 0.07967418432235718,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 5534
    },
    {
      "epoch": 5.6422018348623855,
      "grad_norm": 0.10312418639659882,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 5535
    },
    {
      "epoch": 5.64322120285423,
      "grad_norm": 0.14084945619106293,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 5536
    },
    {
      "epoch": 5.644240570846075,
      "grad_norm": 0.11896460503339767,
      "learning_rate": 0.001,
      "loss": 0.2303,
      "step": 5537
    },
    {
      "epoch": 5.6452599388379205,
      "grad_norm": 0.20609843730926514,
      "learning_rate": 0.001,
      "loss": 0.2355,
      "step": 5538
    },
    {
      "epoch": 5.646279306829766,
      "grad_norm": 0.06813729554414749,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 5539
    },
    {
      "epoch": 5.64729867482161,
      "grad_norm": 0.18102659285068512,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 5540
    },
    {
      "epoch": 5.648318042813456,
      "grad_norm": 0.09107456356287003,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 5541
    },
    {
      "epoch": 5.649337410805301,
      "grad_norm": 0.11077414453029633,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 5542
    },
    {
      "epoch": 5.650356778797146,
      "grad_norm": 0.1422349363565445,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 5543
    },
    {
      "epoch": 5.651376146788991,
      "grad_norm": 0.10412973910570145,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 5544
    },
    {
      "epoch": 5.652395514780836,
      "grad_norm": 0.16415290534496307,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 5545
    },
    {
      "epoch": 5.653414882772681,
      "grad_norm": 0.10750095546245575,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5546
    },
    {
      "epoch": 5.654434250764526,
      "grad_norm": 0.2200646549463272,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 5547
    },
    {
      "epoch": 5.655453618756371,
      "grad_norm": 0.1323510855436325,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 5548
    },
    {
      "epoch": 5.656472986748216,
      "grad_norm": 0.18729142844676971,
      "learning_rate": 0.001,
      "loss": 0.2404,
      "step": 5549
    },
    {
      "epoch": 5.657492354740061,
      "grad_norm": 0.1516193300485611,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5550
    },
    {
      "epoch": 5.658511722731906,
      "grad_norm": 0.12638989090919495,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 5551
    },
    {
      "epoch": 5.6595310907237515,
      "grad_norm": 0.10125426948070526,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 5552
    },
    {
      "epoch": 5.660550458715596,
      "grad_norm": 0.0880841612815857,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 5553
    },
    {
      "epoch": 5.661569826707441,
      "grad_norm": 0.15620848536491394,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 5554
    },
    {
      "epoch": 5.662589194699287,
      "grad_norm": 0.11387941986322403,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 5555
    },
    {
      "epoch": 5.663608562691132,
      "grad_norm": 0.16955353319644928,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 5556
    },
    {
      "epoch": 5.664627930682976,
      "grad_norm": 0.10656072199344635,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 5557
    },
    {
      "epoch": 5.665647298674822,
      "grad_norm": 0.1968996226787567,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5558
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.09104357659816742,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 5559
    },
    {
      "epoch": 5.667686034658511,
      "grad_norm": 0.12732723355293274,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 5560
    },
    {
      "epoch": 5.668705402650357,
      "grad_norm": 0.15958400070667267,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 5561
    },
    {
      "epoch": 5.669724770642202,
      "grad_norm": 0.18128615617752075,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 5562
    },
    {
      "epoch": 5.670744138634047,
      "grad_norm": 0.16854442656040192,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 5563
    },
    {
      "epoch": 5.671763506625892,
      "grad_norm": 0.12431921809911728,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 5564
    },
    {
      "epoch": 5.672782874617737,
      "grad_norm": 0.0809967890381813,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 5565
    },
    {
      "epoch": 5.673802242609582,
      "grad_norm": 0.2021622210741043,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 5566
    },
    {
      "epoch": 5.674821610601427,
      "grad_norm": 0.22679010033607483,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 5567
    },
    {
      "epoch": 5.675840978593272,
      "grad_norm": 0.15654924511909485,
      "learning_rate": 0.001,
      "loss": 0.2257,
      "step": 5568
    },
    {
      "epoch": 5.6768603465851175,
      "grad_norm": 0.09372199326753616,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 5569
    },
    {
      "epoch": 5.677879714576962,
      "grad_norm": 0.09225686639547348,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 5570
    },
    {
      "epoch": 5.678899082568807,
      "grad_norm": 0.17308786511421204,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 5571
    },
    {
      "epoch": 5.679918450560653,
      "grad_norm": 0.11239615827798843,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 5572
    },
    {
      "epoch": 5.680937818552497,
      "grad_norm": 0.16199930012226105,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 5573
    },
    {
      "epoch": 5.681957186544342,
      "grad_norm": 0.11770856380462646,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 5574
    },
    {
      "epoch": 5.682976554536188,
      "grad_norm": 0.16887901723384857,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 5575
    },
    {
      "epoch": 5.683995922528033,
      "grad_norm": 0.13785073161125183,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 5576
    },
    {
      "epoch": 5.685015290519877,
      "grad_norm": 0.14848461747169495,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 5577
    },
    {
      "epoch": 5.686034658511723,
      "grad_norm": 0.11247541755437851,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 5578
    },
    {
      "epoch": 5.687054026503568,
      "grad_norm": 0.12162506580352783,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 5579
    },
    {
      "epoch": 5.6880733944954125,
      "grad_norm": 0.13890457153320312,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 5580
    },
    {
      "epoch": 5.689092762487258,
      "grad_norm": 0.10876256227493286,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 5581
    },
    {
      "epoch": 5.690112130479103,
      "grad_norm": 0.07330112904310226,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 5582
    },
    {
      "epoch": 5.6911314984709485,
      "grad_norm": 0.08190849423408508,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 5583
    },
    {
      "epoch": 5.692150866462793,
      "grad_norm": 0.09855788946151733,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 5584
    },
    {
      "epoch": 5.693170234454638,
      "grad_norm": 0.14672315120697021,
      "learning_rate": 0.001,
      "loss": 0.2451,
      "step": 5585
    },
    {
      "epoch": 5.6941896024464835,
      "grad_norm": 0.24185115098953247,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 5586
    },
    {
      "epoch": 5.695208970438328,
      "grad_norm": 0.16898520290851593,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 5587
    },
    {
      "epoch": 5.696228338430173,
      "grad_norm": 0.11098577082157135,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 5588
    },
    {
      "epoch": 5.697247706422019,
      "grad_norm": 0.07472483068704605,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5589
    },
    {
      "epoch": 5.698267074413863,
      "grad_norm": 0.13139285147190094,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 5590
    },
    {
      "epoch": 5.699286442405708,
      "grad_norm": 0.11712275445461273,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 5591
    },
    {
      "epoch": 5.700305810397554,
      "grad_norm": 0.10852956026792526,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5592
    },
    {
      "epoch": 5.701325178389398,
      "grad_norm": 0.08482705056667328,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 5593
    },
    {
      "epoch": 5.702344546381243,
      "grad_norm": 0.12207002192735672,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 5594
    },
    {
      "epoch": 5.703363914373089,
      "grad_norm": 0.15017203986644745,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5595
    },
    {
      "epoch": 5.704383282364934,
      "grad_norm": 0.18882979452610016,
      "learning_rate": 0.001,
      "loss": 0.2184,
      "step": 5596
    },
    {
      "epoch": 5.7054026503567785,
      "grad_norm": 0.11042796820402145,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 5597
    },
    {
      "epoch": 5.706422018348624,
      "grad_norm": 0.1369670033454895,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 5598
    },
    {
      "epoch": 5.707441386340469,
      "grad_norm": 0.15803880989551544,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 5599
    },
    {
      "epoch": 5.708460754332314,
      "grad_norm": 0.07137574255466461,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 5600
    },
    {
      "epoch": 5.709480122324159,
      "grad_norm": 0.1272297501564026,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 5601
    },
    {
      "epoch": 5.710499490316004,
      "grad_norm": 0.18607749044895172,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 5602
    },
    {
      "epoch": 5.7115188583078496,
      "grad_norm": 0.11201299726963043,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 5603
    },
    {
      "epoch": 5.712538226299694,
      "grad_norm": 0.21899056434631348,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 5604
    },
    {
      "epoch": 5.713557594291539,
      "grad_norm": 0.06817551702260971,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 5605
    },
    {
      "epoch": 5.714576962283385,
      "grad_norm": 0.08098281174898148,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 5606
    },
    {
      "epoch": 5.715596330275229,
      "grad_norm": 0.14861047267913818,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5607
    },
    {
      "epoch": 5.716615698267074,
      "grad_norm": 0.09665132313966751,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 5608
    },
    {
      "epoch": 5.71763506625892,
      "grad_norm": 0.14866535365581512,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5609
    },
    {
      "epoch": 5.718654434250764,
      "grad_norm": 0.0694442167878151,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 5610
    },
    {
      "epoch": 5.7196738022426095,
      "grad_norm": 0.15001633763313293,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 5611
    },
    {
      "epoch": 5.720693170234455,
      "grad_norm": 0.08973092585802078,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 5612
    },
    {
      "epoch": 5.721712538226299,
      "grad_norm": 0.088468536734581,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 5613
    },
    {
      "epoch": 5.7227319062181445,
      "grad_norm": 0.11772125959396362,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 5614
    },
    {
      "epoch": 5.72375127420999,
      "grad_norm": 0.22335568070411682,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 5615
    },
    {
      "epoch": 5.724770642201835,
      "grad_norm": 0.16303251683712006,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 5616
    },
    {
      "epoch": 5.72579001019368,
      "grad_norm": 0.11464440822601318,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 5617
    },
    {
      "epoch": 5.726809378185525,
      "grad_norm": 0.178706094622612,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 5618
    },
    {
      "epoch": 5.72782874617737,
      "grad_norm": 0.08144322037696838,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 5619
    },
    {
      "epoch": 5.728848114169216,
      "grad_norm": 0.15076912939548492,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 5620
    },
    {
      "epoch": 5.72986748216106,
      "grad_norm": 0.09231541305780411,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 5621
    },
    {
      "epoch": 5.730886850152905,
      "grad_norm": 0.17292046546936035,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5622
    },
    {
      "epoch": 5.731906218144751,
      "grad_norm": 0.14370574057102203,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 5623
    },
    {
      "epoch": 5.732925586136595,
      "grad_norm": 0.15405887365341187,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 5624
    },
    {
      "epoch": 5.73394495412844,
      "grad_norm": 0.21292011439800262,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 5625
    },
    {
      "epoch": 5.734964322120286,
      "grad_norm": 0.11198288947343826,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 5626
    },
    {
      "epoch": 5.73598369011213,
      "grad_norm": 0.15560124814510345,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5627
    },
    {
      "epoch": 5.7370030581039755,
      "grad_norm": 0.14241240918636322,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 5628
    },
    {
      "epoch": 5.738022426095821,
      "grad_norm": 0.1326507329940796,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5629
    },
    {
      "epoch": 5.739041794087665,
      "grad_norm": 0.15796153247356415,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 5630
    },
    {
      "epoch": 5.740061162079511,
      "grad_norm": 0.18359804153442383,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 5631
    },
    {
      "epoch": 5.741080530071356,
      "grad_norm": 0.157795712351799,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 5632
    },
    {
      "epoch": 5.742099898063201,
      "grad_norm": 0.22100597620010376,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 5633
    },
    {
      "epoch": 5.743119266055046,
      "grad_norm": 0.1334751844406128,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 5634
    },
    {
      "epoch": 5.744138634046891,
      "grad_norm": 0.12933088839054108,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 5635
    },
    {
      "epoch": 5.745158002038736,
      "grad_norm": 0.1703760176897049,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5636
    },
    {
      "epoch": 5.746177370030581,
      "grad_norm": 0.12173479050397873,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 5637
    },
    {
      "epoch": 5.747196738022426,
      "grad_norm": 0.10775011032819748,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 5638
    },
    {
      "epoch": 5.748216106014271,
      "grad_norm": 0.10343589633703232,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 5639
    },
    {
      "epoch": 5.749235474006117,
      "grad_norm": 0.21087563037872314,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 5640
    },
    {
      "epoch": 5.750254841997961,
      "grad_norm": 0.19935870170593262,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 5641
    },
    {
      "epoch": 5.751274209989806,
      "grad_norm": 0.18340539932250977,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 5642
    },
    {
      "epoch": 5.752293577981652,
      "grad_norm": 0.16377323865890503,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 5643
    },
    {
      "epoch": 5.753312945973496,
      "grad_norm": 0.22892965376377106,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 5644
    },
    {
      "epoch": 5.7543323139653415,
      "grad_norm": 0.12582209706306458,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 5645
    },
    {
      "epoch": 5.755351681957187,
      "grad_norm": 0.09401161968708038,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 5646
    },
    {
      "epoch": 5.756371049949031,
      "grad_norm": 0.1184672862291336,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 5647
    },
    {
      "epoch": 5.757390417940877,
      "grad_norm": 0.11155220121145248,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 5648
    },
    {
      "epoch": 5.758409785932722,
      "grad_norm": 0.1677716076374054,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 5649
    },
    {
      "epoch": 5.759429153924566,
      "grad_norm": 0.08874571323394775,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 5650
    },
    {
      "epoch": 5.760448521916412,
      "grad_norm": 0.12745144963264465,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 5651
    },
    {
      "epoch": 5.761467889908257,
      "grad_norm": 0.17440007627010345,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5652
    },
    {
      "epoch": 5.762487257900102,
      "grad_norm": 0.26211610436439514,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 5653
    },
    {
      "epoch": 5.763506625891947,
      "grad_norm": 0.08994830399751663,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 5654
    },
    {
      "epoch": 5.764525993883792,
      "grad_norm": 0.17220154404640198,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5655
    },
    {
      "epoch": 5.765545361875637,
      "grad_norm": 0.10175010561943054,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 5656
    },
    {
      "epoch": 5.766564729867482,
      "grad_norm": 0.16495053470134735,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 5657
    },
    {
      "epoch": 5.767584097859327,
      "grad_norm": 0.1542954295873642,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 5658
    },
    {
      "epoch": 5.7686034658511725,
      "grad_norm": 0.1768156886100769,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 5659
    },
    {
      "epoch": 5.769622833843018,
      "grad_norm": 0.08803030848503113,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 5660
    },
    {
      "epoch": 5.770642201834862,
      "grad_norm": 0.17747800052165985,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5661
    },
    {
      "epoch": 5.7716615698267075,
      "grad_norm": 0.19203685224056244,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 5662
    },
    {
      "epoch": 5.772680937818553,
      "grad_norm": 0.21980546414852142,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 5663
    },
    {
      "epoch": 5.773700305810397,
      "grad_norm": 0.19543370604515076,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 5664
    },
    {
      "epoch": 5.774719673802243,
      "grad_norm": 0.1707577109336853,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 5665
    },
    {
      "epoch": 5.775739041794088,
      "grad_norm": 0.14383690059185028,
      "learning_rate": 0.001,
      "loss": 0.2301,
      "step": 5666
    },
    {
      "epoch": 5.776758409785932,
      "grad_norm": 0.21498432755470276,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 5667
    },
    {
      "epoch": 5.777777777777778,
      "grad_norm": 0.14868265390396118,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 5668
    },
    {
      "epoch": 5.778797145769623,
      "grad_norm": 0.17966991662979126,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5669
    },
    {
      "epoch": 5.779816513761467,
      "grad_norm": 0.2549559473991394,
      "learning_rate": 0.001,
      "loss": 0.2413,
      "step": 5670
    },
    {
      "epoch": 5.780835881753313,
      "grad_norm": 0.11032700538635254,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 5671
    },
    {
      "epoch": 5.781855249745158,
      "grad_norm": 0.22093884646892548,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 5672
    },
    {
      "epoch": 5.782874617737003,
      "grad_norm": 0.16216403245925903,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 5673
    },
    {
      "epoch": 5.783893985728848,
      "grad_norm": 0.14038091897964478,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 5674
    },
    {
      "epoch": 5.784913353720693,
      "grad_norm": 0.13011595606803894,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 5675
    },
    {
      "epoch": 5.7859327217125385,
      "grad_norm": 0.16950389742851257,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 5676
    },
    {
      "epoch": 5.786952089704383,
      "grad_norm": 0.16844166815280914,
      "learning_rate": 0.001,
      "loss": 0.2191,
      "step": 5677
    },
    {
      "epoch": 5.787971457696228,
      "grad_norm": 0.18817251920700073,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 5678
    },
    {
      "epoch": 5.7889908256880735,
      "grad_norm": 0.13409647345542908,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 5679
    },
    {
      "epoch": 5.790010193679919,
      "grad_norm": 0.14130821824073792,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 5680
    },
    {
      "epoch": 5.791029561671763,
      "grad_norm": 0.2199438214302063,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 5681
    },
    {
      "epoch": 5.792048929663609,
      "grad_norm": 0.2000243365764618,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 5682
    },
    {
      "epoch": 5.793068297655454,
      "grad_norm": 0.2798350751399994,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 5683
    },
    {
      "epoch": 5.794087665647298,
      "grad_norm": 0.08140118420124054,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 5684
    },
    {
      "epoch": 5.795107033639144,
      "grad_norm": 0.12276294827461243,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5685
    },
    {
      "epoch": 5.796126401630989,
      "grad_norm": 0.11875750124454498,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 5686
    },
    {
      "epoch": 5.7971457696228335,
      "grad_norm": 0.21958403289318085,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 5687
    },
    {
      "epoch": 5.798165137614679,
      "grad_norm": 0.21876190602779388,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 5688
    },
    {
      "epoch": 5.799184505606524,
      "grad_norm": 0.2530572712421417,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 5689
    },
    {
      "epoch": 5.8002038735983685,
      "grad_norm": 0.24802950024604797,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 5690
    },
    {
      "epoch": 5.801223241590214,
      "grad_norm": 0.10297796875238419,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 5691
    },
    {
      "epoch": 5.802242609582059,
      "grad_norm": 0.1940477341413498,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 5692
    },
    {
      "epoch": 5.8032619775739045,
      "grad_norm": 0.13935637474060059,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 5693
    },
    {
      "epoch": 5.804281345565749,
      "grad_norm": 0.20033319294452667,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 5694
    },
    {
      "epoch": 5.805300713557594,
      "grad_norm": 0.1878652423620224,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 5695
    },
    {
      "epoch": 5.80632008154944,
      "grad_norm": 0.20764420926570892,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 5696
    },
    {
      "epoch": 5.807339449541285,
      "grad_norm": 0.16266366839408875,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5697
    },
    {
      "epoch": 5.808358817533129,
      "grad_norm": 0.2227393090724945,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 5698
    },
    {
      "epoch": 5.809378185524975,
      "grad_norm": 0.1318616420030594,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 5699
    },
    {
      "epoch": 5.81039755351682,
      "grad_norm": 0.09328226745128632,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 5700
    },
    {
      "epoch": 5.811416921508664,
      "grad_norm": 0.22205832600593567,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 5701
    },
    {
      "epoch": 5.81243628950051,
      "grad_norm": 0.21471095085144043,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 5702
    },
    {
      "epoch": 5.813455657492355,
      "grad_norm": 0.26573580503463745,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 5703
    },
    {
      "epoch": 5.8144750254841995,
      "grad_norm": 0.13836531341075897,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5704
    },
    {
      "epoch": 5.815494393476045,
      "grad_norm": 0.10609094798564911,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 5705
    },
    {
      "epoch": 5.81651376146789,
      "grad_norm": 0.16165608167648315,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 5706
    },
    {
      "epoch": 5.8175331294597346,
      "grad_norm": 0.0876179039478302,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 5707
    },
    {
      "epoch": 5.81855249745158,
      "grad_norm": 0.07225698977708817,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5708
    },
    {
      "epoch": 5.819571865443425,
      "grad_norm": 0.0843636617064476,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 5709
    },
    {
      "epoch": 5.8205912334352705,
      "grad_norm": 0.19378286600112915,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 5710
    },
    {
      "epoch": 5.821610601427115,
      "grad_norm": 0.09982317686080933,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 5711
    },
    {
      "epoch": 5.82262996941896,
      "grad_norm": 0.20428058505058289,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5712
    },
    {
      "epoch": 5.823649337410806,
      "grad_norm": 0.15680648386478424,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 5713
    },
    {
      "epoch": 5.82466870540265,
      "grad_norm": 0.2927457094192505,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 5714
    },
    {
      "epoch": 5.825688073394495,
      "grad_norm": 0.14586766064167023,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 5715
    },
    {
      "epoch": 5.826707441386341,
      "grad_norm": 0.09716712683439255,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 5716
    },
    {
      "epoch": 5.827726809378186,
      "grad_norm": 0.32430240511894226,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 5717
    },
    {
      "epoch": 5.82874617737003,
      "grad_norm": 0.16782036423683167,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 5718
    },
    {
      "epoch": 5.829765545361876,
      "grad_norm": 0.22664210200309753,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 5719
    },
    {
      "epoch": 5.830784913353721,
      "grad_norm": 0.15048867464065552,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 5720
    },
    {
      "epoch": 5.8318042813455655,
      "grad_norm": 0.14559081196784973,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 5721
    },
    {
      "epoch": 5.832823649337411,
      "grad_norm": 0.22531664371490479,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 5722
    },
    {
      "epoch": 5.833843017329256,
      "grad_norm": 0.22952818870544434,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 5723
    },
    {
      "epoch": 5.834862385321101,
      "grad_norm": 0.10368813574314117,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 5724
    },
    {
      "epoch": 5.835881753312946,
      "grad_norm": 0.17005212604999542,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5725
    },
    {
      "epoch": 5.836901121304791,
      "grad_norm": 0.15920798480510712,
      "learning_rate": 0.001,
      "loss": 0.2285,
      "step": 5726
    },
    {
      "epoch": 5.837920489296636,
      "grad_norm": 0.12966346740722656,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5727
    },
    {
      "epoch": 5.838939857288481,
      "grad_norm": 0.23964515328407288,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 5728
    },
    {
      "epoch": 5.839959225280326,
      "grad_norm": 0.20917309820652008,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 5729
    },
    {
      "epoch": 5.840978593272172,
      "grad_norm": 0.13519321382045746,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 5730
    },
    {
      "epoch": 5.841997961264016,
      "grad_norm": 0.13025088608264923,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 5731
    },
    {
      "epoch": 5.843017329255861,
      "grad_norm": 0.11354592442512512,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 5732
    },
    {
      "epoch": 5.844036697247707,
      "grad_norm": 0.12705884873867035,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 5733
    },
    {
      "epoch": 5.845056065239551,
      "grad_norm": 0.11091054975986481,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5734
    },
    {
      "epoch": 5.8460754332313964,
      "grad_norm": 0.09256651252508163,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 5735
    },
    {
      "epoch": 5.847094801223242,
      "grad_norm": 0.11753588169813156,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5736
    },
    {
      "epoch": 5.848114169215087,
      "grad_norm": 0.22320425510406494,
      "learning_rate": 0.001,
      "loss": 0.2222,
      "step": 5737
    },
    {
      "epoch": 5.8491335372069315,
      "grad_norm": 0.24488188326358795,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 5738
    },
    {
      "epoch": 5.850152905198777,
      "grad_norm": 0.0858684554696083,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 5739
    },
    {
      "epoch": 5.851172273190622,
      "grad_norm": 0.12390868365764618,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 5740
    },
    {
      "epoch": 5.852191641182467,
      "grad_norm": 0.204206645488739,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 5741
    },
    {
      "epoch": 5.853211009174312,
      "grad_norm": 0.147331103682518,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 5742
    },
    {
      "epoch": 5.854230377166157,
      "grad_norm": 0.1160280704498291,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 5743
    },
    {
      "epoch": 5.855249745158002,
      "grad_norm": 0.10406553000211716,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 5744
    },
    {
      "epoch": 5.856269113149847,
      "grad_norm": 0.1691424548625946,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 5745
    },
    {
      "epoch": 5.857288481141692,
      "grad_norm": 0.18091981112957,
      "learning_rate": 0.001,
      "loss": 0.2175,
      "step": 5746
    },
    {
      "epoch": 5.858307849133537,
      "grad_norm": 0.18584272265434265,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 5747
    },
    {
      "epoch": 5.859327217125382,
      "grad_norm": 0.1499665379524231,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 5748
    },
    {
      "epoch": 5.860346585117227,
      "grad_norm": 0.1002761498093605,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5749
    },
    {
      "epoch": 5.861365953109073,
      "grad_norm": 0.1520007699728012,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 5750
    },
    {
      "epoch": 5.862385321100917,
      "grad_norm": 0.10574984550476074,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 5751
    },
    {
      "epoch": 5.8634046890927625,
      "grad_norm": 0.09286410361528397,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 5752
    },
    {
      "epoch": 5.864424057084608,
      "grad_norm": 0.10186533629894257,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 5753
    },
    {
      "epoch": 5.865443425076452,
      "grad_norm": 0.09544484317302704,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 5754
    },
    {
      "epoch": 5.8664627930682975,
      "grad_norm": 0.09225420653820038,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 5755
    },
    {
      "epoch": 5.867482161060143,
      "grad_norm": 0.14820678532123566,
      "learning_rate": 0.001,
      "loss": 0.2194,
      "step": 5756
    },
    {
      "epoch": 5.868501529051988,
      "grad_norm": 0.12535370886325836,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 5757
    },
    {
      "epoch": 5.869520897043833,
      "grad_norm": 0.17772629857063293,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 5758
    },
    {
      "epoch": 5.870540265035678,
      "grad_norm": 0.09467852115631104,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 5759
    },
    {
      "epoch": 5.871559633027523,
      "grad_norm": 0.10883726179599762,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 5760
    },
    {
      "epoch": 5.872579001019368,
      "grad_norm": 0.14197544753551483,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 5761
    },
    {
      "epoch": 5.873598369011213,
      "grad_norm": 0.14414691925048828,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5762
    },
    {
      "epoch": 5.874617737003058,
      "grad_norm": 0.18444687128067017,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 5763
    },
    {
      "epoch": 5.875637104994903,
      "grad_norm": 0.13639183342456818,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 5764
    },
    {
      "epoch": 5.876656472986748,
      "grad_norm": 0.11296750605106354,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 5765
    },
    {
      "epoch": 5.877675840978593,
      "grad_norm": 0.15477702021598816,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 5766
    },
    {
      "epoch": 5.878695208970438,
      "grad_norm": 0.13155022263526917,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5767
    },
    {
      "epoch": 5.879714576962283,
      "grad_norm": 0.10112033039331436,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 5768
    },
    {
      "epoch": 5.8807339449541285,
      "grad_norm": 0.1557479351758957,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 5769
    },
    {
      "epoch": 5.881753312945974,
      "grad_norm": 0.1655058115720749,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 5770
    },
    {
      "epoch": 5.882772680937818,
      "grad_norm": 0.08097758144140244,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 5771
    },
    {
      "epoch": 5.883792048929664,
      "grad_norm": 0.11144442111253738,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 5772
    },
    {
      "epoch": 5.884811416921509,
      "grad_norm": 0.08770809322595596,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 5773
    },
    {
      "epoch": 5.885830784913354,
      "grad_norm": 0.16122685372829437,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 5774
    },
    {
      "epoch": 5.886850152905199,
      "grad_norm": 0.12214849889278412,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5775
    },
    {
      "epoch": 5.887869520897044,
      "grad_norm": 0.08437450230121613,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5776
    },
    {
      "epoch": 5.888888888888889,
      "grad_norm": 0.12227565795183182,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 5777
    },
    {
      "epoch": 5.889908256880734,
      "grad_norm": 0.1511407196521759,
      "learning_rate": 0.001,
      "loss": 0.22,
      "step": 5778
    },
    {
      "epoch": 5.890927624872579,
      "grad_norm": 0.1463126838207245,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 5779
    },
    {
      "epoch": 5.891946992864424,
      "grad_norm": 0.16226647794246674,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 5780
    },
    {
      "epoch": 5.892966360856269,
      "grad_norm": 0.1867774873971939,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5781
    },
    {
      "epoch": 5.893985728848114,
      "grad_norm": 0.13294018805027008,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5782
    },
    {
      "epoch": 5.895005096839959,
      "grad_norm": 0.07923834770917892,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 5783
    },
    {
      "epoch": 5.896024464831804,
      "grad_norm": 0.08965782821178436,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 5784
    },
    {
      "epoch": 5.897043832823649,
      "grad_norm": 0.1753728836774826,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 5785
    },
    {
      "epoch": 5.8980632008154945,
      "grad_norm": 0.09391921758651733,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 5786
    },
    {
      "epoch": 5.89908256880734,
      "grad_norm": 0.11766950786113739,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 5787
    },
    {
      "epoch": 5.900101936799184,
      "grad_norm": 0.10867913067340851,
      "learning_rate": 0.001,
      "loss": 0.226,
      "step": 5788
    },
    {
      "epoch": 5.90112130479103,
      "grad_norm": 0.0870073214173317,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5789
    },
    {
      "epoch": 5.902140672782875,
      "grad_norm": 0.11283516138792038,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 5790
    },
    {
      "epoch": 5.903160040774719,
      "grad_norm": 0.10888012498617172,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 5791
    },
    {
      "epoch": 5.904179408766565,
      "grad_norm": 0.13251250982284546,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 5792
    },
    {
      "epoch": 5.90519877675841,
      "grad_norm": 0.21760453283786774,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 5793
    },
    {
      "epoch": 5.906218144750255,
      "grad_norm": 0.14443887770175934,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 5794
    },
    {
      "epoch": 5.9072375127421,
      "grad_norm": 0.09655455499887466,
      "learning_rate": 0.001,
      "loss": 0.2203,
      "step": 5795
    },
    {
      "epoch": 5.908256880733945,
      "grad_norm": 0.14086653292179108,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 5796
    },
    {
      "epoch": 5.90927624872579,
      "grad_norm": 0.1430572271347046,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 5797
    },
    {
      "epoch": 5.910295616717635,
      "grad_norm": 0.13426777720451355,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 5798
    },
    {
      "epoch": 5.91131498470948,
      "grad_norm": 0.1351848989725113,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 5799
    },
    {
      "epoch": 5.9123343527013255,
      "grad_norm": 0.12047742307186127,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 5800
    },
    {
      "epoch": 5.91335372069317,
      "grad_norm": 0.11423107981681824,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 5801
    },
    {
      "epoch": 5.914373088685015,
      "grad_norm": 0.19643181562423706,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 5802
    },
    {
      "epoch": 5.9153924566768605,
      "grad_norm": 0.09412162005901337,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 5803
    },
    {
      "epoch": 5.916411824668705,
      "grad_norm": 0.24331587553024292,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5804
    },
    {
      "epoch": 5.91743119266055,
      "grad_norm": 0.2550535798072815,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 5805
    },
    {
      "epoch": 5.918450560652396,
      "grad_norm": 0.129546120762825,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 5806
    },
    {
      "epoch": 5.919469928644241,
      "grad_norm": 0.11076027154922485,
      "learning_rate": 0.001,
      "loss": 0.2272,
      "step": 5807
    },
    {
      "epoch": 5.920489296636085,
      "grad_norm": 0.1307680457830429,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 5808
    },
    {
      "epoch": 5.921508664627931,
      "grad_norm": 0.24439071118831635,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 5809
    },
    {
      "epoch": 5.922528032619776,
      "grad_norm": 0.15251296758651733,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5810
    },
    {
      "epoch": 5.92354740061162,
      "grad_norm": 0.09263888001441956,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5811
    },
    {
      "epoch": 5.924566768603466,
      "grad_norm": 0.1625971645116806,
      "learning_rate": 0.001,
      "loss": 0.2224,
      "step": 5812
    },
    {
      "epoch": 5.925586136595311,
      "grad_norm": 0.1258411407470703,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 5813
    },
    {
      "epoch": 5.926605504587156,
      "grad_norm": 0.0987556055188179,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5814
    },
    {
      "epoch": 5.927624872579001,
      "grad_norm": 0.10707244277000427,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5815
    },
    {
      "epoch": 5.928644240570846,
      "grad_norm": 0.08879761397838593,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 5816
    },
    {
      "epoch": 5.9296636085626915,
      "grad_norm": 0.1276388168334961,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 5817
    },
    {
      "epoch": 5.930682976554536,
      "grad_norm": 0.12156419456005096,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5818
    },
    {
      "epoch": 5.931702344546381,
      "grad_norm": 0.09377207607030869,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5819
    },
    {
      "epoch": 5.9327217125382266,
      "grad_norm": 0.13956250250339508,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 5820
    },
    {
      "epoch": 5.933741080530071,
      "grad_norm": 0.13530293107032776,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5821
    },
    {
      "epoch": 5.934760448521916,
      "grad_norm": 0.22559930384159088,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 5822
    },
    {
      "epoch": 5.935779816513762,
      "grad_norm": 0.15462034940719604,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 5823
    },
    {
      "epoch": 5.936799184505606,
      "grad_norm": 0.10660971701145172,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 5824
    },
    {
      "epoch": 5.937818552497451,
      "grad_norm": 0.12157747894525528,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 5825
    },
    {
      "epoch": 5.938837920489297,
      "grad_norm": 0.11515897512435913,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 5826
    },
    {
      "epoch": 5.939857288481142,
      "grad_norm": 0.1010340005159378,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 5827
    },
    {
      "epoch": 5.9408766564729865,
      "grad_norm": 0.15289315581321716,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 5828
    },
    {
      "epoch": 5.941896024464832,
      "grad_norm": 0.12007725238800049,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 5829
    },
    {
      "epoch": 5.942915392456677,
      "grad_norm": 0.15398897230625153,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 5830
    },
    {
      "epoch": 5.9439347604485215,
      "grad_norm": 0.17364391684532166,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 5831
    },
    {
      "epoch": 5.944954128440367,
      "grad_norm": 0.224492609500885,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 5832
    },
    {
      "epoch": 5.945973496432212,
      "grad_norm": 0.1622471958398819,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 5833
    },
    {
      "epoch": 5.9469928644240575,
      "grad_norm": 0.20073403418064117,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5834
    },
    {
      "epoch": 5.948012232415902,
      "grad_norm": 0.11116693168878555,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5835
    },
    {
      "epoch": 5.949031600407747,
      "grad_norm": 0.13965949416160583,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 5836
    },
    {
      "epoch": 5.950050968399593,
      "grad_norm": 0.11324012279510498,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5837
    },
    {
      "epoch": 5.951070336391437,
      "grad_norm": 0.08905995637178421,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 5838
    },
    {
      "epoch": 5.952089704383282,
      "grad_norm": 0.17214497923851013,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 5839
    },
    {
      "epoch": 5.953109072375128,
      "grad_norm": 0.09529320895671844,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 5840
    },
    {
      "epoch": 5.954128440366972,
      "grad_norm": 0.11568458378314972,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 5841
    },
    {
      "epoch": 5.955147808358817,
      "grad_norm": 0.13108570873737335,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 5842
    },
    {
      "epoch": 5.956167176350663,
      "grad_norm": 0.15136133134365082,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 5843
    },
    {
      "epoch": 5.957186544342507,
      "grad_norm": 0.14385096728801727,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 5844
    },
    {
      "epoch": 5.9582059123343525,
      "grad_norm": 0.18430568277835846,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 5845
    },
    {
      "epoch": 5.959225280326198,
      "grad_norm": 0.09285445511341095,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 5846
    },
    {
      "epoch": 5.960244648318043,
      "grad_norm": 0.17878177762031555,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 5847
    },
    {
      "epoch": 5.961264016309888,
      "grad_norm": 0.11706887930631638,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 5848
    },
    {
      "epoch": 5.962283384301733,
      "grad_norm": 0.1239761933684349,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 5849
    },
    {
      "epoch": 5.963302752293578,
      "grad_norm": 0.16699069738388062,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 5850
    },
    {
      "epoch": 5.9643221202854235,
      "grad_norm": 0.1556498259305954,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 5851
    },
    {
      "epoch": 5.965341488277268,
      "grad_norm": 0.17565040290355682,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 5852
    },
    {
      "epoch": 5.966360856269113,
      "grad_norm": 0.25234970450401306,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 5853
    },
    {
      "epoch": 5.967380224260959,
      "grad_norm": 0.119938924908638,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 5854
    },
    {
      "epoch": 5.968399592252803,
      "grad_norm": 0.18176035583019257,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 5855
    },
    {
      "epoch": 5.969418960244648,
      "grad_norm": 0.1696743220090866,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 5856
    },
    {
      "epoch": 5.970438328236494,
      "grad_norm": 0.1697121411561966,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5857
    },
    {
      "epoch": 5.971457696228338,
      "grad_norm": 0.11458222568035126,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5858
    },
    {
      "epoch": 5.972477064220183,
      "grad_norm": 0.2105279564857483,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 5859
    },
    {
      "epoch": 5.973496432212029,
      "grad_norm": 0.1464952826499939,
      "learning_rate": 0.001,
      "loss": 0.2147,
      "step": 5860
    },
    {
      "epoch": 5.974515800203873,
      "grad_norm": 0.16549058258533478,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 5861
    },
    {
      "epoch": 5.9755351681957185,
      "grad_norm": 0.16367760300636292,
      "learning_rate": 0.001,
      "loss": 0.2386,
      "step": 5862
    },
    {
      "epoch": 5.976554536187564,
      "grad_norm": 0.444857120513916,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 5863
    },
    {
      "epoch": 5.977573904179409,
      "grad_norm": 0.12204974889755249,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 5864
    },
    {
      "epoch": 5.978593272171254,
      "grad_norm": 0.23839719593524933,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5865
    },
    {
      "epoch": 5.979612640163099,
      "grad_norm": 0.11859764903783798,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 5866
    },
    {
      "epoch": 5.980632008154944,
      "grad_norm": 0.08588067442178726,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 5867
    },
    {
      "epoch": 5.981651376146789,
      "grad_norm": 0.19690336287021637,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 5868
    },
    {
      "epoch": 5.982670744138634,
      "grad_norm": 0.17488700151443481,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 5869
    },
    {
      "epoch": 5.983690112130479,
      "grad_norm": 0.11157183349132538,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5870
    },
    {
      "epoch": 5.984709480122325,
      "grad_norm": 0.08784013986587524,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 5871
    },
    {
      "epoch": 5.985728848114169,
      "grad_norm": 0.13375148177146912,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 5872
    },
    {
      "epoch": 5.986748216106014,
      "grad_norm": 0.10461672395467758,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 5873
    },
    {
      "epoch": 5.98776758409786,
      "grad_norm": 0.13805988430976868,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 5874
    },
    {
      "epoch": 5.988786952089704,
      "grad_norm": 0.10502463579177856,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 5875
    },
    {
      "epoch": 5.9898063200815495,
      "grad_norm": 0.1413479447364807,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 5876
    },
    {
      "epoch": 5.990825688073395,
      "grad_norm": 0.061935193836688995,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5877
    },
    {
      "epoch": 5.991845056065239,
      "grad_norm": 0.24597355723381042,
      "learning_rate": 0.001,
      "loss": 0.2319,
      "step": 5878
    },
    {
      "epoch": 5.9928644240570845,
      "grad_norm": 0.11739075183868408,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 5879
    },
    {
      "epoch": 5.99388379204893,
      "grad_norm": 0.1660216748714447,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5880
    },
    {
      "epoch": 5.994903160040774,
      "grad_norm": 0.1651134490966797,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 5881
    },
    {
      "epoch": 5.99592252803262,
      "grad_norm": 0.09521478414535522,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 5882
    },
    {
      "epoch": 5.996941896024465,
      "grad_norm": 0.10953003168106079,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 5883
    },
    {
      "epoch": 5.99796126401631,
      "grad_norm": 0.07828907668590546,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 5884
    },
    {
      "epoch": 5.998980632008155,
      "grad_norm": 0.09493816643953323,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 5885
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.14324991405010223,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 5886
    },
    {
      "epoch": 6.0,
      "eval_-_f1-score": 0.15384615384615385,
      "eval_-_precision": 0.5,
      "eval_-_recall": 0.09090909090909091,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9588620548505935,
      "eval_<_precision": 0.9547585082535154,
      "eval_<_recall": 0.9630010277492291,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.7424593967517401,
      "eval_=_precision": 0.8743169398907104,
      "eval_=_recall": 0.6451612903225806,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9579367516119128,
      "eval_>_precision": 0.9539339584182633,
      "eval_>_recall": 0.9619732785200411,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9527,
      "eval_loss": 0.11314843595027924,
      "eval_macro_avg_f1-score": 0.7032760892651001,
      "eval_macro_avg_precision": 0.8207523516406223,
      "eval_macro_avg_recall": 0.6652611718752354,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.8986,
      "eval_samples_per_second": 775.28,
      "eval_steps_per_second": 3.101,
      "eval_weighted_avg_f1-score": 0.951274073921914,
      "eval_weighted_avg_precision": 0.9513619451451099,
      "eval_weighted_avg_recall": 0.9527,
      "eval_weighted_avg_support": 10000.0,
      "step": 5886
    },
    {
      "epoch": 6.001019367991845,
      "grad_norm": 0.1534590721130371,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 5887
    },
    {
      "epoch": 6.00203873598369,
      "grad_norm": 0.11037199944257736,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 5888
    },
    {
      "epoch": 6.003058103975535,
      "grad_norm": 0.14556050300598145,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5889
    },
    {
      "epoch": 6.00407747196738,
      "grad_norm": 0.12523365020751953,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 5890
    },
    {
      "epoch": 6.005096839959226,
      "grad_norm": 0.10335972905158997,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 5891
    },
    {
      "epoch": 6.00611620795107,
      "grad_norm": 0.10570736229419708,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5892
    },
    {
      "epoch": 6.0071355759429155,
      "grad_norm": 0.09657355397939682,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 5893
    },
    {
      "epoch": 6.008154943934761,
      "grad_norm": 0.11910562217235565,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5894
    },
    {
      "epoch": 6.009174311926605,
      "grad_norm": 0.1272079199552536,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 5895
    },
    {
      "epoch": 6.0101936799184505,
      "grad_norm": 0.11224576830863953,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 5896
    },
    {
      "epoch": 6.011213047910296,
      "grad_norm": 0.11368266493082047,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 5897
    },
    {
      "epoch": 6.01223241590214,
      "grad_norm": 0.14428600668907166,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 5898
    },
    {
      "epoch": 6.013251783893986,
      "grad_norm": 0.13614945113658905,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 5899
    },
    {
      "epoch": 6.014271151885831,
      "grad_norm": 0.16360536217689514,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 5900
    },
    {
      "epoch": 6.015290519877676,
      "grad_norm": 0.0969514399766922,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 5901
    },
    {
      "epoch": 6.016309887869521,
      "grad_norm": 0.22548808157444,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 5902
    },
    {
      "epoch": 6.017329255861366,
      "grad_norm": 0.1370687037706375,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 5903
    },
    {
      "epoch": 6.018348623853211,
      "grad_norm": 0.10797210037708282,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 5904
    },
    {
      "epoch": 6.019367991845056,
      "grad_norm": 0.11072388291358948,
      "learning_rate": 0.001,
      "loss": 0.2314,
      "step": 5905
    },
    {
      "epoch": 6.020387359836901,
      "grad_norm": 0.1273736208677292,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 5906
    },
    {
      "epoch": 6.021406727828746,
      "grad_norm": 0.1084316223859787,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 5907
    },
    {
      "epoch": 6.022426095820591,
      "grad_norm": 0.14682921767234802,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5908
    },
    {
      "epoch": 6.023445463812436,
      "grad_norm": 0.16794250905513763,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 5909
    },
    {
      "epoch": 6.0244648318042815,
      "grad_norm": 0.19573992490768433,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 5910
    },
    {
      "epoch": 6.025484199796127,
      "grad_norm": 0.11619112640619278,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 5911
    },
    {
      "epoch": 6.026503567787971,
      "grad_norm": 0.10079251229763031,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 5912
    },
    {
      "epoch": 6.027522935779817,
      "grad_norm": 0.13300789892673492,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 5913
    },
    {
      "epoch": 6.028542303771662,
      "grad_norm": 0.11114054173231125,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 5914
    },
    {
      "epoch": 6.029561671763506,
      "grad_norm": 0.1622733324766159,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5915
    },
    {
      "epoch": 6.030581039755352,
      "grad_norm": 0.057040344923734665,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 5916
    },
    {
      "epoch": 6.031600407747197,
      "grad_norm": 0.16122758388519287,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 5917
    },
    {
      "epoch": 6.032619775739041,
      "grad_norm": 0.08334507793188095,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 5918
    },
    {
      "epoch": 6.033639143730887,
      "grad_norm": 0.05922098830342293,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 5919
    },
    {
      "epoch": 6.034658511722732,
      "grad_norm": 0.16263659298419952,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 5920
    },
    {
      "epoch": 6.035677879714577,
      "grad_norm": 0.15213192999362946,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 5921
    },
    {
      "epoch": 6.036697247706422,
      "grad_norm": 0.21256615221500397,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5922
    },
    {
      "epoch": 6.037716615698267,
      "grad_norm": 0.09729135036468506,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 5923
    },
    {
      "epoch": 6.038735983690112,
      "grad_norm": 0.0964137390255928,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 5924
    },
    {
      "epoch": 6.039755351681957,
      "grad_norm": 0.1018504872918129,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 5925
    },
    {
      "epoch": 6.040774719673802,
      "grad_norm": 0.10239793360233307,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 5926
    },
    {
      "epoch": 6.0417940876656475,
      "grad_norm": 0.09447948634624481,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 5927
    },
    {
      "epoch": 6.042813455657492,
      "grad_norm": 0.10090350359678268,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 5928
    },
    {
      "epoch": 6.043832823649337,
      "grad_norm": 0.10677477717399597,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 5929
    },
    {
      "epoch": 6.044852191641183,
      "grad_norm": 0.10345004498958588,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5930
    },
    {
      "epoch": 6.045871559633028,
      "grad_norm": 0.10320724546909332,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 5931
    },
    {
      "epoch": 6.046890927624872,
      "grad_norm": 0.0688350722193718,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 5932
    },
    {
      "epoch": 6.047910295616718,
      "grad_norm": 0.09851564466953278,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 5933
    },
    {
      "epoch": 6.048929663608563,
      "grad_norm": 0.13861823081970215,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 5934
    },
    {
      "epoch": 6.049949031600407,
      "grad_norm": 0.07589007169008255,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 5935
    },
    {
      "epoch": 6.050968399592253,
      "grad_norm": 0.10273898392915726,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 5936
    },
    {
      "epoch": 6.051987767584098,
      "grad_norm": 0.05603773519396782,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 5937
    },
    {
      "epoch": 6.0530071355759425,
      "grad_norm": 0.21141336858272552,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5938
    },
    {
      "epoch": 6.054026503567788,
      "grad_norm": 0.21054574847221375,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 5939
    },
    {
      "epoch": 6.055045871559633,
      "grad_norm": 0.3196520507335663,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 5940
    },
    {
      "epoch": 6.0560652395514785,
      "grad_norm": 0.15274131298065186,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 5941
    },
    {
      "epoch": 6.057084607543323,
      "grad_norm": 0.16312934458255768,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 5942
    },
    {
      "epoch": 6.058103975535168,
      "grad_norm": 0.10197044163942337,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 5943
    },
    {
      "epoch": 6.0591233435270135,
      "grad_norm": 0.19928181171417236,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 5944
    },
    {
      "epoch": 6.060142711518858,
      "grad_norm": 0.1887025237083435,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 5945
    },
    {
      "epoch": 6.061162079510703,
      "grad_norm": 0.09334251284599304,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 5946
    },
    {
      "epoch": 6.062181447502549,
      "grad_norm": 0.12877032160758972,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 5947
    },
    {
      "epoch": 6.063200815494393,
      "grad_norm": 0.1324387490749359,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 5948
    },
    {
      "epoch": 6.064220183486238,
      "grad_norm": 0.14965340495109558,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 5949
    },
    {
      "epoch": 6.065239551478084,
      "grad_norm": 0.07945359498262405,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 5950
    },
    {
      "epoch": 6.066258919469929,
      "grad_norm": 0.12683680653572083,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 5951
    },
    {
      "epoch": 6.0672782874617734,
      "grad_norm": 0.10254853218793869,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 5952
    },
    {
      "epoch": 6.068297655453619,
      "grad_norm": 0.09862063825130463,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 5953
    },
    {
      "epoch": 6.069317023445464,
      "grad_norm": 0.0980028286576271,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 5954
    },
    {
      "epoch": 6.0703363914373085,
      "grad_norm": 0.14282645285129547,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 5955
    },
    {
      "epoch": 6.071355759429154,
      "grad_norm": 0.09339231252670288,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 5956
    },
    {
      "epoch": 6.072375127420999,
      "grad_norm": 0.21230673789978027,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 5957
    },
    {
      "epoch": 6.073394495412844,
      "grad_norm": 0.12171578407287598,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 5958
    },
    {
      "epoch": 6.074413863404689,
      "grad_norm": 0.11614038795232773,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 5959
    },
    {
      "epoch": 6.075433231396534,
      "grad_norm": 0.09458207339048386,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 5960
    },
    {
      "epoch": 6.07645259938838,
      "grad_norm": 0.177938774228096,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 5961
    },
    {
      "epoch": 6.077471967380224,
      "grad_norm": 0.09471569955348969,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 5962
    },
    {
      "epoch": 6.078491335372069,
      "grad_norm": 0.13294951617717743,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 5963
    },
    {
      "epoch": 6.079510703363915,
      "grad_norm": 0.07798627763986588,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 5964
    },
    {
      "epoch": 6.080530071355759,
      "grad_norm": 0.0577809102833271,
      "learning_rate": 0.001,
      "loss": 0.1583,
      "step": 5965
    },
    {
      "epoch": 6.081549439347604,
      "grad_norm": 0.08885259926319122,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 5966
    },
    {
      "epoch": 6.08256880733945,
      "grad_norm": 0.09792832285165787,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 5967
    },
    {
      "epoch": 6.083588175331295,
      "grad_norm": 0.07355796545743942,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 5968
    },
    {
      "epoch": 6.0846075433231395,
      "grad_norm": 0.16800835728645325,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 5969
    },
    {
      "epoch": 6.085626911314985,
      "grad_norm": 0.10265769064426422,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 5970
    },
    {
      "epoch": 6.08664627930683,
      "grad_norm": 0.17055971920490265,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 5971
    },
    {
      "epoch": 6.0876656472986745,
      "grad_norm": 0.07054904848337173,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 5972
    },
    {
      "epoch": 6.08868501529052,
      "grad_norm": 0.09927129745483398,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 5973
    },
    {
      "epoch": 6.089704383282365,
      "grad_norm": 0.1371172070503235,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 5974
    },
    {
      "epoch": 6.09072375127421,
      "grad_norm": 0.09942791610956192,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5975
    },
    {
      "epoch": 6.091743119266055,
      "grad_norm": 0.08180645108222961,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 5976
    },
    {
      "epoch": 6.0927624872579,
      "grad_norm": 0.14780260622501373,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 5977
    },
    {
      "epoch": 6.093781855249746,
      "grad_norm": 0.09203503280878067,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 5978
    },
    {
      "epoch": 6.09480122324159,
      "grad_norm": 0.09302352368831635,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 5979
    },
    {
      "epoch": 6.095820591233435,
      "grad_norm": 0.1615368276834488,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 5980
    },
    {
      "epoch": 6.096839959225281,
      "grad_norm": 0.10787978768348694,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 5981
    },
    {
      "epoch": 6.097859327217125,
      "grad_norm": 0.16777260601520538,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 5982
    },
    {
      "epoch": 6.09887869520897,
      "grad_norm": 0.15053163468837738,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 5983
    },
    {
      "epoch": 6.099898063200816,
      "grad_norm": 0.12256386131048203,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 5984
    },
    {
      "epoch": 6.10091743119266,
      "grad_norm": 0.17161549627780914,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 5985
    },
    {
      "epoch": 6.1019367991845055,
      "grad_norm": 0.09679671376943588,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 5986
    },
    {
      "epoch": 6.102956167176351,
      "grad_norm": 0.2951837480068207,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 5987
    },
    {
      "epoch": 6.103975535168196,
      "grad_norm": 0.12187518924474716,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 5988
    },
    {
      "epoch": 6.104994903160041,
      "grad_norm": 0.11048531532287598,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 5989
    },
    {
      "epoch": 6.106014271151886,
      "grad_norm": 0.08793163299560547,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 5990
    },
    {
      "epoch": 6.107033639143731,
      "grad_norm": 0.1255989968776703,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 5991
    },
    {
      "epoch": 6.108053007135576,
      "grad_norm": 0.22335675358772278,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 5992
    },
    {
      "epoch": 6.109072375127421,
      "grad_norm": 0.08988675475120544,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 5993
    },
    {
      "epoch": 6.110091743119266,
      "grad_norm": 0.06753062456846237,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 5994
    },
    {
      "epoch": 6.111111111111111,
      "grad_norm": 0.11846162378787994,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 5995
    },
    {
      "epoch": 6.112130479102956,
      "grad_norm": 0.08988562971353531,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 5996
    },
    {
      "epoch": 6.113149847094801,
      "grad_norm": 0.0735325738787651,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 5997
    },
    {
      "epoch": 6.114169215086647,
      "grad_norm": 0.09742709994316101,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 5998
    },
    {
      "epoch": 6.115188583078491,
      "grad_norm": 0.14799576997756958,
      "learning_rate": 0.001,
      "loss": 0.2229,
      "step": 5999
    },
    {
      "epoch": 6.116207951070336,
      "grad_norm": 0.1513616293668747,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 6000
    },
    {
      "epoch": 6.117227319062182,
      "grad_norm": 0.1013413518667221,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 6001
    },
    {
      "epoch": 6.118246687054026,
      "grad_norm": 0.11831847578287125,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 6002
    },
    {
      "epoch": 6.1192660550458715,
      "grad_norm": 0.30646222829818726,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6003
    },
    {
      "epoch": 6.120285423037717,
      "grad_norm": 0.29114335775375366,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 6004
    },
    {
      "epoch": 6.121304791029561,
      "grad_norm": 0.09568735212087631,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 6005
    },
    {
      "epoch": 6.122324159021407,
      "grad_norm": 0.09351696819067001,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 6006
    },
    {
      "epoch": 6.123343527013252,
      "grad_norm": 0.09595999866724014,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6007
    },
    {
      "epoch": 6.124362895005097,
      "grad_norm": 0.1698656976222992,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6008
    },
    {
      "epoch": 6.125382262996942,
      "grad_norm": 0.08573483675718307,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 6009
    },
    {
      "epoch": 6.126401630988787,
      "grad_norm": 0.17527888715267181,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 6010
    },
    {
      "epoch": 6.127420998980632,
      "grad_norm": 0.19245076179504395,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6011
    },
    {
      "epoch": 6.128440366972477,
      "grad_norm": 0.09861179441213608,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 6012
    },
    {
      "epoch": 6.129459734964322,
      "grad_norm": 0.11573705077171326,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 6013
    },
    {
      "epoch": 6.130479102956167,
      "grad_norm": 0.0723104327917099,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 6014
    },
    {
      "epoch": 6.131498470948012,
      "grad_norm": 0.1025301143527031,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 6015
    },
    {
      "epoch": 6.132517838939857,
      "grad_norm": 0.10823755711317062,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 6016
    },
    {
      "epoch": 6.1335372069317025,
      "grad_norm": 0.09594590961933136,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 6017
    },
    {
      "epoch": 6.134556574923548,
      "grad_norm": 0.12631389498710632,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 6018
    },
    {
      "epoch": 6.135575942915392,
      "grad_norm": 0.159104123711586,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 6019
    },
    {
      "epoch": 6.1365953109072375,
      "grad_norm": 0.15675154328346252,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 6020
    },
    {
      "epoch": 6.137614678899083,
      "grad_norm": 0.12980836629867554,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 6021
    },
    {
      "epoch": 6.138634046890927,
      "grad_norm": 0.19367378950119019,
      "learning_rate": 0.001,
      "loss": 0.2332,
      "step": 6022
    },
    {
      "epoch": 6.139653414882773,
      "grad_norm": 0.12130527198314667,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 6023
    },
    {
      "epoch": 6.140672782874618,
      "grad_norm": 0.1741395741701126,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 6024
    },
    {
      "epoch": 6.141692150866462,
      "grad_norm": 0.20011883974075317,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 6025
    },
    {
      "epoch": 6.142711518858308,
      "grad_norm": 0.08861290663480759,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 6026
    },
    {
      "epoch": 6.143730886850153,
      "grad_norm": 0.12240315973758698,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 6027
    },
    {
      "epoch": 6.144750254841998,
      "grad_norm": 0.19684216380119324,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 6028
    },
    {
      "epoch": 6.145769622833843,
      "grad_norm": 0.1443878561258316,
      "learning_rate": 0.001,
      "loss": 0.2223,
      "step": 6029
    },
    {
      "epoch": 6.146788990825688,
      "grad_norm": 0.10091245919466019,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 6030
    },
    {
      "epoch": 6.147808358817533,
      "grad_norm": 0.1267431527376175,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 6031
    },
    {
      "epoch": 6.148827726809378,
      "grad_norm": 0.14030849933624268,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 6032
    },
    {
      "epoch": 6.149847094801223,
      "grad_norm": 0.10591036826372147,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 6033
    },
    {
      "epoch": 6.1508664627930685,
      "grad_norm": 0.21472926437854767,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 6034
    },
    {
      "epoch": 6.151885830784913,
      "grad_norm": 0.1490623503923416,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 6035
    },
    {
      "epoch": 6.152905198776758,
      "grad_norm": 0.11578451842069626,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 6036
    },
    {
      "epoch": 6.1539245667686036,
      "grad_norm": 0.08376932889223099,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 6037
    },
    {
      "epoch": 6.154943934760449,
      "grad_norm": 0.07414709776639938,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 6038
    },
    {
      "epoch": 6.155963302752293,
      "grad_norm": 0.19503311812877655,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 6039
    },
    {
      "epoch": 6.156982670744139,
      "grad_norm": 0.11726099997758865,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 6040
    },
    {
      "epoch": 6.158002038735984,
      "grad_norm": 0.0973624587059021,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 6041
    },
    {
      "epoch": 6.159021406727828,
      "grad_norm": 0.11985126882791519,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6042
    },
    {
      "epoch": 6.160040774719674,
      "grad_norm": 0.17997322976589203,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 6043
    },
    {
      "epoch": 6.161060142711519,
      "grad_norm": 0.1028248518705368,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 6044
    },
    {
      "epoch": 6.162079510703364,
      "grad_norm": 0.18128184974193573,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 6045
    },
    {
      "epoch": 6.163098878695209,
      "grad_norm": 0.16674648225307465,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 6046
    },
    {
      "epoch": 6.164118246687054,
      "grad_norm": 0.20785239338874817,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 6047
    },
    {
      "epoch": 6.165137614678899,
      "grad_norm": 0.17640428245067596,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 6048
    },
    {
      "epoch": 6.166156982670744,
      "grad_norm": 0.09989195317029953,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 6049
    },
    {
      "epoch": 6.167176350662589,
      "grad_norm": 0.11201034486293793,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 6050
    },
    {
      "epoch": 6.1681957186544345,
      "grad_norm": 0.12545672059059143,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 6051
    },
    {
      "epoch": 6.169215086646279,
      "grad_norm": 0.11926793307065964,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 6052
    },
    {
      "epoch": 6.170234454638124,
      "grad_norm": 0.08486136049032211,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 6053
    },
    {
      "epoch": 6.17125382262997,
      "grad_norm": 0.14085599780082703,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 6054
    },
    {
      "epoch": 6.172273190621815,
      "grad_norm": 0.10784126073122025,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 6055
    },
    {
      "epoch": 6.173292558613659,
      "grad_norm": 0.1317518800497055,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 6056
    },
    {
      "epoch": 6.174311926605505,
      "grad_norm": 0.09802307188510895,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 6057
    },
    {
      "epoch": 6.17533129459735,
      "grad_norm": 0.11970312148332596,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 6058
    },
    {
      "epoch": 6.176350662589194,
      "grad_norm": 0.20278266072273254,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 6059
    },
    {
      "epoch": 6.17737003058104,
      "grad_norm": 0.09895292669534683,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 6060
    },
    {
      "epoch": 6.178389398572885,
      "grad_norm": 0.15267781913280487,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 6061
    },
    {
      "epoch": 6.1794087665647295,
      "grad_norm": 0.15173952281475067,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 6062
    },
    {
      "epoch": 6.180428134556575,
      "grad_norm": 0.18290728330612183,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 6063
    },
    {
      "epoch": 6.18144750254842,
      "grad_norm": 0.13704003393650055,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 6064
    },
    {
      "epoch": 6.1824668705402654,
      "grad_norm": 0.1279604285955429,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6065
    },
    {
      "epoch": 6.18348623853211,
      "grad_norm": 0.08875714987516403,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6066
    },
    {
      "epoch": 6.184505606523955,
      "grad_norm": 0.1447393298149109,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 6067
    },
    {
      "epoch": 6.1855249745158005,
      "grad_norm": 0.11402277648448944,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 6068
    },
    {
      "epoch": 6.186544342507645,
      "grad_norm": 0.08542067557573318,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 6069
    },
    {
      "epoch": 6.18756371049949,
      "grad_norm": 0.10647770017385483,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 6070
    },
    {
      "epoch": 6.188583078491336,
      "grad_norm": 0.11822497844696045,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 6071
    },
    {
      "epoch": 6.18960244648318,
      "grad_norm": 0.06855122745037079,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 6072
    },
    {
      "epoch": 6.190621814475025,
      "grad_norm": 0.09968053549528122,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 6073
    },
    {
      "epoch": 6.191641182466871,
      "grad_norm": 0.11118799448013306,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 6074
    },
    {
      "epoch": 6.192660550458716,
      "grad_norm": 0.15148644149303436,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 6075
    },
    {
      "epoch": 6.19367991845056,
      "grad_norm": 0.3053695261478424,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 6076
    },
    {
      "epoch": 6.194699286442406,
      "grad_norm": 0.10583560913801193,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 6077
    },
    {
      "epoch": 6.195718654434251,
      "grad_norm": 0.2042136937379837,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 6078
    },
    {
      "epoch": 6.1967380224260955,
      "grad_norm": 0.12639130651950836,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 6079
    },
    {
      "epoch": 6.197757390417941,
      "grad_norm": 0.12026656419038773,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 6080
    },
    {
      "epoch": 6.198776758409786,
      "grad_norm": 0.19352561235427856,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 6081
    },
    {
      "epoch": 6.199796126401631,
      "grad_norm": 0.14715386927127838,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 6082
    },
    {
      "epoch": 6.200815494393476,
      "grad_norm": 0.12229535728693008,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 6083
    },
    {
      "epoch": 6.201834862385321,
      "grad_norm": 0.1534959226846695,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 6084
    },
    {
      "epoch": 6.2028542303771665,
      "grad_norm": 1.202850580215454,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 6085
    },
    {
      "epoch": 6.203873598369011,
      "grad_norm": 0.11352028697729111,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 6086
    },
    {
      "epoch": 6.204892966360856,
      "grad_norm": 0.1875240057706833,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 6087
    },
    {
      "epoch": 6.205912334352702,
      "grad_norm": 0.14523570239543915,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 6088
    },
    {
      "epoch": 6.206931702344546,
      "grad_norm": 0.17660404741764069,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 6089
    },
    {
      "epoch": 6.207951070336391,
      "grad_norm": 0.16738414764404297,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6090
    },
    {
      "epoch": 6.208970438328237,
      "grad_norm": 0.10576413571834564,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 6091
    },
    {
      "epoch": 6.209989806320081,
      "grad_norm": 0.13348382711410522,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 6092
    },
    {
      "epoch": 6.2110091743119265,
      "grad_norm": 0.10092604905366898,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6093
    },
    {
      "epoch": 6.212028542303772,
      "grad_norm": 0.20700517296791077,
      "learning_rate": 0.001,
      "loss": 0.2362,
      "step": 6094
    },
    {
      "epoch": 6.213047910295617,
      "grad_norm": 0.16554321348667145,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 6095
    },
    {
      "epoch": 6.2140672782874615,
      "grad_norm": 0.10390620678663254,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 6096
    },
    {
      "epoch": 6.215086646279307,
      "grad_norm": 0.18669593334197998,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 6097
    },
    {
      "epoch": 6.216106014271152,
      "grad_norm": 0.1330118030309677,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 6098
    },
    {
      "epoch": 6.217125382262997,
      "grad_norm": 0.11904281377792358,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 6099
    },
    {
      "epoch": 6.218144750254842,
      "grad_norm": 0.15767645835876465,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 6100
    },
    {
      "epoch": 6.219164118246687,
      "grad_norm": 0.12404655665159225,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 6101
    },
    {
      "epoch": 6.220183486238533,
      "grad_norm": 0.16439767181873322,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 6102
    },
    {
      "epoch": 6.221202854230377,
      "grad_norm": 0.12605831027030945,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 6103
    },
    {
      "epoch": 6.222222222222222,
      "grad_norm": 0.17220355570316315,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 6104
    },
    {
      "epoch": 6.223241590214068,
      "grad_norm": 0.18070760369300842,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 6105
    },
    {
      "epoch": 6.224260958205912,
      "grad_norm": 0.13407962024211884,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 6106
    },
    {
      "epoch": 6.225280326197757,
      "grad_norm": 0.10249590128660202,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 6107
    },
    {
      "epoch": 6.226299694189603,
      "grad_norm": 0.20656616985797882,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 6108
    },
    {
      "epoch": 6.227319062181447,
      "grad_norm": 0.17100203037261963,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 6109
    },
    {
      "epoch": 6.2283384301732925,
      "grad_norm": 0.16375842690467834,
      "learning_rate": 0.001,
      "loss": 0.2329,
      "step": 6110
    },
    {
      "epoch": 6.229357798165138,
      "grad_norm": 0.12510959804058075,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 6111
    },
    {
      "epoch": 6.230377166156982,
      "grad_norm": 0.12760207056999207,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 6112
    },
    {
      "epoch": 6.2313965341488275,
      "grad_norm": 0.10934046655893326,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 6113
    },
    {
      "epoch": 6.232415902140673,
      "grad_norm": 0.12108840048313141,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 6114
    },
    {
      "epoch": 6.233435270132518,
      "grad_norm": 0.23255100846290588,
      "learning_rate": 0.001,
      "loss": 0.233,
      "step": 6115
    },
    {
      "epoch": 6.234454638124363,
      "grad_norm": 0.2678752839565277,
      "learning_rate": 0.001,
      "loss": 0.2225,
      "step": 6116
    },
    {
      "epoch": 6.235474006116208,
      "grad_norm": 0.17898309230804443,
      "learning_rate": 0.001,
      "loss": 0.2136,
      "step": 6117
    },
    {
      "epoch": 6.236493374108053,
      "grad_norm": 0.09413795918226242,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 6118
    },
    {
      "epoch": 6.237512742099898,
      "grad_norm": 0.1390712857246399,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 6119
    },
    {
      "epoch": 6.238532110091743,
      "grad_norm": 0.14620961248874664,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6120
    },
    {
      "epoch": 6.239551478083588,
      "grad_norm": 0.22879977524280548,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 6121
    },
    {
      "epoch": 6.240570846075434,
      "grad_norm": 0.14628095924854279,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 6122
    },
    {
      "epoch": 6.241590214067278,
      "grad_norm": 0.21694837510585785,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 6123
    },
    {
      "epoch": 6.242609582059123,
      "grad_norm": 0.1872178465127945,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6124
    },
    {
      "epoch": 6.243628950050969,
      "grad_norm": 0.08199482411146164,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 6125
    },
    {
      "epoch": 6.244648318042813,
      "grad_norm": 0.11409717053174973,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 6126
    },
    {
      "epoch": 6.2456676860346585,
      "grad_norm": 0.20051029324531555,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 6127
    },
    {
      "epoch": 6.246687054026504,
      "grad_norm": 0.1202709823846817,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 6128
    },
    {
      "epoch": 6.247706422018348,
      "grad_norm": 0.13869060575962067,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 6129
    },
    {
      "epoch": 6.248725790010194,
      "grad_norm": 0.1430152952671051,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 6130
    },
    {
      "epoch": 6.249745158002039,
      "grad_norm": 0.08501482754945755,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 6131
    },
    {
      "epoch": 6.250764525993883,
      "grad_norm": 0.15917238593101501,
      "learning_rate": 0.001,
      "loss": 0.2469,
      "step": 6132
    },
    {
      "epoch": 6.251783893985729,
      "grad_norm": 0.17367541790008545,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6133
    },
    {
      "epoch": 6.252803261977574,
      "grad_norm": 0.07298126071691513,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 6134
    },
    {
      "epoch": 6.253822629969419,
      "grad_norm": 0.10954249650239944,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 6135
    },
    {
      "epoch": 6.254841997961264,
      "grad_norm": 0.10673436522483826,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 6136
    },
    {
      "epoch": 6.255861365953109,
      "grad_norm": 0.16027945280075073,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 6137
    },
    {
      "epoch": 6.256880733944954,
      "grad_norm": 0.1511598527431488,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 6138
    },
    {
      "epoch": 6.257900101936799,
      "grad_norm": 0.1701497882604599,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 6139
    },
    {
      "epoch": 6.258919469928644,
      "grad_norm": 0.11506336182355881,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6140
    },
    {
      "epoch": 6.259938837920489,
      "grad_norm": 0.12080337852239609,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 6141
    },
    {
      "epoch": 6.260958205912335,
      "grad_norm": 0.10546229779720306,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6142
    },
    {
      "epoch": 6.261977573904179,
      "grad_norm": 0.10690813511610031,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 6143
    },
    {
      "epoch": 6.2629969418960245,
      "grad_norm": 0.1370723992586136,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 6144
    },
    {
      "epoch": 6.26401630988787,
      "grad_norm": 0.06931765377521515,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6145
    },
    {
      "epoch": 6.265035677879714,
      "grad_norm": 0.13105079531669617,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 6146
    },
    {
      "epoch": 6.26605504587156,
      "grad_norm": 0.17541605234146118,
      "learning_rate": 0.001,
      "loss": 0.2297,
      "step": 6147
    },
    {
      "epoch": 6.267074413863405,
      "grad_norm": 0.14759255945682526,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 6148
    },
    {
      "epoch": 6.268093781855249,
      "grad_norm": 0.11807788163423538,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 6149
    },
    {
      "epoch": 6.269113149847095,
      "grad_norm": 0.17979082465171814,
      "learning_rate": 0.001,
      "loss": 0.2186,
      "step": 6150
    },
    {
      "epoch": 6.27013251783894,
      "grad_norm": 0.10397519171237946,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 6151
    },
    {
      "epoch": 6.271151885830785,
      "grad_norm": 0.10439269989728928,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 6152
    },
    {
      "epoch": 6.27217125382263,
      "grad_norm": 0.13874031603336334,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 6153
    },
    {
      "epoch": 6.273190621814475,
      "grad_norm": 0.17573392391204834,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 6154
    },
    {
      "epoch": 6.27420998980632,
      "grad_norm": 0.13107095658779144,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 6155
    },
    {
      "epoch": 6.275229357798165,
      "grad_norm": 0.17170944809913635,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 6156
    },
    {
      "epoch": 6.27624872579001,
      "grad_norm": 0.1035819798707962,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 6157
    },
    {
      "epoch": 6.2772680937818555,
      "grad_norm": 0.1036255806684494,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 6158
    },
    {
      "epoch": 6.2782874617737,
      "grad_norm": 0.17345942556858063,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 6159
    },
    {
      "epoch": 6.279306829765545,
      "grad_norm": 0.10947351157665253,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 6160
    },
    {
      "epoch": 6.2803261977573905,
      "grad_norm": 0.13277828693389893,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 6161
    },
    {
      "epoch": 6.281345565749236,
      "grad_norm": 0.1294296383857727,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 6162
    },
    {
      "epoch": 6.28236493374108,
      "grad_norm": 0.2177722007036209,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 6163
    },
    {
      "epoch": 6.283384301732926,
      "grad_norm": 0.2295355498790741,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 6164
    },
    {
      "epoch": 6.284403669724771,
      "grad_norm": 0.21785540878772736,
      "learning_rate": 0.001,
      "loss": 0.2233,
      "step": 6165
    },
    {
      "epoch": 6.285423037716615,
      "grad_norm": 0.14427527785301208,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 6166
    },
    {
      "epoch": 6.286442405708461,
      "grad_norm": 0.1186886876821518,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6167
    },
    {
      "epoch": 6.287461773700306,
      "grad_norm": 0.10961207002401352,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 6168
    },
    {
      "epoch": 6.2884811416921504,
      "grad_norm": 0.12879522144794464,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6169
    },
    {
      "epoch": 6.289500509683996,
      "grad_norm": 0.12168695777654648,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 6170
    },
    {
      "epoch": 6.290519877675841,
      "grad_norm": 0.22804144024848938,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 6171
    },
    {
      "epoch": 6.291539245667686,
      "grad_norm": 0.16213653981685638,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 6172
    },
    {
      "epoch": 6.292558613659531,
      "grad_norm": 0.2147700935602188,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 6173
    },
    {
      "epoch": 6.293577981651376,
      "grad_norm": 0.15409745275974274,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6174
    },
    {
      "epoch": 6.2945973496432215,
      "grad_norm": 0.12664715945720673,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6175
    },
    {
      "epoch": 6.295616717635066,
      "grad_norm": 0.07708427309989929,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 6176
    },
    {
      "epoch": 6.296636085626911,
      "grad_norm": 0.12788857519626617,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 6177
    },
    {
      "epoch": 6.297655453618757,
      "grad_norm": 0.09114941209554672,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 6178
    },
    {
      "epoch": 6.298674821610602,
      "grad_norm": 0.162967711687088,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6179
    },
    {
      "epoch": 6.299694189602446,
      "grad_norm": 0.15219850838184357,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 6180
    },
    {
      "epoch": 6.300713557594292,
      "grad_norm": 0.19204790890216827,
      "learning_rate": 0.001,
      "loss": 0.229,
      "step": 6181
    },
    {
      "epoch": 6.301732925586137,
      "grad_norm": 0.19005750119686127,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6182
    },
    {
      "epoch": 6.302752293577981,
      "grad_norm": 0.0624799020588398,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 6183
    },
    {
      "epoch": 6.303771661569827,
      "grad_norm": 0.08367155492305756,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 6184
    },
    {
      "epoch": 6.304791029561672,
      "grad_norm": 0.1583717316389084,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 6185
    },
    {
      "epoch": 6.3058103975535165,
      "grad_norm": 0.16302524507045746,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 6186
    },
    {
      "epoch": 6.306829765545362,
      "grad_norm": 0.20173992216587067,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 6187
    },
    {
      "epoch": 6.307849133537207,
      "grad_norm": 0.15645968914031982,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 6188
    },
    {
      "epoch": 6.3088685015290515,
      "grad_norm": 0.09102532267570496,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 6189
    },
    {
      "epoch": 6.309887869520897,
      "grad_norm": 0.13946175575256348,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 6190
    },
    {
      "epoch": 6.310907237512742,
      "grad_norm": 0.10078004747629166,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 6191
    },
    {
      "epoch": 6.3119266055045875,
      "grad_norm": 0.1450975388288498,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 6192
    },
    {
      "epoch": 6.312945973496432,
      "grad_norm": 0.1792082041501999,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 6193
    },
    {
      "epoch": 6.313965341488277,
      "grad_norm": 0.1772979199886322,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6194
    },
    {
      "epoch": 6.314984709480123,
      "grad_norm": 0.11866427212953568,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 6195
    },
    {
      "epoch": 6.316004077471967,
      "grad_norm": 0.1696174442768097,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 6196
    },
    {
      "epoch": 6.317023445463812,
      "grad_norm": 0.117915078997612,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 6197
    },
    {
      "epoch": 6.318042813455658,
      "grad_norm": 0.11813655495643616,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6198
    },
    {
      "epoch": 6.319062181447503,
      "grad_norm": 0.10818732529878616,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 6199
    },
    {
      "epoch": 6.320081549439347,
      "grad_norm": 0.20023928582668304,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6200
    },
    {
      "epoch": 6.321100917431193,
      "grad_norm": 0.1667666733264923,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 6201
    },
    {
      "epoch": 6.322120285423038,
      "grad_norm": 0.16113053262233734,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 6202
    },
    {
      "epoch": 6.3231396534148825,
      "grad_norm": 0.1836354285478592,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 6203
    },
    {
      "epoch": 6.324159021406728,
      "grad_norm": 0.1372666358947754,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 6204
    },
    {
      "epoch": 6.325178389398573,
      "grad_norm": 0.10872241854667664,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 6205
    },
    {
      "epoch": 6.326197757390418,
      "grad_norm": 0.1441992074251175,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6206
    },
    {
      "epoch": 6.327217125382263,
      "grad_norm": 0.13423405587673187,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 6207
    },
    {
      "epoch": 6.328236493374108,
      "grad_norm": 0.1355055272579193,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 6208
    },
    {
      "epoch": 6.329255861365953,
      "grad_norm": 0.08238188922405243,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 6209
    },
    {
      "epoch": 6.330275229357798,
      "grad_norm": 0.19041919708251953,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 6210
    },
    {
      "epoch": 6.331294597349643,
      "grad_norm": 0.2503150403499603,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 6211
    },
    {
      "epoch": 6.332313965341489,
      "grad_norm": 0.25054803490638733,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 6212
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.09609164297580719,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 6213
    },
    {
      "epoch": 6.334352701325178,
      "grad_norm": 0.14696350693702698,
      "learning_rate": 0.001,
      "loss": 0.2217,
      "step": 6214
    },
    {
      "epoch": 6.335372069317024,
      "grad_norm": 0.15634608268737793,
      "learning_rate": 0.001,
      "loss": 0.2294,
      "step": 6215
    },
    {
      "epoch": 6.336391437308868,
      "grad_norm": 0.22935032844543457,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 6216
    },
    {
      "epoch": 6.337410805300713,
      "grad_norm": 0.2095472365617752,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 6217
    },
    {
      "epoch": 6.338430173292559,
      "grad_norm": 0.09927161037921906,
      "learning_rate": 0.001,
      "loss": 0.2168,
      "step": 6218
    },
    {
      "epoch": 6.339449541284404,
      "grad_norm": 0.11206093430519104,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 6219
    },
    {
      "epoch": 6.3404689092762485,
      "grad_norm": 0.11040430516004562,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 6220
    },
    {
      "epoch": 6.341488277268094,
      "grad_norm": 0.0803312361240387,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 6221
    },
    {
      "epoch": 6.342507645259939,
      "grad_norm": 0.12355487048625946,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 6222
    },
    {
      "epoch": 6.343527013251784,
      "grad_norm": 0.1549515426158905,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 6223
    },
    {
      "epoch": 6.344546381243629,
      "grad_norm": 0.12161792814731598,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 6224
    },
    {
      "epoch": 6.345565749235474,
      "grad_norm": 0.1333099901676178,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 6225
    },
    {
      "epoch": 6.346585117227319,
      "grad_norm": 0.15543319284915924,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 6226
    },
    {
      "epoch": 6.347604485219164,
      "grad_norm": 0.15338236093521118,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 6227
    },
    {
      "epoch": 6.348623853211009,
      "grad_norm": 0.20894812047481537,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 6228
    },
    {
      "epoch": 6.349643221202855,
      "grad_norm": 0.10116192698478699,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 6229
    },
    {
      "epoch": 6.350662589194699,
      "grad_norm": 0.10010372847318649,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 6230
    },
    {
      "epoch": 6.351681957186544,
      "grad_norm": 0.12315709888935089,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6231
    },
    {
      "epoch": 6.35270132517839,
      "grad_norm": 0.07498984038829803,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 6232
    },
    {
      "epoch": 6.353720693170234,
      "grad_norm": 0.18402379751205444,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 6233
    },
    {
      "epoch": 6.3547400611620795,
      "grad_norm": 0.11579453200101852,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 6234
    },
    {
      "epoch": 6.355759429153925,
      "grad_norm": 0.09911392629146576,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 6235
    },
    {
      "epoch": 6.356778797145769,
      "grad_norm": 0.1049065887928009,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 6236
    },
    {
      "epoch": 6.3577981651376145,
      "grad_norm": 0.09736549854278564,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 6237
    },
    {
      "epoch": 6.35881753312946,
      "grad_norm": 0.18722154200077057,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 6238
    },
    {
      "epoch": 6.359836901121305,
      "grad_norm": 0.12218865007162094,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 6239
    },
    {
      "epoch": 6.36085626911315,
      "grad_norm": 0.08219844102859497,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 6240
    },
    {
      "epoch": 6.361875637104995,
      "grad_norm": 0.11977255344390869,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 6241
    },
    {
      "epoch": 6.36289500509684,
      "grad_norm": 0.11694175750017166,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 6242
    },
    {
      "epoch": 6.363914373088685,
      "grad_norm": 0.09699735790491104,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 6243
    },
    {
      "epoch": 6.36493374108053,
      "grad_norm": 0.1001298651099205,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 6244
    },
    {
      "epoch": 6.365953109072375,
      "grad_norm": 0.08280918002128601,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 6245
    },
    {
      "epoch": 6.36697247706422,
      "grad_norm": 0.15458813309669495,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6246
    },
    {
      "epoch": 6.367991845056065,
      "grad_norm": 0.08387553691864014,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 6247
    },
    {
      "epoch": 6.36901121304791,
      "grad_norm": 0.06402416527271271,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 6248
    },
    {
      "epoch": 6.370030581039756,
      "grad_norm": 0.23038418591022491,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 6249
    },
    {
      "epoch": 6.3710499490316,
      "grad_norm": 0.1426202654838562,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 6250
    },
    {
      "epoch": 6.3720693170234455,
      "grad_norm": 0.15791656076908112,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 6251
    },
    {
      "epoch": 6.373088685015291,
      "grad_norm": 0.13797330856323242,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 6252
    },
    {
      "epoch": 6.374108053007135,
      "grad_norm": 0.25754696130752563,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 6253
    },
    {
      "epoch": 6.3751274209989806,
      "grad_norm": 0.1486075222492218,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6254
    },
    {
      "epoch": 6.376146788990826,
      "grad_norm": 0.10620004683732986,
      "learning_rate": 0.001,
      "loss": 0.2205,
      "step": 6255
    },
    {
      "epoch": 6.377166156982671,
      "grad_norm": 0.0642780065536499,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 6256
    },
    {
      "epoch": 6.378185524974516,
      "grad_norm": 0.1090308427810669,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 6257
    },
    {
      "epoch": 6.379204892966361,
      "grad_norm": 0.0883389413356781,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 6258
    },
    {
      "epoch": 6.380224260958206,
      "grad_norm": 0.09979531913995743,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 6259
    },
    {
      "epoch": 6.381243628950051,
      "grad_norm": 0.11062447726726532,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6260
    },
    {
      "epoch": 6.382262996941896,
      "grad_norm": 0.12393610179424286,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 6261
    },
    {
      "epoch": 6.383282364933741,
      "grad_norm": 0.11580072343349457,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 6262
    },
    {
      "epoch": 6.384301732925586,
      "grad_norm": 0.13037608563899994,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 6263
    },
    {
      "epoch": 6.385321100917431,
      "grad_norm": 0.18209706246852875,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 6264
    },
    {
      "epoch": 6.386340468909276,
      "grad_norm": 0.11158334463834763,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 6265
    },
    {
      "epoch": 6.387359836901121,
      "grad_norm": 0.1720757782459259,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 6266
    },
    {
      "epoch": 6.388379204892966,
      "grad_norm": 0.08757005631923676,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 6267
    },
    {
      "epoch": 6.3893985728848115,
      "grad_norm": 0.12581788003444672,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6268
    },
    {
      "epoch": 6.390417940876657,
      "grad_norm": 0.10432010143995285,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 6269
    },
    {
      "epoch": 6.391437308868501,
      "grad_norm": 0.1534406542778015,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 6270
    },
    {
      "epoch": 6.392456676860347,
      "grad_norm": 0.21128500998020172,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 6271
    },
    {
      "epoch": 6.393476044852192,
      "grad_norm": 0.18292532861232758,
      "learning_rate": 0.001,
      "loss": 0.2263,
      "step": 6272
    },
    {
      "epoch": 6.394495412844036,
      "grad_norm": 0.10696347057819366,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 6273
    },
    {
      "epoch": 6.395514780835882,
      "grad_norm": 0.08231279253959656,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6274
    },
    {
      "epoch": 6.396534148827727,
      "grad_norm": 0.10536307096481323,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 6275
    },
    {
      "epoch": 6.397553516819572,
      "grad_norm": 0.17503748834133148,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 6276
    },
    {
      "epoch": 6.398572884811417,
      "grad_norm": 0.08651404827833176,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 6277
    },
    {
      "epoch": 6.399592252803262,
      "grad_norm": 0.06359810382127762,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6278
    },
    {
      "epoch": 6.400611620795107,
      "grad_norm": 0.06661757826805115,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6279
    },
    {
      "epoch": 6.401630988786952,
      "grad_norm": 0.11884085834026337,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 6280
    },
    {
      "epoch": 6.402650356778797,
      "grad_norm": 0.18593338131904602,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 6281
    },
    {
      "epoch": 6.4036697247706424,
      "grad_norm": 0.08300814032554626,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 6282
    },
    {
      "epoch": 6.404689092762487,
      "grad_norm": 0.07422603666782379,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 6283
    },
    {
      "epoch": 6.405708460754332,
      "grad_norm": 0.17176075279712677,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 6284
    },
    {
      "epoch": 6.4067278287461775,
      "grad_norm": 0.08212728798389435,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6285
    },
    {
      "epoch": 6.407747196738022,
      "grad_norm": 0.1236429288983345,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 6286
    },
    {
      "epoch": 6.408766564729867,
      "grad_norm": 0.12984701991081238,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6287
    },
    {
      "epoch": 6.409785932721713,
      "grad_norm": 0.12880684435367584,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 6288
    },
    {
      "epoch": 6.410805300713558,
      "grad_norm": 0.126319020986557,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 6289
    },
    {
      "epoch": 6.411824668705402,
      "grad_norm": 0.14414462447166443,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 6290
    },
    {
      "epoch": 6.412844036697248,
      "grad_norm": 0.17705319821834564,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 6291
    },
    {
      "epoch": 6.413863404689093,
      "grad_norm": 0.09167326241731644,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 6292
    },
    {
      "epoch": 6.414882772680937,
      "grad_norm": 0.13207845389842987,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6293
    },
    {
      "epoch": 6.415902140672783,
      "grad_norm": 0.07716567814350128,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 6294
    },
    {
      "epoch": 6.416921508664628,
      "grad_norm": 0.18919937312602997,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 6295
    },
    {
      "epoch": 6.417940876656473,
      "grad_norm": 0.12058503925800323,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 6296
    },
    {
      "epoch": 6.418960244648318,
      "grad_norm": 0.12041264027357101,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 6297
    },
    {
      "epoch": 6.419979612640163,
      "grad_norm": 0.11662627756595612,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6298
    },
    {
      "epoch": 6.4209989806320085,
      "grad_norm": 0.15515656769275665,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6299
    },
    {
      "epoch": 6.422018348623853,
      "grad_norm": 0.11910822987556458,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 6300
    },
    {
      "epoch": 6.423037716615698,
      "grad_norm": 0.09492112696170807,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 6301
    },
    {
      "epoch": 6.4240570846075435,
      "grad_norm": 0.06902867555618286,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 6302
    },
    {
      "epoch": 6.425076452599388,
      "grad_norm": 0.16044439375400543,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 6303
    },
    {
      "epoch": 6.426095820591233,
      "grad_norm": 0.04994848370552063,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 6304
    },
    {
      "epoch": 6.427115188583079,
      "grad_norm": 0.181332066655159,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 6305
    },
    {
      "epoch": 6.428134556574924,
      "grad_norm": 0.0821438729763031,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 6306
    },
    {
      "epoch": 6.429153924566768,
      "grad_norm": 0.20503541827201843,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 6307
    },
    {
      "epoch": 6.430173292558614,
      "grad_norm": 0.08055635541677475,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 6308
    },
    {
      "epoch": 6.431192660550459,
      "grad_norm": 0.1659165620803833,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 6309
    },
    {
      "epoch": 6.4322120285423035,
      "grad_norm": 0.1598217487335205,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 6310
    },
    {
      "epoch": 6.433231396534149,
      "grad_norm": 0.14643263816833496,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 6311
    },
    {
      "epoch": 6.434250764525994,
      "grad_norm": 0.10759394615888596,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 6312
    },
    {
      "epoch": 6.4352701325178385,
      "grad_norm": 0.1006057932972908,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 6313
    },
    {
      "epoch": 6.436289500509684,
      "grad_norm": 0.13718414306640625,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 6314
    },
    {
      "epoch": 6.437308868501529,
      "grad_norm": 0.08657059818506241,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 6315
    },
    {
      "epoch": 6.4383282364933745,
      "grad_norm": 0.11019674688577652,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 6316
    },
    {
      "epoch": 6.439347604485219,
      "grad_norm": 0.06288287788629532,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 6317
    },
    {
      "epoch": 6.440366972477064,
      "grad_norm": 0.11230209469795227,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 6318
    },
    {
      "epoch": 6.44138634046891,
      "grad_norm": 0.15236249566078186,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6319
    },
    {
      "epoch": 6.442405708460754,
      "grad_norm": 0.11287599802017212,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6320
    },
    {
      "epoch": 6.443425076452599,
      "grad_norm": 0.13283763825893402,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6321
    },
    {
      "epoch": 6.444444444444445,
      "grad_norm": 0.1646576225757599,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 6322
    },
    {
      "epoch": 6.445463812436289,
      "grad_norm": 0.12509094178676605,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6323
    },
    {
      "epoch": 6.446483180428134,
      "grad_norm": 0.14777584373950958,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 6324
    },
    {
      "epoch": 6.44750254841998,
      "grad_norm": 0.09712200611829758,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 6325
    },
    {
      "epoch": 6.448521916411825,
      "grad_norm": 0.09462830424308777,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 6326
    },
    {
      "epoch": 6.4495412844036695,
      "grad_norm": 0.10800016671419144,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 6327
    },
    {
      "epoch": 6.450560652395515,
      "grad_norm": 0.1411903351545334,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 6328
    },
    {
      "epoch": 6.45158002038736,
      "grad_norm": 0.1476617455482483,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 6329
    },
    {
      "epoch": 6.4525993883792045,
      "grad_norm": 0.09398306161165237,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 6330
    },
    {
      "epoch": 6.45361875637105,
      "grad_norm": 0.16168078780174255,
      "learning_rate": 0.001,
      "loss": 0.2201,
      "step": 6331
    },
    {
      "epoch": 6.454638124362895,
      "grad_norm": 0.09925603121519089,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 6332
    },
    {
      "epoch": 6.4556574923547405,
      "grad_norm": 0.11922392249107361,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 6333
    },
    {
      "epoch": 6.456676860346585,
      "grad_norm": 0.12687638401985168,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 6334
    },
    {
      "epoch": 6.45769622833843,
      "grad_norm": 0.1656343638896942,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 6335
    },
    {
      "epoch": 6.458715596330276,
      "grad_norm": 0.08697691559791565,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 6336
    },
    {
      "epoch": 6.45973496432212,
      "grad_norm": 0.1483025699853897,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 6337
    },
    {
      "epoch": 6.460754332313965,
      "grad_norm": 0.08794936537742615,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 6338
    },
    {
      "epoch": 6.461773700305811,
      "grad_norm": 0.16223472356796265,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 6339
    },
    {
      "epoch": 6.462793068297655,
      "grad_norm": 0.1607484668493271,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 6340
    },
    {
      "epoch": 6.4638124362895,
      "grad_norm": 0.16773204505443573,
      "learning_rate": 0.001,
      "loss": 0.2245,
      "step": 6341
    },
    {
      "epoch": 6.464831804281346,
      "grad_norm": 0.1289464831352234,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 6342
    },
    {
      "epoch": 6.46585117227319,
      "grad_norm": 0.09374294430017471,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 6343
    },
    {
      "epoch": 6.4668705402650355,
      "grad_norm": 0.19130097329616547,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 6344
    },
    {
      "epoch": 6.467889908256881,
      "grad_norm": 0.09134748578071594,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6345
    },
    {
      "epoch": 6.468909276248726,
      "grad_norm": 0.136814683675766,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 6346
    },
    {
      "epoch": 6.469928644240571,
      "grad_norm": 0.10021329671144485,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 6347
    },
    {
      "epoch": 6.470948012232416,
      "grad_norm": 0.11748585850000381,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 6348
    },
    {
      "epoch": 6.471967380224261,
      "grad_norm": 0.13779771327972412,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 6349
    },
    {
      "epoch": 6.472986748216106,
      "grad_norm": 0.14397040009498596,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 6350
    },
    {
      "epoch": 6.474006116207951,
      "grad_norm": 0.10747168958187103,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 6351
    },
    {
      "epoch": 6.475025484199796,
      "grad_norm": 0.13020195066928864,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 6352
    },
    {
      "epoch": 6.476044852191642,
      "grad_norm": 0.1398901492357254,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 6353
    },
    {
      "epoch": 6.477064220183486,
      "grad_norm": 0.0905943512916565,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 6354
    },
    {
      "epoch": 6.478083588175331,
      "grad_norm": 0.11939012259244919,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 6355
    },
    {
      "epoch": 6.479102956167177,
      "grad_norm": 0.09664848446846008,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 6356
    },
    {
      "epoch": 6.480122324159021,
      "grad_norm": 0.10387982428073883,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 6357
    },
    {
      "epoch": 6.481141692150866,
      "grad_norm": 0.07528106123209,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 6358
    },
    {
      "epoch": 6.482161060142712,
      "grad_norm": 0.09295705705881119,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 6359
    },
    {
      "epoch": 6.483180428134556,
      "grad_norm": 0.12428992986679077,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 6360
    },
    {
      "epoch": 6.4841997961264015,
      "grad_norm": 0.11254028975963593,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 6361
    },
    {
      "epoch": 6.485219164118247,
      "grad_norm": 0.12050452083349228,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 6362
    },
    {
      "epoch": 6.486238532110092,
      "grad_norm": 0.0786164179444313,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 6363
    },
    {
      "epoch": 6.487257900101937,
      "grad_norm": 0.11045227199792862,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 6364
    },
    {
      "epoch": 6.488277268093782,
      "grad_norm": 0.1194850504398346,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 6365
    },
    {
      "epoch": 6.489296636085627,
      "grad_norm": 0.25315919518470764,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 6366
    },
    {
      "epoch": 6.490316004077472,
      "grad_norm": 0.06129036471247673,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 6367
    },
    {
      "epoch": 6.491335372069317,
      "grad_norm": 0.10388246923685074,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 6368
    },
    {
      "epoch": 6.492354740061162,
      "grad_norm": 0.09859582781791687,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 6369
    },
    {
      "epoch": 6.493374108053007,
      "grad_norm": 0.1373787522315979,
      "learning_rate": 0.001,
      "loss": 0.2142,
      "step": 6370
    },
    {
      "epoch": 6.494393476044852,
      "grad_norm": 0.18643714487552643,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 6371
    },
    {
      "epoch": 6.495412844036697,
      "grad_norm": 0.11280640214681625,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 6372
    },
    {
      "epoch": 6.496432212028543,
      "grad_norm": 0.1036248505115509,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 6373
    },
    {
      "epoch": 6.497451580020387,
      "grad_norm": 0.08488763868808746,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 6374
    },
    {
      "epoch": 6.4984709480122325,
      "grad_norm": 0.1013173907995224,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 6375
    },
    {
      "epoch": 6.499490316004078,
      "grad_norm": 0.08112534880638123,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6376
    },
    {
      "epoch": 6.500509683995922,
      "grad_norm": 0.1595498025417328,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6377
    },
    {
      "epoch": 6.5015290519877675,
      "grad_norm": 0.13998067378997803,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 6378
    },
    {
      "epoch": 6.502548419979613,
      "grad_norm": 0.11903366446495056,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 6379
    },
    {
      "epoch": 6.503567787971457,
      "grad_norm": 0.08067984879016876,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 6380
    },
    {
      "epoch": 6.504587155963303,
      "grad_norm": 0.07981507480144501,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 6381
    },
    {
      "epoch": 6.505606523955148,
      "grad_norm": 0.1308290809392929,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 6382
    },
    {
      "epoch": 6.506625891946992,
      "grad_norm": 0.12082607299089432,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 6383
    },
    {
      "epoch": 6.507645259938838,
      "grad_norm": 0.05525148659944534,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6384
    },
    {
      "epoch": 6.508664627930683,
      "grad_norm": 0.11276647448539734,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 6385
    },
    {
      "epoch": 6.509683995922528,
      "grad_norm": 0.17394942045211792,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 6386
    },
    {
      "epoch": 6.510703363914373,
      "grad_norm": 0.11405069380998611,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 6387
    },
    {
      "epoch": 6.511722731906218,
      "grad_norm": 0.1090058982372284,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 6388
    },
    {
      "epoch": 6.512742099898063,
      "grad_norm": 0.1915641874074936,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 6389
    },
    {
      "epoch": 6.513761467889909,
      "grad_norm": 0.1089223176240921,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 6390
    },
    {
      "epoch": 6.514780835881753,
      "grad_norm": 0.09715297818183899,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6391
    },
    {
      "epoch": 6.5158002038735985,
      "grad_norm": 0.1610269546508789,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6392
    },
    {
      "epoch": 6.516819571865444,
      "grad_norm": 0.10644429922103882,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 6393
    },
    {
      "epoch": 6.517838939857288,
      "grad_norm": 0.15623050928115845,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 6394
    },
    {
      "epoch": 6.518858307849134,
      "grad_norm": 0.12088817358016968,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 6395
    },
    {
      "epoch": 6.519877675840979,
      "grad_norm": 0.15815113484859467,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 6396
    },
    {
      "epoch": 6.520897043832823,
      "grad_norm": 0.17668098211288452,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 6397
    },
    {
      "epoch": 6.521916411824669,
      "grad_norm": 0.09792499989271164,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 6398
    },
    {
      "epoch": 6.522935779816514,
      "grad_norm": 0.11210284382104874,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 6399
    },
    {
      "epoch": 6.523955147808358,
      "grad_norm": 0.18123944103717804,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 6400
    },
    {
      "epoch": 6.524974515800204,
      "grad_norm": 0.13643410801887512,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6401
    },
    {
      "epoch": 6.525993883792049,
      "grad_norm": 0.09482263028621674,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6402
    },
    {
      "epoch": 6.527013251783894,
      "grad_norm": 0.11562499403953552,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 6403
    },
    {
      "epoch": 6.528032619775739,
      "grad_norm": 0.11607713997364044,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 6404
    },
    {
      "epoch": 6.529051987767584,
      "grad_norm": 0.15213994681835175,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 6405
    },
    {
      "epoch": 6.530071355759429,
      "grad_norm": 0.10409189015626907,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6406
    },
    {
      "epoch": 6.531090723751274,
      "grad_norm": 0.15332277119159698,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 6407
    },
    {
      "epoch": 6.532110091743119,
      "grad_norm": 0.10169201344251633,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 6408
    },
    {
      "epoch": 6.5331294597349645,
      "grad_norm": 0.09275860339403152,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 6409
    },
    {
      "epoch": 6.53414882772681,
      "grad_norm": 0.08947143703699112,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 6410
    },
    {
      "epoch": 6.535168195718654,
      "grad_norm": 0.13915884494781494,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 6411
    },
    {
      "epoch": 6.5361875637105,
      "grad_norm": 0.09651461988687515,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 6412
    },
    {
      "epoch": 6.537206931702345,
      "grad_norm": 0.12329627573490143,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 6413
    },
    {
      "epoch": 6.538226299694189,
      "grad_norm": 0.13420937955379486,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6414
    },
    {
      "epoch": 6.539245667686035,
      "grad_norm": 0.0711413323879242,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 6415
    },
    {
      "epoch": 6.54026503567788,
      "grad_norm": 0.0992719754576683,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 6416
    },
    {
      "epoch": 6.541284403669724,
      "grad_norm": 0.1542477160692215,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 6417
    },
    {
      "epoch": 6.54230377166157,
      "grad_norm": 0.22054697573184967,
      "learning_rate": 0.001,
      "loss": 0.2206,
      "step": 6418
    },
    {
      "epoch": 6.543323139653415,
      "grad_norm": 0.13469713926315308,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 6419
    },
    {
      "epoch": 6.5443425076452595,
      "grad_norm": 0.11164116859436035,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 6420
    },
    {
      "epoch": 6.545361875637105,
      "grad_norm": 0.11668267101049423,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 6421
    },
    {
      "epoch": 6.54638124362895,
      "grad_norm": 0.10448256134986877,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6422
    },
    {
      "epoch": 6.5474006116207955,
      "grad_norm": 0.11028115451335907,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 6423
    },
    {
      "epoch": 6.54841997961264,
      "grad_norm": 0.11630520969629288,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 6424
    },
    {
      "epoch": 6.549439347604485,
      "grad_norm": 0.13556532561779022,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 6425
    },
    {
      "epoch": 6.5504587155963305,
      "grad_norm": 0.16829365491867065,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 6426
    },
    {
      "epoch": 6.551478083588175,
      "grad_norm": 0.12438395619392395,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 6427
    },
    {
      "epoch": 6.55249745158002,
      "grad_norm": 0.18883226811885834,
      "learning_rate": 0.001,
      "loss": 0.2281,
      "step": 6428
    },
    {
      "epoch": 6.553516819571866,
      "grad_norm": 0.0951545313000679,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 6429
    },
    {
      "epoch": 6.554536187563711,
      "grad_norm": 0.12454552948474884,
      "learning_rate": 0.001,
      "loss": 0.2177,
      "step": 6430
    },
    {
      "epoch": 6.555555555555555,
      "grad_norm": 0.13971289992332458,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 6431
    },
    {
      "epoch": 6.556574923547401,
      "grad_norm": 0.16436612606048584,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 6432
    },
    {
      "epoch": 6.557594291539246,
      "grad_norm": 0.1598881185054779,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6433
    },
    {
      "epoch": 6.55861365953109,
      "grad_norm": 0.08874443918466568,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 6434
    },
    {
      "epoch": 6.559633027522936,
      "grad_norm": 0.08759673684835434,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6435
    },
    {
      "epoch": 6.560652395514781,
      "grad_norm": 0.07240922003984451,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 6436
    },
    {
      "epoch": 6.5616717635066255,
      "grad_norm": 0.2779858410358429,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 6437
    },
    {
      "epoch": 6.562691131498471,
      "grad_norm": 0.0987982526421547,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 6438
    },
    {
      "epoch": 6.563710499490316,
      "grad_norm": 0.15611912310123444,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 6439
    },
    {
      "epoch": 6.564729867482161,
      "grad_norm": 0.18046966195106506,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 6440
    },
    {
      "epoch": 6.565749235474006,
      "grad_norm": 0.17805469036102295,
      "learning_rate": 0.001,
      "loss": 0.2246,
      "step": 6441
    },
    {
      "epoch": 6.566768603465851,
      "grad_norm": 0.09654448926448822,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 6442
    },
    {
      "epoch": 6.5677879714576965,
      "grad_norm": 0.06790213286876678,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 6443
    },
    {
      "epoch": 6.568807339449541,
      "grad_norm": 0.29338741302490234,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 6444
    },
    {
      "epoch": 6.569826707441386,
      "grad_norm": 0.12096032500267029,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 6445
    },
    {
      "epoch": 6.570846075433232,
      "grad_norm": 0.11479078978300095,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 6446
    },
    {
      "epoch": 6.571865443425077,
      "grad_norm": 0.11320874094963074,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6447
    },
    {
      "epoch": 6.572884811416921,
      "grad_norm": 0.11963251233100891,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6448
    },
    {
      "epoch": 6.573904179408767,
      "grad_norm": 0.07776208221912384,
      "learning_rate": 0.001,
      "loss": 0.2148,
      "step": 6449
    },
    {
      "epoch": 6.574923547400612,
      "grad_norm": 0.11426448076963425,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 6450
    },
    {
      "epoch": 6.5759429153924565,
      "grad_norm": 0.10793928056955338,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 6451
    },
    {
      "epoch": 6.576962283384302,
      "grad_norm": 0.13276170194149017,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 6452
    },
    {
      "epoch": 6.577981651376147,
      "grad_norm": 0.10184471309185028,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 6453
    },
    {
      "epoch": 6.5790010193679915,
      "grad_norm": 0.19839458167552948,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 6454
    },
    {
      "epoch": 6.580020387359837,
      "grad_norm": 0.10589749366044998,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 6455
    },
    {
      "epoch": 6.581039755351682,
      "grad_norm": 0.12386763840913773,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 6456
    },
    {
      "epoch": 6.582059123343527,
      "grad_norm": 0.13018152117729187,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 6457
    },
    {
      "epoch": 6.583078491335372,
      "grad_norm": 0.13893721997737885,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 6458
    },
    {
      "epoch": 6.584097859327217,
      "grad_norm": 0.19447767734527588,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 6459
    },
    {
      "epoch": 6.585117227319062,
      "grad_norm": 0.11994783580303192,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 6460
    },
    {
      "epoch": 6.586136595310907,
      "grad_norm": 0.09306441247463226,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6461
    },
    {
      "epoch": 6.587155963302752,
      "grad_norm": 0.16470806300640106,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 6462
    },
    {
      "epoch": 6.588175331294598,
      "grad_norm": 0.135286346077919,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6463
    },
    {
      "epoch": 6.589194699286442,
      "grad_norm": 0.08630681782960892,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6464
    },
    {
      "epoch": 6.590214067278287,
      "grad_norm": 0.14294303953647614,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6465
    },
    {
      "epoch": 6.591233435270133,
      "grad_norm": 0.2603890001773834,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6466
    },
    {
      "epoch": 6.592252803261978,
      "grad_norm": 0.10549452900886536,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 6467
    },
    {
      "epoch": 6.5932721712538225,
      "grad_norm": 0.1397414654493332,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 6468
    },
    {
      "epoch": 6.594291539245668,
      "grad_norm": 0.11796748638153076,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 6469
    },
    {
      "epoch": 6.595310907237513,
      "grad_norm": 0.2662995457649231,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 6470
    },
    {
      "epoch": 6.5963302752293576,
      "grad_norm": 0.12282054871320724,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 6471
    },
    {
      "epoch": 6.597349643221203,
      "grad_norm": 0.0963059589266777,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 6472
    },
    {
      "epoch": 6.598369011213048,
      "grad_norm": 0.16844187676906586,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 6473
    },
    {
      "epoch": 6.599388379204893,
      "grad_norm": 0.21204444766044617,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 6474
    },
    {
      "epoch": 6.600407747196738,
      "grad_norm": 0.1325393170118332,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 6475
    },
    {
      "epoch": 6.601427115188583,
      "grad_norm": 0.18766620755195618,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 6476
    },
    {
      "epoch": 6.602446483180428,
      "grad_norm": 0.16915634274482727,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 6477
    },
    {
      "epoch": 6.603465851172273,
      "grad_norm": 0.11483284085988998,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6478
    },
    {
      "epoch": 6.604485219164118,
      "grad_norm": 0.12593293190002441,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 6479
    },
    {
      "epoch": 6.605504587155964,
      "grad_norm": 0.15221253037452698,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 6480
    },
    {
      "epoch": 6.606523955147808,
      "grad_norm": 0.11701590567827225,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6481
    },
    {
      "epoch": 6.607543323139653,
      "grad_norm": 0.09823226928710938,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 6482
    },
    {
      "epoch": 6.608562691131499,
      "grad_norm": 0.07597914338111877,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6483
    },
    {
      "epoch": 6.609582059123343,
      "grad_norm": 0.07091300934553146,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 6484
    },
    {
      "epoch": 6.6106014271151885,
      "grad_norm": 0.09851530939340591,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6485
    },
    {
      "epoch": 6.611620795107034,
      "grad_norm": 0.10194425284862518,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 6486
    },
    {
      "epoch": 6.612640163098879,
      "grad_norm": 0.07341204583644867,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 6487
    },
    {
      "epoch": 6.613659531090724,
      "grad_norm": 0.0959596335887909,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 6488
    },
    {
      "epoch": 6.614678899082569,
      "grad_norm": 0.08693516254425049,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 6489
    },
    {
      "epoch": 6.615698267074414,
      "grad_norm": 0.1771572083234787,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 6490
    },
    {
      "epoch": 6.616717635066259,
      "grad_norm": 0.09755530953407288,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6491
    },
    {
      "epoch": 6.617737003058104,
      "grad_norm": 0.13623037934303284,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 6492
    },
    {
      "epoch": 6.618756371049949,
      "grad_norm": 0.07142199575901031,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 6493
    },
    {
      "epoch": 6.619775739041794,
      "grad_norm": 0.08070327341556549,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6494
    },
    {
      "epoch": 6.620795107033639,
      "grad_norm": 0.12232686579227448,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 6495
    },
    {
      "epoch": 6.621814475025484,
      "grad_norm": 0.15508843958377838,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6496
    },
    {
      "epoch": 6.622833843017329,
      "grad_norm": 0.07285279780626297,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 6497
    },
    {
      "epoch": 6.623853211009174,
      "grad_norm": 0.1938066929578781,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 6498
    },
    {
      "epoch": 6.6248725790010194,
      "grad_norm": 0.1898382306098938,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 6499
    },
    {
      "epoch": 6.625891946992865,
      "grad_norm": 0.09691468626260757,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 6500
    },
    {
      "epoch": 6.626911314984709,
      "grad_norm": 0.21857668459415436,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 6501
    },
    {
      "epoch": 6.6279306829765545,
      "grad_norm": 0.14036066830158234,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 6502
    },
    {
      "epoch": 6.6289500509684,
      "grad_norm": 0.1184263676404953,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6503
    },
    {
      "epoch": 6.629969418960244,
      "grad_norm": 0.7224340438842773,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 6504
    },
    {
      "epoch": 6.63098878695209,
      "grad_norm": 0.09328052401542664,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 6505
    },
    {
      "epoch": 6.632008154943935,
      "grad_norm": 0.08437297493219376,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 6506
    },
    {
      "epoch": 6.63302752293578,
      "grad_norm": 0.09107973426580429,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6507
    },
    {
      "epoch": 6.634046890927625,
      "grad_norm": 0.18632957339286804,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 6508
    },
    {
      "epoch": 6.63506625891947,
      "grad_norm": 0.10389534384012222,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 6509
    },
    {
      "epoch": 6.636085626911315,
      "grad_norm": 0.1518561840057373,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 6510
    },
    {
      "epoch": 6.63710499490316,
      "grad_norm": 0.25244149565696716,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 6511
    },
    {
      "epoch": 6.638124362895005,
      "grad_norm": 0.1952659785747528,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 6512
    },
    {
      "epoch": 6.63914373088685,
      "grad_norm": 0.20616602897644043,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 6513
    },
    {
      "epoch": 6.640163098878695,
      "grad_norm": 0.1954319030046463,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 6514
    },
    {
      "epoch": 6.64118246687054,
      "grad_norm": 0.19850097596645355,
      "learning_rate": 0.001,
      "loss": 0.2141,
      "step": 6515
    },
    {
      "epoch": 6.6422018348623855,
      "grad_norm": 0.32028138637542725,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 6516
    },
    {
      "epoch": 6.64322120285423,
      "grad_norm": 0.38571661710739136,
      "learning_rate": 0.001,
      "loss": 0.2145,
      "step": 6517
    },
    {
      "epoch": 6.644240570846075,
      "grad_norm": 0.16083523631095886,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 6518
    },
    {
      "epoch": 6.6452599388379205,
      "grad_norm": 0.1648212969303131,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6519
    },
    {
      "epoch": 6.646279306829766,
      "grad_norm": 0.20242665708065033,
      "learning_rate": 0.001,
      "loss": 0.2375,
      "step": 6520
    },
    {
      "epoch": 6.64729867482161,
      "grad_norm": 0.19246447086334229,
      "learning_rate": 0.001,
      "loss": 0.2427,
      "step": 6521
    },
    {
      "epoch": 6.648318042813456,
      "grad_norm": 0.13796550035476685,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 6522
    },
    {
      "epoch": 6.649337410805301,
      "grad_norm": 0.08200317621231079,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 6523
    },
    {
      "epoch": 6.650356778797146,
      "grad_norm": 0.11275044083595276,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 6524
    },
    {
      "epoch": 6.651376146788991,
      "grad_norm": 0.12798836827278137,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6525
    },
    {
      "epoch": 6.652395514780836,
      "grad_norm": 0.15605105459690094,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 6526
    },
    {
      "epoch": 6.653414882772681,
      "grad_norm": 0.1737460345029831,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6527
    },
    {
      "epoch": 6.654434250764526,
      "grad_norm": 0.08668921887874603,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6528
    },
    {
      "epoch": 6.655453618756371,
      "grad_norm": 0.13966143131256104,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 6529
    },
    {
      "epoch": 6.656472986748216,
      "grad_norm": 0.17243315279483795,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 6530
    },
    {
      "epoch": 6.657492354740061,
      "grad_norm": 0.25331127643585205,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 6531
    },
    {
      "epoch": 6.658511722731906,
      "grad_norm": 0.1617719531059265,
      "learning_rate": 0.001,
      "loss": 0.2214,
      "step": 6532
    },
    {
      "epoch": 6.6595310907237515,
      "grad_norm": 0.13679154217243195,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 6533
    },
    {
      "epoch": 6.660550458715596,
      "grad_norm": 0.1469792276620865,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 6534
    },
    {
      "epoch": 6.661569826707441,
      "grad_norm": 0.13066595792770386,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 6535
    },
    {
      "epoch": 6.662589194699287,
      "grad_norm": 0.10653380304574966,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 6536
    },
    {
      "epoch": 6.663608562691132,
      "grad_norm": 0.10809113085269928,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 6537
    },
    {
      "epoch": 6.664627930682976,
      "grad_norm": 0.164142444729805,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 6538
    },
    {
      "epoch": 6.665647298674822,
      "grad_norm": 0.12943725287914276,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 6539
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.12405743449926376,
      "learning_rate": 0.001,
      "loss": 0.2263,
      "step": 6540
    },
    {
      "epoch": 6.667686034658511,
      "grad_norm": 0.11474907398223877,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 6541
    },
    {
      "epoch": 6.668705402650357,
      "grad_norm": 0.14458511769771576,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 6542
    },
    {
      "epoch": 6.669724770642202,
      "grad_norm": 0.1534000188112259,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 6543
    },
    {
      "epoch": 6.670744138634047,
      "grad_norm": 0.10749855637550354,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 6544
    },
    {
      "epoch": 6.671763506625892,
      "grad_norm": 0.08099105209112167,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 6545
    },
    {
      "epoch": 6.672782874617737,
      "grad_norm": 0.14749619364738464,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 6546
    },
    {
      "epoch": 6.673802242609582,
      "grad_norm": 0.10259561240673065,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 6547
    },
    {
      "epoch": 6.674821610601427,
      "grad_norm": 0.10310390591621399,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 6548
    },
    {
      "epoch": 6.675840978593272,
      "grad_norm": 0.083613321185112,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 6549
    },
    {
      "epoch": 6.6768603465851175,
      "grad_norm": 0.1262175291776657,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 6550
    },
    {
      "epoch": 6.677879714576962,
      "grad_norm": 0.09687227010726929,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 6551
    },
    {
      "epoch": 6.678899082568807,
      "grad_norm": 0.0666300356388092,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 6552
    },
    {
      "epoch": 6.679918450560653,
      "grad_norm": 0.10188371688127518,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6553
    },
    {
      "epoch": 6.680937818552497,
      "grad_norm": 0.12609291076660156,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 6554
    },
    {
      "epoch": 6.681957186544342,
      "grad_norm": 0.13504722714424133,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 6555
    },
    {
      "epoch": 6.682976554536188,
      "grad_norm": 0.10998845100402832,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 6556
    },
    {
      "epoch": 6.683995922528033,
      "grad_norm": 0.18187715113162994,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 6557
    },
    {
      "epoch": 6.685015290519877,
      "grad_norm": 0.14027363061904907,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 6558
    },
    {
      "epoch": 6.686034658511723,
      "grad_norm": 0.11879125237464905,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 6559
    },
    {
      "epoch": 6.687054026503568,
      "grad_norm": 0.13739530742168427,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 6560
    },
    {
      "epoch": 6.6880733944954125,
      "grad_norm": 0.12520092725753784,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 6561
    },
    {
      "epoch": 6.689092762487258,
      "grad_norm": 0.07801933586597443,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 6562
    },
    {
      "epoch": 6.690112130479103,
      "grad_norm": 0.11291628330945969,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 6563
    },
    {
      "epoch": 6.6911314984709485,
      "grad_norm": 0.15154597163200378,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 6564
    },
    {
      "epoch": 6.692150866462793,
      "grad_norm": 0.11273010075092316,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6565
    },
    {
      "epoch": 6.693170234454638,
      "grad_norm": 0.07999107986688614,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6566
    },
    {
      "epoch": 6.6941896024464835,
      "grad_norm": 0.06539801508188248,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 6567
    },
    {
      "epoch": 6.695208970438328,
      "grad_norm": 0.14306820929050446,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 6568
    },
    {
      "epoch": 6.696228338430173,
      "grad_norm": 0.14879345893859863,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 6569
    },
    {
      "epoch": 6.697247706422019,
      "grad_norm": 0.10729998350143433,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6570
    },
    {
      "epoch": 6.698267074413863,
      "grad_norm": 0.1009451299905777,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 6571
    },
    {
      "epoch": 6.699286442405708,
      "grad_norm": 0.12736399471759796,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 6572
    },
    {
      "epoch": 6.700305810397554,
      "grad_norm": 0.20432555675506592,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 6573
    },
    {
      "epoch": 6.701325178389398,
      "grad_norm": 0.08643770217895508,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 6574
    },
    {
      "epoch": 6.702344546381243,
      "grad_norm": 0.09084004908800125,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 6575
    },
    {
      "epoch": 6.703363914373089,
      "grad_norm": 0.14525637030601501,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6576
    },
    {
      "epoch": 6.704383282364934,
      "grad_norm": 0.14752280712127686,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 6577
    },
    {
      "epoch": 6.7054026503567785,
      "grad_norm": 0.1528209000825882,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 6578
    },
    {
      "epoch": 6.706422018348624,
      "grad_norm": 0.08125458657741547,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 6579
    },
    {
      "epoch": 6.707441386340469,
      "grad_norm": 0.11395604908466339,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 6580
    },
    {
      "epoch": 6.708460754332314,
      "grad_norm": 0.13194189965724945,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 6581
    },
    {
      "epoch": 6.709480122324159,
      "grad_norm": 0.13820013403892517,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 6582
    },
    {
      "epoch": 6.710499490316004,
      "grad_norm": 0.1082729771733284,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 6583
    },
    {
      "epoch": 6.7115188583078496,
      "grad_norm": 0.11199240386486053,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 6584
    },
    {
      "epoch": 6.712538226299694,
      "grad_norm": 0.14021795988082886,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 6585
    },
    {
      "epoch": 6.713557594291539,
      "grad_norm": 0.13703244924545288,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 6586
    },
    {
      "epoch": 6.714576962283385,
      "grad_norm": 0.06133686378598213,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 6587
    },
    {
      "epoch": 6.715596330275229,
      "grad_norm": 0.16421905159950256,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 6588
    },
    {
      "epoch": 6.716615698267074,
      "grad_norm": 0.13366806507110596,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 6589
    },
    {
      "epoch": 6.71763506625892,
      "grad_norm": 0.18294167518615723,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 6590
    },
    {
      "epoch": 6.718654434250764,
      "grad_norm": 0.12069205194711685,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6591
    },
    {
      "epoch": 6.7196738022426095,
      "grad_norm": 0.14934362471103668,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 6592
    },
    {
      "epoch": 6.720693170234455,
      "grad_norm": 0.1089458018541336,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 6593
    },
    {
      "epoch": 6.721712538226299,
      "grad_norm": 0.12295544892549515,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 6594
    },
    {
      "epoch": 6.7227319062181445,
      "grad_norm": 0.08089274913072586,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 6595
    },
    {
      "epoch": 6.72375127420999,
      "grad_norm": 0.13097655773162842,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 6596
    },
    {
      "epoch": 6.724770642201835,
      "grad_norm": 0.0836445614695549,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 6597
    },
    {
      "epoch": 6.72579001019368,
      "grad_norm": 0.10849479585886002,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6598
    },
    {
      "epoch": 6.726809378185525,
      "grad_norm": 0.09130069613456726,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 6599
    },
    {
      "epoch": 6.72782874617737,
      "grad_norm": 0.09345833957195282,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6600
    },
    {
      "epoch": 6.728848114169216,
      "grad_norm": 0.12496903538703918,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 6601
    },
    {
      "epoch": 6.72986748216106,
      "grad_norm": 0.07808221131563187,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 6602
    },
    {
      "epoch": 6.730886850152905,
      "grad_norm": 0.11528744548559189,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6603
    },
    {
      "epoch": 6.731906218144751,
      "grad_norm": 0.1576717048883438,
      "learning_rate": 0.001,
      "loss": 0.2266,
      "step": 6604
    },
    {
      "epoch": 6.732925586136595,
      "grad_norm": 0.15102924406528473,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 6605
    },
    {
      "epoch": 6.73394495412844,
      "grad_norm": 0.07801223546266556,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 6606
    },
    {
      "epoch": 6.734964322120286,
      "grad_norm": 0.13496023416519165,
      "learning_rate": 0.001,
      "loss": 0.2483,
      "step": 6607
    },
    {
      "epoch": 6.73598369011213,
      "grad_norm": 0.11145313084125519,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 6608
    },
    {
      "epoch": 6.7370030581039755,
      "grad_norm": 0.0995825007557869,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 6609
    },
    {
      "epoch": 6.738022426095821,
      "grad_norm": 0.08211404085159302,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 6610
    },
    {
      "epoch": 6.739041794087665,
      "grad_norm": 0.10143113136291504,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 6611
    },
    {
      "epoch": 6.740061162079511,
      "grad_norm": 0.07154247909784317,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 6612
    },
    {
      "epoch": 6.741080530071356,
      "grad_norm": 0.15254078805446625,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 6613
    },
    {
      "epoch": 6.742099898063201,
      "grad_norm": 0.20664456486701965,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 6614
    },
    {
      "epoch": 6.743119266055046,
      "grad_norm": 0.13765892386436462,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 6615
    },
    {
      "epoch": 6.744138634046891,
      "grad_norm": 0.21945089101791382,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 6616
    },
    {
      "epoch": 6.745158002038736,
      "grad_norm": 0.13321329653263092,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 6617
    },
    {
      "epoch": 6.746177370030581,
      "grad_norm": 0.061942603439092636,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 6618
    },
    {
      "epoch": 6.747196738022426,
      "grad_norm": 0.18232248723506927,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 6619
    },
    {
      "epoch": 6.748216106014271,
      "grad_norm": 0.11462456732988358,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 6620
    },
    {
      "epoch": 6.749235474006117,
      "grad_norm": 0.10548627376556396,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 6621
    },
    {
      "epoch": 6.750254841997961,
      "grad_norm": 0.11656834185123444,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 6622
    },
    {
      "epoch": 6.751274209989806,
      "grad_norm": 0.12460435926914215,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 6623
    },
    {
      "epoch": 6.752293577981652,
      "grad_norm": 0.10247549414634705,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 6624
    },
    {
      "epoch": 6.753312945973496,
      "grad_norm": 0.1215374618768692,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 6625
    },
    {
      "epoch": 6.7543323139653415,
      "grad_norm": 0.1126771941781044,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 6626
    },
    {
      "epoch": 6.755351681957187,
      "grad_norm": 0.06205340474843979,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 6627
    },
    {
      "epoch": 6.756371049949031,
      "grad_norm": 0.0684373676776886,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 6628
    },
    {
      "epoch": 6.757390417940877,
      "grad_norm": 0.07576744258403778,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 6629
    },
    {
      "epoch": 6.758409785932722,
      "grad_norm": 0.07848428189754486,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 6630
    },
    {
      "epoch": 6.759429153924566,
      "grad_norm": 0.13949495553970337,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 6631
    },
    {
      "epoch": 6.760448521916412,
      "grad_norm": 0.20333224534988403,
      "learning_rate": 0.001,
      "loss": 0.2271,
      "step": 6632
    },
    {
      "epoch": 6.761467889908257,
      "grad_norm": 0.08791275322437286,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 6633
    },
    {
      "epoch": 6.762487257900102,
      "grad_norm": 0.22372791171073914,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 6634
    },
    {
      "epoch": 6.763506625891947,
      "grad_norm": 0.11257325857877731,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 6635
    },
    {
      "epoch": 6.764525993883792,
      "grad_norm": 0.0685482770204544,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 6636
    },
    {
      "epoch": 6.765545361875637,
      "grad_norm": 0.11135894060134888,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 6637
    },
    {
      "epoch": 6.766564729867482,
      "grad_norm": 0.09521274268627167,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 6638
    },
    {
      "epoch": 6.767584097859327,
      "grad_norm": 0.09522858262062073,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 6639
    },
    {
      "epoch": 6.7686034658511725,
      "grad_norm": 0.0765756219625473,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 6640
    },
    {
      "epoch": 6.769622833843018,
      "grad_norm": 0.07350679486989975,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 6641
    },
    {
      "epoch": 6.770642201834862,
      "grad_norm": 0.1338137686252594,
      "learning_rate": 0.001,
      "loss": 0.228,
      "step": 6642
    },
    {
      "epoch": 6.7716615698267075,
      "grad_norm": 0.06831828504800797,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 6643
    },
    {
      "epoch": 6.772680937818553,
      "grad_norm": 0.06027743220329285,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 6644
    },
    {
      "epoch": 6.773700305810397,
      "grad_norm": 0.14835727214813232,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6645
    },
    {
      "epoch": 6.774719673802243,
      "grad_norm": 0.1239488273859024,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 6646
    },
    {
      "epoch": 6.775739041794088,
      "grad_norm": 0.08630020171403885,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 6647
    },
    {
      "epoch": 6.776758409785932,
      "grad_norm": 0.07192112505435944,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 6648
    },
    {
      "epoch": 6.777777777777778,
      "grad_norm": 0.09231837093830109,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 6649
    },
    {
      "epoch": 6.778797145769623,
      "grad_norm": 0.10898273438215256,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 6650
    },
    {
      "epoch": 6.779816513761467,
      "grad_norm": 0.146399587392807,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 6651
    },
    {
      "epoch": 6.780835881753313,
      "grad_norm": 0.08441862463951111,
      "learning_rate": 0.001,
      "loss": 0.2208,
      "step": 6652
    },
    {
      "epoch": 6.781855249745158,
      "grad_norm": 0.11504122614860535,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 6653
    },
    {
      "epoch": 6.782874617737003,
      "grad_norm": 0.06182258948683739,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 6654
    },
    {
      "epoch": 6.783893985728848,
      "grad_norm": 0.07941652089357376,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 6655
    },
    {
      "epoch": 6.784913353720693,
      "grad_norm": 0.09350442886352539,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 6656
    },
    {
      "epoch": 6.7859327217125385,
      "grad_norm": 0.11654097586870193,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 6657
    },
    {
      "epoch": 6.786952089704383,
      "grad_norm": 0.08656773716211319,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 6658
    },
    {
      "epoch": 6.787971457696228,
      "grad_norm": 0.12777504324913025,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 6659
    },
    {
      "epoch": 6.7889908256880735,
      "grad_norm": 0.16066379845142365,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 6660
    },
    {
      "epoch": 6.790010193679919,
      "grad_norm": 0.10336904227733612,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 6661
    },
    {
      "epoch": 6.791029561671763,
      "grad_norm": 0.13285502791404724,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 6662
    },
    {
      "epoch": 6.792048929663609,
      "grad_norm": 0.19009283185005188,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 6663
    },
    {
      "epoch": 6.793068297655454,
      "grad_norm": 0.19078773260116577,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 6664
    },
    {
      "epoch": 6.794087665647298,
      "grad_norm": 0.143671914935112,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6665
    },
    {
      "epoch": 6.795107033639144,
      "grad_norm": 0.10075051337480545,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 6666
    },
    {
      "epoch": 6.796126401630989,
      "grad_norm": 0.0886978805065155,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 6667
    },
    {
      "epoch": 6.7971457696228335,
      "grad_norm": 0.14358438551425934,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 6668
    },
    {
      "epoch": 6.798165137614679,
      "grad_norm": 0.19416595995426178,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 6669
    },
    {
      "epoch": 6.799184505606524,
      "grad_norm": 0.1323234885931015,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 6670
    },
    {
      "epoch": 6.8002038735983685,
      "grad_norm": 0.14877547323703766,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 6671
    },
    {
      "epoch": 6.801223241590214,
      "grad_norm": 0.07041129469871521,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 6672
    },
    {
      "epoch": 6.802242609582059,
      "grad_norm": 0.09205244481563568,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 6673
    },
    {
      "epoch": 6.8032619775739045,
      "grad_norm": 0.15092873573303223,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 6674
    },
    {
      "epoch": 6.804281345565749,
      "grad_norm": 0.07204219698905945,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 6675
    },
    {
      "epoch": 6.805300713557594,
      "grad_norm": 0.1654888540506363,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 6676
    },
    {
      "epoch": 6.80632008154944,
      "grad_norm": 0.07563883811235428,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 6677
    },
    {
      "epoch": 6.807339449541285,
      "grad_norm": 0.14952832460403442,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6678
    },
    {
      "epoch": 6.808358817533129,
      "grad_norm": 0.13101162016391754,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6679
    },
    {
      "epoch": 6.809378185524975,
      "grad_norm": 0.14300991594791412,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 6680
    },
    {
      "epoch": 6.81039755351682,
      "grad_norm": 0.10926897078752518,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 6681
    },
    {
      "epoch": 6.811416921508664,
      "grad_norm": 0.1496405154466629,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 6682
    },
    {
      "epoch": 6.81243628950051,
      "grad_norm": 0.1064617931842804,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 6683
    },
    {
      "epoch": 6.813455657492355,
      "grad_norm": 0.1254022866487503,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 6684
    },
    {
      "epoch": 6.8144750254841995,
      "grad_norm": 0.15062914788722992,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 6685
    },
    {
      "epoch": 6.815494393476045,
      "grad_norm": 0.08287126570940018,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 6686
    },
    {
      "epoch": 6.81651376146789,
      "grad_norm": 0.08904539048671722,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 6687
    },
    {
      "epoch": 6.8175331294597346,
      "grad_norm": 0.15997019410133362,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 6688
    },
    {
      "epoch": 6.81855249745158,
      "grad_norm": 0.11579620093107224,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 6689
    },
    {
      "epoch": 6.819571865443425,
      "grad_norm": 0.08833810687065125,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 6690
    },
    {
      "epoch": 6.8205912334352705,
      "grad_norm": 0.06152130290865898,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 6691
    },
    {
      "epoch": 6.821610601427115,
      "grad_norm": 0.10808015614748001,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 6692
    },
    {
      "epoch": 6.82262996941896,
      "grad_norm": 0.1717945784330368,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 6693
    },
    {
      "epoch": 6.823649337410806,
      "grad_norm": 0.11501191556453705,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 6694
    },
    {
      "epoch": 6.82466870540265,
      "grad_norm": 0.09314462542533875,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6695
    },
    {
      "epoch": 6.825688073394495,
      "grad_norm": 0.1172880008816719,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 6696
    },
    {
      "epoch": 6.826707441386341,
      "grad_norm": 0.06814543902873993,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 6697
    },
    {
      "epoch": 6.827726809378186,
      "grad_norm": 0.11110202968120575,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 6698
    },
    {
      "epoch": 6.82874617737003,
      "grad_norm": 0.12309543043375015,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6699
    },
    {
      "epoch": 6.829765545361876,
      "grad_norm": 0.11840206384658813,
      "learning_rate": 0.001,
      "loss": 0.2157,
      "step": 6700
    },
    {
      "epoch": 6.830784913353721,
      "grad_norm": 0.08605212718248367,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 6701
    },
    {
      "epoch": 6.8318042813455655,
      "grad_norm": 0.08409816771745682,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 6702
    },
    {
      "epoch": 6.832823649337411,
      "grad_norm": 0.07386831939220428,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 6703
    },
    {
      "epoch": 6.833843017329256,
      "grad_norm": 0.08437418192625046,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 6704
    },
    {
      "epoch": 6.834862385321101,
      "grad_norm": 0.0831022635102272,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 6705
    },
    {
      "epoch": 6.835881753312946,
      "grad_norm": 0.10567107051610947,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 6706
    },
    {
      "epoch": 6.836901121304791,
      "grad_norm": 0.07189278304576874,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 6707
    },
    {
      "epoch": 6.837920489296636,
      "grad_norm": 0.10928276181221008,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 6708
    },
    {
      "epoch": 6.838939857288481,
      "grad_norm": 0.1593313366174698,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6709
    },
    {
      "epoch": 6.839959225280326,
      "grad_norm": 0.08568436652421951,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6710
    },
    {
      "epoch": 6.840978593272172,
      "grad_norm": 0.09227090328931808,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 6711
    },
    {
      "epoch": 6.841997961264016,
      "grad_norm": 0.2401011884212494,
      "learning_rate": 0.001,
      "loss": 0.2308,
      "step": 6712
    },
    {
      "epoch": 6.843017329255861,
      "grad_norm": 0.09071329236030579,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 6713
    },
    {
      "epoch": 6.844036697247707,
      "grad_norm": 0.1500888168811798,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 6714
    },
    {
      "epoch": 6.845056065239551,
      "grad_norm": 0.08968012034893036,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 6715
    },
    {
      "epoch": 6.8460754332313964,
      "grad_norm": 0.10444626212120056,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 6716
    },
    {
      "epoch": 6.847094801223242,
      "grad_norm": 0.13977761566638947,
      "learning_rate": 0.001,
      "loss": 0.2255,
      "step": 6717
    },
    {
      "epoch": 6.848114169215087,
      "grad_norm": 0.1887831836938858,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 6718
    },
    {
      "epoch": 6.8491335372069315,
      "grad_norm": 0.057906266301870346,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6719
    },
    {
      "epoch": 6.850152905198777,
      "grad_norm": 0.127558633685112,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 6720
    },
    {
      "epoch": 6.851172273190622,
      "grad_norm": 0.09482717514038086,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 6721
    },
    {
      "epoch": 6.852191641182467,
      "grad_norm": 0.11895008385181427,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 6722
    },
    {
      "epoch": 6.853211009174312,
      "grad_norm": 0.10005181282758713,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 6723
    },
    {
      "epoch": 6.854230377166157,
      "grad_norm": 0.12054606527090073,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 6724
    },
    {
      "epoch": 6.855249745158002,
      "grad_norm": 0.09627268463373184,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 6725
    },
    {
      "epoch": 6.856269113149847,
      "grad_norm": 0.11261578649282455,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 6726
    },
    {
      "epoch": 6.857288481141692,
      "grad_norm": 0.06862872838973999,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 6727
    },
    {
      "epoch": 6.858307849133537,
      "grad_norm": 0.10435624420642853,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 6728
    },
    {
      "epoch": 6.859327217125382,
      "grad_norm": 0.10842155665159225,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 6729
    },
    {
      "epoch": 6.860346585117227,
      "grad_norm": 0.10898154973983765,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 6730
    },
    {
      "epoch": 6.861365953109073,
      "grad_norm": 0.13052932918071747,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 6731
    },
    {
      "epoch": 6.862385321100917,
      "grad_norm": 0.12597410380840302,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 6732
    },
    {
      "epoch": 6.8634046890927625,
      "grad_norm": 0.17128492891788483,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6733
    },
    {
      "epoch": 6.864424057084608,
      "grad_norm": 0.07730626314878464,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 6734
    },
    {
      "epoch": 6.865443425076452,
      "grad_norm": 0.1088419184088707,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6735
    },
    {
      "epoch": 6.8664627930682975,
      "grad_norm": 0.07885809242725372,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 6736
    },
    {
      "epoch": 6.867482161060143,
      "grad_norm": 0.12307453900575638,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 6737
    },
    {
      "epoch": 6.868501529051988,
      "grad_norm": 0.12605203688144684,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 6738
    },
    {
      "epoch": 6.869520897043833,
      "grad_norm": 0.07066729664802551,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 6739
    },
    {
      "epoch": 6.870540265035678,
      "grad_norm": 0.0876508355140686,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 6740
    },
    {
      "epoch": 6.871559633027523,
      "grad_norm": 0.20625542104244232,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 6741
    },
    {
      "epoch": 6.872579001019368,
      "grad_norm": 0.13800673186779022,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 6742
    },
    {
      "epoch": 6.873598369011213,
      "grad_norm": 0.08094081282615662,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 6743
    },
    {
      "epoch": 6.874617737003058,
      "grad_norm": 0.12125728279352188,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 6744
    },
    {
      "epoch": 6.875637104994903,
      "grad_norm": 0.07415668666362762,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 6745
    },
    {
      "epoch": 6.876656472986748,
      "grad_norm": 0.09536045789718628,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 6746
    },
    {
      "epoch": 6.877675840978593,
      "grad_norm": 0.07585521787405014,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 6747
    },
    {
      "epoch": 6.878695208970438,
      "grad_norm": 0.38307055830955505,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 6748
    },
    {
      "epoch": 6.879714576962283,
      "grad_norm": 0.09611061215400696,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 6749
    },
    {
      "epoch": 6.8807339449541285,
      "grad_norm": 0.0714879035949707,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 6750
    },
    {
      "epoch": 6.881753312945974,
      "grad_norm": 0.18824231624603271,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 6751
    },
    {
      "epoch": 6.882772680937818,
      "grad_norm": 0.2612364888191223,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 6752
    },
    {
      "epoch": 6.883792048929664,
      "grad_norm": 0.18356327712535858,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6753
    },
    {
      "epoch": 6.884811416921509,
      "grad_norm": 0.19320198893547058,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 6754
    },
    {
      "epoch": 6.885830784913354,
      "grad_norm": 0.08471324294805527,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 6755
    },
    {
      "epoch": 6.886850152905199,
      "grad_norm": 0.14636076986789703,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 6756
    },
    {
      "epoch": 6.887869520897044,
      "grad_norm": 0.13464535772800446,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 6757
    },
    {
      "epoch": 6.888888888888889,
      "grad_norm": 0.09536286443471909,
      "learning_rate": 0.001,
      "loss": 0.1613,
      "step": 6758
    },
    {
      "epoch": 6.889908256880734,
      "grad_norm": 0.1772276908159256,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 6759
    },
    {
      "epoch": 6.890927624872579,
      "grad_norm": 0.11244819313287735,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 6760
    },
    {
      "epoch": 6.891946992864424,
      "grad_norm": 0.1332070231437683,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 6761
    },
    {
      "epoch": 6.892966360856269,
      "grad_norm": 0.0968153327703476,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6762
    },
    {
      "epoch": 6.893985728848114,
      "grad_norm": 0.059089407324790955,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 6763
    },
    {
      "epoch": 6.895005096839959,
      "grad_norm": 0.12065935134887695,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 6764
    },
    {
      "epoch": 6.896024464831804,
      "grad_norm": 0.09820413589477539,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 6765
    },
    {
      "epoch": 6.897043832823649,
      "grad_norm": 0.2016211301088333,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 6766
    },
    {
      "epoch": 6.8980632008154945,
      "grad_norm": 0.1665196567773819,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 6767
    },
    {
      "epoch": 6.89908256880734,
      "grad_norm": 0.1329551488161087,
      "learning_rate": 0.001,
      "loss": 0.2227,
      "step": 6768
    },
    {
      "epoch": 6.900101936799184,
      "grad_norm": 0.13200052082538605,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 6769
    },
    {
      "epoch": 6.90112130479103,
      "grad_norm": 0.1388746052980423,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 6770
    },
    {
      "epoch": 6.902140672782875,
      "grad_norm": 0.09150466322898865,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 6771
    },
    {
      "epoch": 6.903160040774719,
      "grad_norm": 0.14684495329856873,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 6772
    },
    {
      "epoch": 6.904179408766565,
      "grad_norm": 0.12446174025535583,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 6773
    },
    {
      "epoch": 6.90519877675841,
      "grad_norm": 0.11110953241586685,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 6774
    },
    {
      "epoch": 6.906218144750255,
      "grad_norm": 0.1669600009918213,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 6775
    },
    {
      "epoch": 6.9072375127421,
      "grad_norm": 0.13388818502426147,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 6776
    },
    {
      "epoch": 6.908256880733945,
      "grad_norm": 0.09058939665555954,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 6777
    },
    {
      "epoch": 6.90927624872579,
      "grad_norm": 0.09758251160383224,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 6778
    },
    {
      "epoch": 6.910295616717635,
      "grad_norm": 0.056704696267843246,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 6779
    },
    {
      "epoch": 6.91131498470948,
      "grad_norm": 0.09534554183483124,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 6780
    },
    {
      "epoch": 6.9123343527013255,
      "grad_norm": 0.07592528313398361,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 6781
    },
    {
      "epoch": 6.91335372069317,
      "grad_norm": 0.11816582083702087,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 6782
    },
    {
      "epoch": 6.914373088685015,
      "grad_norm": 0.14793899655342102,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 6783
    },
    {
      "epoch": 6.9153924566768605,
      "grad_norm": 0.08521679043769836,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6784
    },
    {
      "epoch": 6.916411824668705,
      "grad_norm": 0.10981834679841995,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 6785
    },
    {
      "epoch": 6.91743119266055,
      "grad_norm": 0.09479163587093353,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 6786
    },
    {
      "epoch": 6.918450560652396,
      "grad_norm": 0.13067162036895752,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 6787
    },
    {
      "epoch": 6.919469928644241,
      "grad_norm": 0.1768563985824585,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 6788
    },
    {
      "epoch": 6.920489296636085,
      "grad_norm": 0.2480480968952179,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 6789
    },
    {
      "epoch": 6.921508664627931,
      "grad_norm": 0.10946831107139587,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 6790
    },
    {
      "epoch": 6.922528032619776,
      "grad_norm": 0.14789125323295593,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 6791
    },
    {
      "epoch": 6.92354740061162,
      "grad_norm": 0.12188517302274704,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 6792
    },
    {
      "epoch": 6.924566768603466,
      "grad_norm": 0.07126780599355698,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 6793
    },
    {
      "epoch": 6.925586136595311,
      "grad_norm": 0.13517192006111145,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 6794
    },
    {
      "epoch": 6.926605504587156,
      "grad_norm": 0.06815436482429504,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6795
    },
    {
      "epoch": 6.927624872579001,
      "grad_norm": 0.1362137645483017,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 6796
    },
    {
      "epoch": 6.928644240570846,
      "grad_norm": 0.1348574310541153,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 6797
    },
    {
      "epoch": 6.9296636085626915,
      "grad_norm": 0.12162409722805023,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6798
    },
    {
      "epoch": 6.930682976554536,
      "grad_norm": 0.1161930114030838,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 6799
    },
    {
      "epoch": 6.931702344546381,
      "grad_norm": 0.1559433490037918,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 6800
    },
    {
      "epoch": 6.9327217125382266,
      "grad_norm": 0.12907674908638,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 6801
    },
    {
      "epoch": 6.933741080530071,
      "grad_norm": 0.2227238118648529,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 6802
    },
    {
      "epoch": 6.934760448521916,
      "grad_norm": 0.0984773114323616,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 6803
    },
    {
      "epoch": 6.935779816513762,
      "grad_norm": 0.08848177641630173,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 6804
    },
    {
      "epoch": 6.936799184505606,
      "grad_norm": 0.12181077152490616,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6805
    },
    {
      "epoch": 6.937818552497451,
      "grad_norm": 0.16724783182144165,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 6806
    },
    {
      "epoch": 6.938837920489297,
      "grad_norm": 0.09750030189752579,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 6807
    },
    {
      "epoch": 6.939857288481142,
      "grad_norm": 0.11442556232213974,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 6808
    },
    {
      "epoch": 6.9408766564729865,
      "grad_norm": 0.1574324518442154,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 6809
    },
    {
      "epoch": 6.941896024464832,
      "grad_norm": 0.12546055018901825,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 6810
    },
    {
      "epoch": 6.942915392456677,
      "grad_norm": 0.08703596144914627,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 6811
    },
    {
      "epoch": 6.9439347604485215,
      "grad_norm": 0.09590519964694977,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 6812
    },
    {
      "epoch": 6.944954128440367,
      "grad_norm": 0.08826078474521637,
      "learning_rate": 0.001,
      "loss": 0.1641,
      "step": 6813
    },
    {
      "epoch": 6.945973496432212,
      "grad_norm": 0.12223906069993973,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 6814
    },
    {
      "epoch": 6.9469928644240575,
      "grad_norm": 0.1545736938714981,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 6815
    },
    {
      "epoch": 6.948012232415902,
      "grad_norm": 0.13234004378318787,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 6816
    },
    {
      "epoch": 6.949031600407747,
      "grad_norm": 0.1301453411579132,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 6817
    },
    {
      "epoch": 6.950050968399593,
      "grad_norm": 0.10015329718589783,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 6818
    },
    {
      "epoch": 6.951070336391437,
      "grad_norm": 0.19786880910396576,
      "learning_rate": 0.001,
      "loss": 0.2233,
      "step": 6819
    },
    {
      "epoch": 6.952089704383282,
      "grad_norm": 0.15470781922340393,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 6820
    },
    {
      "epoch": 6.953109072375128,
      "grad_norm": 0.15112151205539703,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 6821
    },
    {
      "epoch": 6.954128440366972,
      "grad_norm": 0.1497475951910019,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 6822
    },
    {
      "epoch": 6.955147808358817,
      "grad_norm": 0.14591087400913239,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 6823
    },
    {
      "epoch": 6.956167176350663,
      "grad_norm": 0.19097357988357544,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6824
    },
    {
      "epoch": 6.957186544342507,
      "grad_norm": 0.09556397050619125,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 6825
    },
    {
      "epoch": 6.9582059123343525,
      "grad_norm": 0.11817730963230133,
      "learning_rate": 0.001,
      "loss": 0.2135,
      "step": 6826
    },
    {
      "epoch": 6.959225280326198,
      "grad_norm": 0.21237218379974365,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 6827
    },
    {
      "epoch": 6.960244648318043,
      "grad_norm": 0.09790346026420593,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 6828
    },
    {
      "epoch": 6.961264016309888,
      "grad_norm": 0.09099137037992477,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 6829
    },
    {
      "epoch": 6.962283384301733,
      "grad_norm": 0.06187322363257408,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 6830
    },
    {
      "epoch": 6.963302752293578,
      "grad_norm": 0.3577861785888672,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 6831
    },
    {
      "epoch": 6.9643221202854235,
      "grad_norm": 0.09228541702032089,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 6832
    },
    {
      "epoch": 6.965341488277268,
      "grad_norm": 0.11162155121564865,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 6833
    },
    {
      "epoch": 6.966360856269113,
      "grad_norm": 0.09400461614131927,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 6834
    },
    {
      "epoch": 6.967380224260959,
      "grad_norm": 0.12413403391838074,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 6835
    },
    {
      "epoch": 6.968399592252803,
      "grad_norm": 0.11615078151226044,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 6836
    },
    {
      "epoch": 6.969418960244648,
      "grad_norm": 0.14023622870445251,
      "learning_rate": 0.001,
      "loss": 0.2184,
      "step": 6837
    },
    {
      "epoch": 6.970438328236494,
      "grad_norm": 0.1318947821855545,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 6838
    },
    {
      "epoch": 6.971457696228338,
      "grad_norm": 0.188530832529068,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 6839
    },
    {
      "epoch": 6.972477064220183,
      "grad_norm": 0.09378152340650558,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 6840
    },
    {
      "epoch": 6.973496432212029,
      "grad_norm": 0.136163130402565,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 6841
    },
    {
      "epoch": 6.974515800203873,
      "grad_norm": 0.0618060827255249,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 6842
    },
    {
      "epoch": 6.9755351681957185,
      "grad_norm": 0.1376795470714569,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 6843
    },
    {
      "epoch": 6.976554536187564,
      "grad_norm": 0.09496938437223434,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 6844
    },
    {
      "epoch": 6.977573904179409,
      "grad_norm": 0.0782427042722702,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 6845
    },
    {
      "epoch": 6.978593272171254,
      "grad_norm": 0.16962894797325134,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 6846
    },
    {
      "epoch": 6.979612640163099,
      "grad_norm": 0.11294896900653839,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 6847
    },
    {
      "epoch": 6.980632008154944,
      "grad_norm": 0.11517809331417084,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 6848
    },
    {
      "epoch": 6.981651376146789,
      "grad_norm": 0.16493023931980133,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 6849
    },
    {
      "epoch": 6.982670744138634,
      "grad_norm": 0.0927782729268074,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 6850
    },
    {
      "epoch": 6.983690112130479,
      "grad_norm": 0.1012168675661087,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 6851
    },
    {
      "epoch": 6.984709480122325,
      "grad_norm": 0.09746427088975906,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 6852
    },
    {
      "epoch": 6.985728848114169,
      "grad_norm": 0.10267996788024902,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 6853
    },
    {
      "epoch": 6.986748216106014,
      "grad_norm": 0.09218046069145203,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 6854
    },
    {
      "epoch": 6.98776758409786,
      "grad_norm": 0.15060630440711975,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 6855
    },
    {
      "epoch": 6.988786952089704,
      "grad_norm": 0.06324557960033417,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6856
    },
    {
      "epoch": 6.9898063200815495,
      "grad_norm": 0.08833173662424088,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 6857
    },
    {
      "epoch": 6.990825688073395,
      "grad_norm": 0.22001276910305023,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 6858
    },
    {
      "epoch": 6.991845056065239,
      "grad_norm": 0.12025082111358643,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 6859
    },
    {
      "epoch": 6.9928644240570845,
      "grad_norm": 0.0864252969622612,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 6860
    },
    {
      "epoch": 6.99388379204893,
      "grad_norm": 0.07891616225242615,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 6861
    },
    {
      "epoch": 6.994903160040774,
      "grad_norm": 0.06702665984630585,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 6862
    },
    {
      "epoch": 6.99592252803262,
      "grad_norm": 0.045992784202098846,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 6863
    },
    {
      "epoch": 6.996941896024465,
      "grad_norm": 0.16710111498832703,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 6864
    },
    {
      "epoch": 6.99796126401631,
      "grad_norm": 0.12090539187192917,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 6865
    },
    {
      "epoch": 6.998980632008155,
      "grad_norm": 0.10834591090679169,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 6866
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.16246020793914795,
      "learning_rate": 0.001,
      "loss": 0.2211,
      "step": 6867
    },
    {
      "epoch": 7.0,
      "eval_-_f1-score": 0.3333333333333333,
      "eval_-_precision": 0.42857142857142855,
      "eval_-_recall": 0.2727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9634233316352522,
      "eval_<_precision": 0.9551515151515152,
      "eval_<_recall": 0.9718396711202466,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8118393234672304,
      "eval_=_precision": 0.8533333333333334,
      "eval_=_recall": 0.7741935483870968,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9640347250930137,
      "eval_>_precision": 0.9694450218249844,
      "eval_>_recall": 0.9586844809866393,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.959,
      "eval_loss": 0.11112578213214874,
      "eval_macro_avg_f1-score": 0.7681576783822074,
      "eval_macro_avg_precision": 0.8016253247203153,
      "eval_macro_avg_recall": 0.7443612433053137,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 15.94,
      "eval_samples_per_second": 627.352,
      "eval_steps_per_second": 2.509,
      "eval_weighted_avg_f1-score": 0.9585752931536222,
      "eval_weighted_avg_precision": 0.9584217390485908,
      "eval_weighted_avg_recall": 0.959,
      "eval_weighted_avg_support": 10000.0,
      "step": 6867
    },
    {
      "epoch": 7.001019367991845,
      "grad_norm": 0.10284258425235748,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 6868
    },
    {
      "epoch": 7.00203873598369,
      "grad_norm": 0.1306026130914688,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 6869
    },
    {
      "epoch": 7.003058103975535,
      "grad_norm": 0.16154806315898895,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 6870
    },
    {
      "epoch": 7.00407747196738,
      "grad_norm": 0.11452728509902954,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 6871
    },
    {
      "epoch": 7.005096839959226,
      "grad_norm": 0.091673843562603,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 6872
    },
    {
      "epoch": 7.00611620795107,
      "grad_norm": 0.10827872902154922,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 6873
    },
    {
      "epoch": 7.0071355759429155,
      "grad_norm": 0.11569853872060776,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 6874
    },
    {
      "epoch": 7.008154943934761,
      "grad_norm": 0.06375674158334732,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 6875
    },
    {
      "epoch": 7.009174311926605,
      "grad_norm": 0.12473395466804504,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 6876
    },
    {
      "epoch": 7.0101936799184505,
      "grad_norm": 0.06592940539121628,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 6877
    },
    {
      "epoch": 7.011213047910296,
      "grad_norm": 0.09351155161857605,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 6878
    },
    {
      "epoch": 7.01223241590214,
      "grad_norm": 0.09819091111421585,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 6879
    },
    {
      "epoch": 7.013251783893986,
      "grad_norm": 0.17967911064624786,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 6880
    },
    {
      "epoch": 7.014271151885831,
      "grad_norm": 0.1294506937265396,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 6881
    },
    {
      "epoch": 7.015290519877676,
      "grad_norm": 0.06043773889541626,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 6882
    },
    {
      "epoch": 7.016309887869521,
      "grad_norm": 0.07004404813051224,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 6883
    },
    {
      "epoch": 7.017329255861366,
      "grad_norm": 0.1159752681851387,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 6884
    },
    {
      "epoch": 7.018348623853211,
      "grad_norm": 0.07227902114391327,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 6885
    },
    {
      "epoch": 7.019367991845056,
      "grad_norm": 0.10992147028446198,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 6886
    },
    {
      "epoch": 7.020387359836901,
      "grad_norm": 0.10653334856033325,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 6887
    },
    {
      "epoch": 7.021406727828746,
      "grad_norm": 0.06367620080709457,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 6888
    },
    {
      "epoch": 7.022426095820591,
      "grad_norm": 0.1084631085395813,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 6889
    },
    {
      "epoch": 7.023445463812436,
      "grad_norm": 0.11862727999687195,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 6890
    },
    {
      "epoch": 7.0244648318042815,
      "grad_norm": 0.08616173267364502,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 6891
    },
    {
      "epoch": 7.025484199796127,
      "grad_norm": 0.05150512978434563,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 6892
    },
    {
      "epoch": 7.026503567787971,
      "grad_norm": 0.1514991670846939,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 6893
    },
    {
      "epoch": 7.027522935779817,
      "grad_norm": 0.08244489878416061,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 6894
    },
    {
      "epoch": 7.028542303771662,
      "grad_norm": 0.1336842179298401,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 6895
    },
    {
      "epoch": 7.029561671763506,
      "grad_norm": 0.14513030648231506,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 6896
    },
    {
      "epoch": 7.030581039755352,
      "grad_norm": 0.11288809031248093,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 6897
    },
    {
      "epoch": 7.031600407747197,
      "grad_norm": 0.1007753536105156,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 6898
    },
    {
      "epoch": 7.032619775739041,
      "grad_norm": 0.16328848898410797,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 6899
    },
    {
      "epoch": 7.033639143730887,
      "grad_norm": 0.07989387959241867,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 6900
    },
    {
      "epoch": 7.034658511722732,
      "grad_norm": 0.09525326639413834,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 6901
    },
    {
      "epoch": 7.035677879714577,
      "grad_norm": 0.11173947155475616,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 6902
    },
    {
      "epoch": 7.036697247706422,
      "grad_norm": 0.18585212528705597,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 6903
    },
    {
      "epoch": 7.037716615698267,
      "grad_norm": 0.0846792533993721,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 6904
    },
    {
      "epoch": 7.038735983690112,
      "grad_norm": 0.1722867786884308,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 6905
    },
    {
      "epoch": 7.039755351681957,
      "grad_norm": 0.09270176291465759,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 6906
    },
    {
      "epoch": 7.040774719673802,
      "grad_norm": 0.10248667746782303,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 6907
    },
    {
      "epoch": 7.0417940876656475,
      "grad_norm": 0.09230713546276093,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 6908
    },
    {
      "epoch": 7.042813455657492,
      "grad_norm": 0.06349692493677139,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 6909
    },
    {
      "epoch": 7.043832823649337,
      "grad_norm": 0.10214225947856903,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 6910
    },
    {
      "epoch": 7.044852191641183,
      "grad_norm": 0.09921912103891373,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 6911
    },
    {
      "epoch": 7.045871559633028,
      "grad_norm": 0.06586523354053497,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 6912
    },
    {
      "epoch": 7.046890927624872,
      "grad_norm": 0.1282500922679901,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 6913
    },
    {
      "epoch": 7.047910295616718,
      "grad_norm": 0.1478058397769928,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 6914
    },
    {
      "epoch": 7.048929663608563,
      "grad_norm": 0.10161475837230682,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 6915
    },
    {
      "epoch": 7.049949031600407,
      "grad_norm": 0.14240483939647675,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 6916
    },
    {
      "epoch": 7.050968399592253,
      "grad_norm": 0.12152805924415588,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 6917
    },
    {
      "epoch": 7.051987767584098,
      "grad_norm": 0.11911796778440475,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 6918
    },
    {
      "epoch": 7.0530071355759425,
      "grad_norm": 0.09083659201860428,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 6919
    },
    {
      "epoch": 7.054026503567788,
      "grad_norm": 0.11829496920108795,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 6920
    },
    {
      "epoch": 7.055045871559633,
      "grad_norm": 0.1788058876991272,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 6921
    },
    {
      "epoch": 7.0560652395514785,
      "grad_norm": 0.21253792941570282,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 6922
    },
    {
      "epoch": 7.057084607543323,
      "grad_norm": 0.24696378409862518,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 6923
    },
    {
      "epoch": 7.058103975535168,
      "grad_norm": 0.11141066998243332,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 6924
    },
    {
      "epoch": 7.0591233435270135,
      "grad_norm": 0.11465158313512802,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 6925
    },
    {
      "epoch": 7.060142711518858,
      "grad_norm": 0.07705459743738174,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 6926
    },
    {
      "epoch": 7.061162079510703,
      "grad_norm": 0.16442899405956268,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6927
    },
    {
      "epoch": 7.062181447502549,
      "grad_norm": 0.16911174356937408,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6928
    },
    {
      "epoch": 7.063200815494393,
      "grad_norm": 0.08851060271263123,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 6929
    },
    {
      "epoch": 7.064220183486238,
      "grad_norm": 0.1264858841896057,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 6930
    },
    {
      "epoch": 7.065239551478084,
      "grad_norm": 0.12475252896547318,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 6931
    },
    {
      "epoch": 7.066258919469929,
      "grad_norm": 0.09173599630594254,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 6932
    },
    {
      "epoch": 7.0672782874617734,
      "grad_norm": 0.10333510488271713,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 6933
    },
    {
      "epoch": 7.068297655453619,
      "grad_norm": 0.17819935083389282,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 6934
    },
    {
      "epoch": 7.069317023445464,
      "grad_norm": 0.05575095862150192,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 6935
    },
    {
      "epoch": 7.0703363914373085,
      "grad_norm": 0.07653142511844635,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 6936
    },
    {
      "epoch": 7.071355759429154,
      "grad_norm": 0.08952058106660843,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 6937
    },
    {
      "epoch": 7.072375127420999,
      "grad_norm": 0.1352582424879074,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 6938
    },
    {
      "epoch": 7.073394495412844,
      "grad_norm": 0.098951056599617,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 6939
    },
    {
      "epoch": 7.074413863404689,
      "grad_norm": 0.2052655816078186,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 6940
    },
    {
      "epoch": 7.075433231396534,
      "grad_norm": 0.19282075762748718,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 6941
    },
    {
      "epoch": 7.07645259938838,
      "grad_norm": 0.0940660759806633,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 6942
    },
    {
      "epoch": 7.077471967380224,
      "grad_norm": 0.1517602503299713,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 6943
    },
    {
      "epoch": 7.078491335372069,
      "grad_norm": 0.19725868105888367,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 6944
    },
    {
      "epoch": 7.079510703363915,
      "grad_norm": 0.054374370723962784,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 6945
    },
    {
      "epoch": 7.080530071355759,
      "grad_norm": 0.1434435099363327,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 6946
    },
    {
      "epoch": 7.081549439347604,
      "grad_norm": 0.083234041929245,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 6947
    },
    {
      "epoch": 7.08256880733945,
      "grad_norm": 0.13450945913791656,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 6948
    },
    {
      "epoch": 7.083588175331295,
      "grad_norm": 0.127031609416008,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 6949
    },
    {
      "epoch": 7.0846075433231395,
      "grad_norm": 0.1549842208623886,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 6950
    },
    {
      "epoch": 7.085626911314985,
      "grad_norm": 0.09210922569036484,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 6951
    },
    {
      "epoch": 7.08664627930683,
      "grad_norm": 0.14338156580924988,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 6952
    },
    {
      "epoch": 7.0876656472986745,
      "grad_norm": 0.11874378472566605,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 6953
    },
    {
      "epoch": 7.08868501529052,
      "grad_norm": 0.09224511682987213,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 6954
    },
    {
      "epoch": 7.089704383282365,
      "grad_norm": 0.12366428971290588,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 6955
    },
    {
      "epoch": 7.09072375127421,
      "grad_norm": 0.09794317185878754,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 6956
    },
    {
      "epoch": 7.091743119266055,
      "grad_norm": 0.09542987495660782,
      "learning_rate": 0.001,
      "loss": 0.166,
      "step": 6957
    },
    {
      "epoch": 7.0927624872579,
      "grad_norm": 0.09922753274440765,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 6958
    },
    {
      "epoch": 7.093781855249746,
      "grad_norm": 0.07238433510065079,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 6959
    },
    {
      "epoch": 7.09480122324159,
      "grad_norm": 0.07694943249225616,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 6960
    },
    {
      "epoch": 7.095820591233435,
      "grad_norm": 0.07284000515937805,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 6961
    },
    {
      "epoch": 7.096839959225281,
      "grad_norm": 0.07625051587820053,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 6962
    },
    {
      "epoch": 7.097859327217125,
      "grad_norm": 0.09018062800168991,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 6963
    },
    {
      "epoch": 7.09887869520897,
      "grad_norm": 0.09330829977989197,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 6964
    },
    {
      "epoch": 7.099898063200816,
      "grad_norm": 0.08799480646848679,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 6965
    },
    {
      "epoch": 7.10091743119266,
      "grad_norm": 0.04982207342982292,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 6966
    },
    {
      "epoch": 7.1019367991845055,
      "grad_norm": 0.10193479806184769,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 6967
    },
    {
      "epoch": 7.102956167176351,
      "grad_norm": 0.09083923697471619,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 6968
    },
    {
      "epoch": 7.103975535168196,
      "grad_norm": 0.09602271765470505,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 6969
    },
    {
      "epoch": 7.104994903160041,
      "grad_norm": 0.07694187015295029,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 6970
    },
    {
      "epoch": 7.106014271151886,
      "grad_norm": 0.19552528858184814,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 6971
    },
    {
      "epoch": 7.107033639143731,
      "grad_norm": 0.1116068959236145,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 6972
    },
    {
      "epoch": 7.108053007135576,
      "grad_norm": 0.06561204791069031,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 6973
    },
    {
      "epoch": 7.109072375127421,
      "grad_norm": 0.18688693642616272,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 6974
    },
    {
      "epoch": 7.110091743119266,
      "grad_norm": 0.1690046787261963,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 6975
    },
    {
      "epoch": 7.111111111111111,
      "grad_norm": 0.15451373159885406,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 6976
    },
    {
      "epoch": 7.112130479102956,
      "grad_norm": 0.1049000695347786,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 6977
    },
    {
      "epoch": 7.113149847094801,
      "grad_norm": 0.1219320297241211,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 6978
    },
    {
      "epoch": 7.114169215086647,
      "grad_norm": 0.11617780476808548,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 6979
    },
    {
      "epoch": 7.115188583078491,
      "grad_norm": 0.0914866179227829,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 6980
    },
    {
      "epoch": 7.116207951070336,
      "grad_norm": 0.11927787959575653,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 6981
    },
    {
      "epoch": 7.117227319062182,
      "grad_norm": 0.09732688963413239,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 6982
    },
    {
      "epoch": 7.118246687054026,
      "grad_norm": 0.1325823962688446,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 6983
    },
    {
      "epoch": 7.1192660550458715,
      "grad_norm": 0.09365691244602203,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 6984
    },
    {
      "epoch": 7.120285423037717,
      "grad_norm": 0.07227975130081177,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 6985
    },
    {
      "epoch": 7.121304791029561,
      "grad_norm": 0.03335685282945633,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 6986
    },
    {
      "epoch": 7.122324159021407,
      "grad_norm": 0.16364075243473053,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 6987
    },
    {
      "epoch": 7.123343527013252,
      "grad_norm": 0.10793274641036987,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 6988
    },
    {
      "epoch": 7.124362895005097,
      "grad_norm": 0.09648711234331131,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 6989
    },
    {
      "epoch": 7.125382262996942,
      "grad_norm": 0.07703516632318497,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 6990
    },
    {
      "epoch": 7.126401630988787,
      "grad_norm": 0.10163402557373047,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 6991
    },
    {
      "epoch": 7.127420998980632,
      "grad_norm": 0.16152401268482208,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 6992
    },
    {
      "epoch": 7.128440366972477,
      "grad_norm": 0.1351029872894287,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 6993
    },
    {
      "epoch": 7.129459734964322,
      "grad_norm": 0.06207331269979477,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 6994
    },
    {
      "epoch": 7.130479102956167,
      "grad_norm": 0.23708198964595795,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 6995
    },
    {
      "epoch": 7.131498470948012,
      "grad_norm": 0.10636267066001892,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 6996
    },
    {
      "epoch": 7.132517838939857,
      "grad_norm": 0.07294715940952301,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 6997
    },
    {
      "epoch": 7.1335372069317025,
      "grad_norm": 0.12055887281894684,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 6998
    },
    {
      "epoch": 7.134556574923548,
      "grad_norm": 0.12495315819978714,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 6999
    },
    {
      "epoch": 7.135575942915392,
      "grad_norm": 0.2205955535173416,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7000
    },
    {
      "epoch": 7.1365953109072375,
      "grad_norm": 0.09973971545696259,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 7001
    },
    {
      "epoch": 7.137614678899083,
      "grad_norm": 0.07924073189496994,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7002
    },
    {
      "epoch": 7.138634046890927,
      "grad_norm": 0.17946907877922058,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 7003
    },
    {
      "epoch": 7.139653414882773,
      "grad_norm": 0.09553178399801254,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7004
    },
    {
      "epoch": 7.140672782874618,
      "grad_norm": 0.2603703737258911,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 7005
    },
    {
      "epoch": 7.141692150866462,
      "grad_norm": 0.1711224615573883,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 7006
    },
    {
      "epoch": 7.142711518858308,
      "grad_norm": 0.13853757083415985,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 7007
    },
    {
      "epoch": 7.143730886850153,
      "grad_norm": 0.16280221939086914,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7008
    },
    {
      "epoch": 7.144750254841998,
      "grad_norm": 0.17107291519641876,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7009
    },
    {
      "epoch": 7.145769622833843,
      "grad_norm": 0.1086728498339653,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 7010
    },
    {
      "epoch": 7.146788990825688,
      "grad_norm": 0.1707155704498291,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 7011
    },
    {
      "epoch": 7.147808358817533,
      "grad_norm": 0.08492106944322586,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 7012
    },
    {
      "epoch": 7.148827726809378,
      "grad_norm": 0.087094247341156,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 7013
    },
    {
      "epoch": 7.149847094801223,
      "grad_norm": 0.18927828967571259,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7014
    },
    {
      "epoch": 7.1508664627930685,
      "grad_norm": 0.07974479347467422,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 7015
    },
    {
      "epoch": 7.151885830784913,
      "grad_norm": 0.11167717725038528,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7016
    },
    {
      "epoch": 7.152905198776758,
      "grad_norm": 0.09817735850811005,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 7017
    },
    {
      "epoch": 7.1539245667686036,
      "grad_norm": 0.2643456757068634,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7018
    },
    {
      "epoch": 7.154943934760449,
      "grad_norm": 0.12156413495540619,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 7019
    },
    {
      "epoch": 7.155963302752293,
      "grad_norm": 0.07595321536064148,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 7020
    },
    {
      "epoch": 7.156982670744139,
      "grad_norm": 0.12179113179445267,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 7021
    },
    {
      "epoch": 7.158002038735984,
      "grad_norm": 0.09179546684026718,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 7022
    },
    {
      "epoch": 7.159021406727828,
      "grad_norm": 0.11346804350614548,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 7023
    },
    {
      "epoch": 7.160040774719674,
      "grad_norm": 0.08731643855571747,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7024
    },
    {
      "epoch": 7.161060142711519,
      "grad_norm": 0.10736120492219925,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 7025
    },
    {
      "epoch": 7.162079510703364,
      "grad_norm": 0.1896042674779892,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 7026
    },
    {
      "epoch": 7.163098878695209,
      "grad_norm": 0.07533207535743713,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7027
    },
    {
      "epoch": 7.164118246687054,
      "grad_norm": 0.08296529203653336,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7028
    },
    {
      "epoch": 7.165137614678899,
      "grad_norm": 0.11498139798641205,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 7029
    },
    {
      "epoch": 7.166156982670744,
      "grad_norm": 0.09259986132383347,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 7030
    },
    {
      "epoch": 7.167176350662589,
      "grad_norm": 0.09997788071632385,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 7031
    },
    {
      "epoch": 7.1681957186544345,
      "grad_norm": 0.10983598977327347,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 7032
    },
    {
      "epoch": 7.169215086646279,
      "grad_norm": 0.056660376489162445,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 7033
    },
    {
      "epoch": 7.170234454638124,
      "grad_norm": 0.14793168008327484,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 7034
    },
    {
      "epoch": 7.17125382262997,
      "grad_norm": 0.12040891498327255,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7035
    },
    {
      "epoch": 7.172273190621815,
      "grad_norm": 0.14678341150283813,
      "learning_rate": 0.001,
      "loss": 0.2234,
      "step": 7036
    },
    {
      "epoch": 7.173292558613659,
      "grad_norm": 0.08319450914859772,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 7037
    },
    {
      "epoch": 7.174311926605505,
      "grad_norm": 0.14065097272396088,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 7038
    },
    {
      "epoch": 7.17533129459735,
      "grad_norm": 0.13507913053035736,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 7039
    },
    {
      "epoch": 7.176350662589194,
      "grad_norm": 0.06387627124786377,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7040
    },
    {
      "epoch": 7.17737003058104,
      "grad_norm": 0.07123088091611862,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 7041
    },
    {
      "epoch": 7.178389398572885,
      "grad_norm": 0.09039571136236191,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 7042
    },
    {
      "epoch": 7.1794087665647295,
      "grad_norm": 0.13746950030326843,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 7043
    },
    {
      "epoch": 7.180428134556575,
      "grad_norm": 0.13937383890151978,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 7044
    },
    {
      "epoch": 7.18144750254842,
      "grad_norm": 0.11768847703933716,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 7045
    },
    {
      "epoch": 7.1824668705402654,
      "grad_norm": 0.1008635088801384,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 7046
    },
    {
      "epoch": 7.18348623853211,
      "grad_norm": 0.20752517879009247,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 7047
    },
    {
      "epoch": 7.184505606523955,
      "grad_norm": 0.10090751200914383,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 7048
    },
    {
      "epoch": 7.1855249745158005,
      "grad_norm": 0.06042495369911194,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 7049
    },
    {
      "epoch": 7.186544342507645,
      "grad_norm": 0.10294003039598465,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7050
    },
    {
      "epoch": 7.18756371049949,
      "grad_norm": 0.07061140239238739,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 7051
    },
    {
      "epoch": 7.188583078491336,
      "grad_norm": 0.08758627623319626,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 7052
    },
    {
      "epoch": 7.18960244648318,
      "grad_norm": 0.09230770915746689,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7053
    },
    {
      "epoch": 7.190621814475025,
      "grad_norm": 0.17370155453681946,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7054
    },
    {
      "epoch": 7.191641182466871,
      "grad_norm": 0.17983883619308472,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 7055
    },
    {
      "epoch": 7.192660550458716,
      "grad_norm": 0.10224897414445877,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 7056
    },
    {
      "epoch": 7.19367991845056,
      "grad_norm": 0.09309495985507965,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 7057
    },
    {
      "epoch": 7.194699286442406,
      "grad_norm": 0.14845559000968933,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7058
    },
    {
      "epoch": 7.195718654434251,
      "grad_norm": 0.1560979187488556,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7059
    },
    {
      "epoch": 7.1967380224260955,
      "grad_norm": 0.1815270334482193,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 7060
    },
    {
      "epoch": 7.197757390417941,
      "grad_norm": 0.16187246143817902,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 7061
    },
    {
      "epoch": 7.198776758409786,
      "grad_norm": 0.06043911725282669,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 7062
    },
    {
      "epoch": 7.199796126401631,
      "grad_norm": 0.11833694577217102,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 7063
    },
    {
      "epoch": 7.200815494393476,
      "grad_norm": 0.13282687962055206,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 7064
    },
    {
      "epoch": 7.201834862385321,
      "grad_norm": 0.09178987145423889,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 7065
    },
    {
      "epoch": 7.2028542303771665,
      "grad_norm": 0.0985480472445488,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 7066
    },
    {
      "epoch": 7.203873598369011,
      "grad_norm": 0.0750872790813446,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 7067
    },
    {
      "epoch": 7.204892966360856,
      "grad_norm": 0.163944810628891,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 7068
    },
    {
      "epoch": 7.205912334352702,
      "grad_norm": 0.057978831231594086,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7069
    },
    {
      "epoch": 7.206931702344546,
      "grad_norm": 0.18971781432628632,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 7070
    },
    {
      "epoch": 7.207951070336391,
      "grad_norm": 0.09977522492408752,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7071
    },
    {
      "epoch": 7.208970438328237,
      "grad_norm": 0.0962575376033783,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 7072
    },
    {
      "epoch": 7.209989806320081,
      "grad_norm": 0.09643106907606125,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7073
    },
    {
      "epoch": 7.2110091743119265,
      "grad_norm": 0.17037461698055267,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7074
    },
    {
      "epoch": 7.212028542303772,
      "grad_norm": 0.09424258768558502,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 7075
    },
    {
      "epoch": 7.213047910295617,
      "grad_norm": 0.11487443745136261,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7076
    },
    {
      "epoch": 7.2140672782874615,
      "grad_norm": 0.11344002932310104,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 7077
    },
    {
      "epoch": 7.215086646279307,
      "grad_norm": 0.14404530823230743,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7078
    },
    {
      "epoch": 7.216106014271152,
      "grad_norm": 0.07747212797403336,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 7079
    },
    {
      "epoch": 7.217125382262997,
      "grad_norm": 0.10343315452337265,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 7080
    },
    {
      "epoch": 7.218144750254842,
      "grad_norm": 0.1001216396689415,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 7081
    },
    {
      "epoch": 7.219164118246687,
      "grad_norm": 0.06819503009319305,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 7082
    },
    {
      "epoch": 7.220183486238533,
      "grad_norm": 0.12410429120063782,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 7083
    },
    {
      "epoch": 7.221202854230377,
      "grad_norm": 0.11381696909666061,
      "learning_rate": 0.001,
      "loss": 0.2174,
      "step": 7084
    },
    {
      "epoch": 7.222222222222222,
      "grad_norm": 0.09900704771280289,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 7085
    },
    {
      "epoch": 7.223241590214068,
      "grad_norm": 0.12794797122478485,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 7086
    },
    {
      "epoch": 7.224260958205912,
      "grad_norm": 0.09107550978660583,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 7087
    },
    {
      "epoch": 7.225280326197757,
      "grad_norm": 0.05212283134460449,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7088
    },
    {
      "epoch": 7.226299694189603,
      "grad_norm": 0.11765193194150925,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 7089
    },
    {
      "epoch": 7.227319062181447,
      "grad_norm": 0.14511777460575104,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 7090
    },
    {
      "epoch": 7.2283384301732925,
      "grad_norm": 0.07427121698856354,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 7091
    },
    {
      "epoch": 7.229357798165138,
      "grad_norm": 0.1536586880683899,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 7092
    },
    {
      "epoch": 7.230377166156982,
      "grad_norm": 0.14789608120918274,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 7093
    },
    {
      "epoch": 7.2313965341488275,
      "grad_norm": 0.08685772120952606,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 7094
    },
    {
      "epoch": 7.232415902140673,
      "grad_norm": 0.20615169405937195,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 7095
    },
    {
      "epoch": 7.233435270132518,
      "grad_norm": 0.1591506004333496,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 7096
    },
    {
      "epoch": 7.234454638124363,
      "grad_norm": 0.09292197227478027,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 7097
    },
    {
      "epoch": 7.235474006116208,
      "grad_norm": 0.1332460641860962,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 7098
    },
    {
      "epoch": 7.236493374108053,
      "grad_norm": 0.1558229923248291,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 7099
    },
    {
      "epoch": 7.237512742099898,
      "grad_norm": 0.0729963406920433,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 7100
    },
    {
      "epoch": 7.238532110091743,
      "grad_norm": 0.08922943472862244,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 7101
    },
    {
      "epoch": 7.239551478083588,
      "grad_norm": 0.09934628754854202,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 7102
    },
    {
      "epoch": 7.240570846075434,
      "grad_norm": 0.07134196162223816,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7103
    },
    {
      "epoch": 7.241590214067278,
      "grad_norm": 0.09953825175762177,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 7104
    },
    {
      "epoch": 7.242609582059123,
      "grad_norm": 0.0830552726984024,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 7105
    },
    {
      "epoch": 7.243628950050969,
      "grad_norm": 0.12807884812355042,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7106
    },
    {
      "epoch": 7.244648318042813,
      "grad_norm": 0.09517813473939896,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7107
    },
    {
      "epoch": 7.2456676860346585,
      "grad_norm": 0.15527285635471344,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 7108
    },
    {
      "epoch": 7.246687054026504,
      "grad_norm": 0.12112925201654434,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 7109
    },
    {
      "epoch": 7.247706422018348,
      "grad_norm": 0.21664227545261383,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 7110
    },
    {
      "epoch": 7.248725790010194,
      "grad_norm": 0.15518082678318024,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 7111
    },
    {
      "epoch": 7.249745158002039,
      "grad_norm": 0.0934433713555336,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 7112
    },
    {
      "epoch": 7.250764525993883,
      "grad_norm": 0.1758708357810974,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 7113
    },
    {
      "epoch": 7.251783893985729,
      "grad_norm": 0.11192900687456131,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 7114
    },
    {
      "epoch": 7.252803261977574,
      "grad_norm": 0.14742645621299744,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 7115
    },
    {
      "epoch": 7.253822629969419,
      "grad_norm": 0.0991373136639595,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 7116
    },
    {
      "epoch": 7.254841997961264,
      "grad_norm": 0.1218661218881607,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 7117
    },
    {
      "epoch": 7.255861365953109,
      "grad_norm": 0.13749821484088898,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 7118
    },
    {
      "epoch": 7.256880733944954,
      "grad_norm": 0.2559937536716461,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7119
    },
    {
      "epoch": 7.257900101936799,
      "grad_norm": 0.06644901633262634,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 7120
    },
    {
      "epoch": 7.258919469928644,
      "grad_norm": 0.11680047959089279,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 7121
    },
    {
      "epoch": 7.259938837920489,
      "grad_norm": 0.11685929447412491,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 7122
    },
    {
      "epoch": 7.260958205912335,
      "grad_norm": 0.09954174607992172,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 7123
    },
    {
      "epoch": 7.261977573904179,
      "grad_norm": 0.09579122066497803,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 7124
    },
    {
      "epoch": 7.2629969418960245,
      "grad_norm": 0.1190815269947052,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 7125
    },
    {
      "epoch": 7.26401630988787,
      "grad_norm": 0.10147508233785629,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 7126
    },
    {
      "epoch": 7.265035677879714,
      "grad_norm": 0.12480705231428146,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 7127
    },
    {
      "epoch": 7.26605504587156,
      "grad_norm": 0.11411355435848236,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 7128
    },
    {
      "epoch": 7.267074413863405,
      "grad_norm": 0.1853039562702179,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 7129
    },
    {
      "epoch": 7.268093781855249,
      "grad_norm": 0.09642162173986435,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 7130
    },
    {
      "epoch": 7.269113149847095,
      "grad_norm": 0.1102166399359703,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 7131
    },
    {
      "epoch": 7.27013251783894,
      "grad_norm": 0.16132839024066925,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 7132
    },
    {
      "epoch": 7.271151885830785,
      "grad_norm": 0.08915628492832184,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 7133
    },
    {
      "epoch": 7.27217125382263,
      "grad_norm": 0.12868084013462067,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 7134
    },
    {
      "epoch": 7.273190621814475,
      "grad_norm": 0.06420556455850601,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 7135
    },
    {
      "epoch": 7.27420998980632,
      "grad_norm": 0.09328612685203552,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7136
    },
    {
      "epoch": 7.275229357798165,
      "grad_norm": 0.18187211453914642,
      "learning_rate": 0.001,
      "loss": 0.2242,
      "step": 7137
    },
    {
      "epoch": 7.27624872579001,
      "grad_norm": 0.1082514151930809,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 7138
    },
    {
      "epoch": 7.2772680937818555,
      "grad_norm": 0.13270007073879242,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 7139
    },
    {
      "epoch": 7.2782874617737,
      "grad_norm": 0.07061642408370972,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 7140
    },
    {
      "epoch": 7.279306829765545,
      "grad_norm": 0.14073126018047333,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7141
    },
    {
      "epoch": 7.2803261977573905,
      "grad_norm": 0.1178470179438591,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 7142
    },
    {
      "epoch": 7.281345565749236,
      "grad_norm": 0.13587811589241028,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7143
    },
    {
      "epoch": 7.28236493374108,
      "grad_norm": 0.1838514804840088,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 7144
    },
    {
      "epoch": 7.283384301732926,
      "grad_norm": 0.1360715925693512,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7145
    },
    {
      "epoch": 7.284403669724771,
      "grad_norm": 0.0833962932229042,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 7146
    },
    {
      "epoch": 7.285423037716615,
      "grad_norm": 0.09585253894329071,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 7147
    },
    {
      "epoch": 7.286442405708461,
      "grad_norm": 0.11490118503570557,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 7148
    },
    {
      "epoch": 7.287461773700306,
      "grad_norm": 0.14821836352348328,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 7149
    },
    {
      "epoch": 7.2884811416921504,
      "grad_norm": 0.10054650157690048,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 7150
    },
    {
      "epoch": 7.289500509683996,
      "grad_norm": 0.1952216923236847,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 7151
    },
    {
      "epoch": 7.290519877675841,
      "grad_norm": 0.07157473266124725,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 7152
    },
    {
      "epoch": 7.291539245667686,
      "grad_norm": 0.08415662497282028,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 7153
    },
    {
      "epoch": 7.292558613659531,
      "grad_norm": 0.11780243366956711,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7154
    },
    {
      "epoch": 7.293577981651376,
      "grad_norm": 0.0709865465760231,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 7155
    },
    {
      "epoch": 7.2945973496432215,
      "grad_norm": 0.10515265166759491,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 7156
    },
    {
      "epoch": 7.295616717635066,
      "grad_norm": 0.08877194672822952,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 7157
    },
    {
      "epoch": 7.296636085626911,
      "grad_norm": 0.07270307838916779,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 7158
    },
    {
      "epoch": 7.297655453618757,
      "grad_norm": 0.14155277609825134,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 7159
    },
    {
      "epoch": 7.298674821610602,
      "grad_norm": 0.05565883219242096,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 7160
    },
    {
      "epoch": 7.299694189602446,
      "grad_norm": 0.08803960680961609,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 7161
    },
    {
      "epoch": 7.300713557594292,
      "grad_norm": 0.047081783413887024,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 7162
    },
    {
      "epoch": 7.301732925586137,
      "grad_norm": 0.10914493352174759,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 7163
    },
    {
      "epoch": 7.302752293577981,
      "grad_norm": 0.09757599979639053,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 7164
    },
    {
      "epoch": 7.303771661569827,
      "grad_norm": 0.14671576023101807,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7165
    },
    {
      "epoch": 7.304791029561672,
      "grad_norm": 0.10946367681026459,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 7166
    },
    {
      "epoch": 7.3058103975535165,
      "grad_norm": 0.15143851935863495,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7167
    },
    {
      "epoch": 7.306829765545362,
      "grad_norm": 0.11897831410169601,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 7168
    },
    {
      "epoch": 7.307849133537207,
      "grad_norm": 0.06810744851827621,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 7169
    },
    {
      "epoch": 7.3088685015290515,
      "grad_norm": 0.09959081560373306,
      "learning_rate": 0.001,
      "loss": 0.2162,
      "step": 7170
    },
    {
      "epoch": 7.309887869520897,
      "grad_norm": 0.20563530921936035,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7171
    },
    {
      "epoch": 7.310907237512742,
      "grad_norm": 0.15499699115753174,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 7172
    },
    {
      "epoch": 7.3119266055045875,
      "grad_norm": 0.1508842259645462,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 7173
    },
    {
      "epoch": 7.312945973496432,
      "grad_norm": 0.1694786697626114,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7174
    },
    {
      "epoch": 7.313965341488277,
      "grad_norm": 0.10525023937225342,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 7175
    },
    {
      "epoch": 7.314984709480123,
      "grad_norm": 0.11654852330684662,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7176
    },
    {
      "epoch": 7.316004077471967,
      "grad_norm": 0.10785332322120667,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 7177
    },
    {
      "epoch": 7.317023445463812,
      "grad_norm": 0.24952615797519684,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7178
    },
    {
      "epoch": 7.318042813455658,
      "grad_norm": 0.1867542266845703,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 7179
    },
    {
      "epoch": 7.319062181447503,
      "grad_norm": 0.08379509299993515,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 7180
    },
    {
      "epoch": 7.320081549439347,
      "grad_norm": 0.1143157035112381,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 7181
    },
    {
      "epoch": 7.321100917431193,
      "grad_norm": 0.09352493286132812,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 7182
    },
    {
      "epoch": 7.322120285423038,
      "grad_norm": 0.06106830760836601,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 7183
    },
    {
      "epoch": 7.3231396534148825,
      "grad_norm": 0.0851292833685875,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7184
    },
    {
      "epoch": 7.324159021406728,
      "grad_norm": 0.0988740399479866,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 7185
    },
    {
      "epoch": 7.325178389398573,
      "grad_norm": 0.29775241017341614,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7186
    },
    {
      "epoch": 7.326197757390418,
      "grad_norm": 0.10914455354213715,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 7187
    },
    {
      "epoch": 7.327217125382263,
      "grad_norm": 0.08681607991456985,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7188
    },
    {
      "epoch": 7.328236493374108,
      "grad_norm": 0.11252769827842712,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7189
    },
    {
      "epoch": 7.329255861365953,
      "grad_norm": 0.13569344580173492,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 7190
    },
    {
      "epoch": 7.330275229357798,
      "grad_norm": 0.13763274252414703,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 7191
    },
    {
      "epoch": 7.331294597349643,
      "grad_norm": 0.15055778622627258,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 7192
    },
    {
      "epoch": 7.332313965341489,
      "grad_norm": 0.3021567165851593,
      "learning_rate": 0.001,
      "loss": 0.2197,
      "step": 7193
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.12161711603403091,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 7194
    },
    {
      "epoch": 7.334352701325178,
      "grad_norm": 0.15668998658657074,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 7195
    },
    {
      "epoch": 7.335372069317024,
      "grad_norm": 0.08482664823532104,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 7196
    },
    {
      "epoch": 7.336391437308868,
      "grad_norm": 0.09809114038944244,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 7197
    },
    {
      "epoch": 7.337410805300713,
      "grad_norm": 0.13371670246124268,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 7198
    },
    {
      "epoch": 7.338430173292559,
      "grad_norm": 0.07802019268274307,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 7199
    },
    {
      "epoch": 7.339449541284404,
      "grad_norm": 0.08097220212221146,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 7200
    },
    {
      "epoch": 7.3404689092762485,
      "grad_norm": 0.13124001026153564,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 7201
    },
    {
      "epoch": 7.341488277268094,
      "grad_norm": 0.06605468690395355,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 7202
    },
    {
      "epoch": 7.342507645259939,
      "grad_norm": 0.04256109148263931,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 7203
    },
    {
      "epoch": 7.343527013251784,
      "grad_norm": 0.22537735104560852,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 7204
    },
    {
      "epoch": 7.344546381243629,
      "grad_norm": 0.11533195525407791,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 7205
    },
    {
      "epoch": 7.345565749235474,
      "grad_norm": 0.1296803504228592,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 7206
    },
    {
      "epoch": 7.346585117227319,
      "grad_norm": 0.11315999180078506,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 7207
    },
    {
      "epoch": 7.347604485219164,
      "grad_norm": 0.09371375292539597,
      "learning_rate": 0.001,
      "loss": 0.2258,
      "step": 7208
    },
    {
      "epoch": 7.348623853211009,
      "grad_norm": 0.08524929732084274,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 7209
    },
    {
      "epoch": 7.349643221202855,
      "grad_norm": 0.15892885625362396,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 7210
    },
    {
      "epoch": 7.350662589194699,
      "grad_norm": 0.12609179317951202,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 7211
    },
    {
      "epoch": 7.351681957186544,
      "grad_norm": 0.12845560908317566,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 7212
    },
    {
      "epoch": 7.35270132517839,
      "grad_norm": 0.08212892711162567,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 7213
    },
    {
      "epoch": 7.353720693170234,
      "grad_norm": 0.09126164019107819,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 7214
    },
    {
      "epoch": 7.3547400611620795,
      "grad_norm": 0.16621184349060059,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 7215
    },
    {
      "epoch": 7.355759429153925,
      "grad_norm": 0.06295185536146164,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 7216
    },
    {
      "epoch": 7.356778797145769,
      "grad_norm": 0.21080726385116577,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 7217
    },
    {
      "epoch": 7.3577981651376145,
      "grad_norm": 0.11984851211309433,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 7218
    },
    {
      "epoch": 7.35881753312946,
      "grad_norm": 0.16566844284534454,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 7219
    },
    {
      "epoch": 7.359836901121305,
      "grad_norm": 0.07750653475522995,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 7220
    },
    {
      "epoch": 7.36085626911315,
      "grad_norm": 0.08137831091880798,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 7221
    },
    {
      "epoch": 7.361875637104995,
      "grad_norm": 0.13329818844795227,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 7222
    },
    {
      "epoch": 7.36289500509684,
      "grad_norm": 0.07069387286901474,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 7223
    },
    {
      "epoch": 7.363914373088685,
      "grad_norm": 0.11310047656297684,
      "learning_rate": 0.001,
      "loss": 0.2185,
      "step": 7224
    },
    {
      "epoch": 7.36493374108053,
      "grad_norm": 0.10834971815347672,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 7225
    },
    {
      "epoch": 7.365953109072375,
      "grad_norm": 0.10781162232160568,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 7226
    },
    {
      "epoch": 7.36697247706422,
      "grad_norm": 0.11871951073408127,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 7227
    },
    {
      "epoch": 7.367991845056065,
      "grad_norm": 0.1383986473083496,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 7228
    },
    {
      "epoch": 7.36901121304791,
      "grad_norm": 0.15608611702919006,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7229
    },
    {
      "epoch": 7.370030581039756,
      "grad_norm": 0.09130040556192398,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 7230
    },
    {
      "epoch": 7.3710499490316,
      "grad_norm": 0.0959983766078949,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 7231
    },
    {
      "epoch": 7.3720693170234455,
      "grad_norm": 0.0997658297419548,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 7232
    },
    {
      "epoch": 7.373088685015291,
      "grad_norm": 0.14601191878318787,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 7233
    },
    {
      "epoch": 7.374108053007135,
      "grad_norm": 0.057420674711465836,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 7234
    },
    {
      "epoch": 7.3751274209989806,
      "grad_norm": 0.10414686053991318,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 7235
    },
    {
      "epoch": 7.376146788990826,
      "grad_norm": 0.12430579215288162,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 7236
    },
    {
      "epoch": 7.377166156982671,
      "grad_norm": 0.13879097998142242,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 7237
    },
    {
      "epoch": 7.378185524974516,
      "grad_norm": 0.13567177951335907,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7238
    },
    {
      "epoch": 7.379204892966361,
      "grad_norm": 0.09668570756912231,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 7239
    },
    {
      "epoch": 7.380224260958206,
      "grad_norm": 0.08518404513597488,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 7240
    },
    {
      "epoch": 7.381243628950051,
      "grad_norm": 0.1588512510061264,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 7241
    },
    {
      "epoch": 7.382262996941896,
      "grad_norm": 0.053731467574834824,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 7242
    },
    {
      "epoch": 7.383282364933741,
      "grad_norm": 0.12613585591316223,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 7243
    },
    {
      "epoch": 7.384301732925586,
      "grad_norm": 0.10887443274259567,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 7244
    },
    {
      "epoch": 7.385321100917431,
      "grad_norm": 0.10237526893615723,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7245
    },
    {
      "epoch": 7.386340468909276,
      "grad_norm": 0.12044234573841095,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 7246
    },
    {
      "epoch": 7.387359836901121,
      "grad_norm": 0.16854766011238098,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 7247
    },
    {
      "epoch": 7.388379204892966,
      "grad_norm": 0.17014449834823608,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 7248
    },
    {
      "epoch": 7.3893985728848115,
      "grad_norm": 0.1039520651102066,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 7249
    },
    {
      "epoch": 7.390417940876657,
      "grad_norm": 0.219936341047287,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 7250
    },
    {
      "epoch": 7.391437308868501,
      "grad_norm": 0.09043318033218384,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 7251
    },
    {
      "epoch": 7.392456676860347,
      "grad_norm": 0.16827081143856049,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 7252
    },
    {
      "epoch": 7.393476044852192,
      "grad_norm": 0.11833145469427109,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 7253
    },
    {
      "epoch": 7.394495412844036,
      "grad_norm": 0.11572941392660141,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 7254
    },
    {
      "epoch": 7.395514780835882,
      "grad_norm": 0.15277041494846344,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 7255
    },
    {
      "epoch": 7.396534148827727,
      "grad_norm": 0.08099525421857834,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 7256
    },
    {
      "epoch": 7.397553516819572,
      "grad_norm": 0.11867005378007889,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 7257
    },
    {
      "epoch": 7.398572884811417,
      "grad_norm": 0.12262176722288132,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 7258
    },
    {
      "epoch": 7.399592252803262,
      "grad_norm": 0.12636888027191162,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 7259
    },
    {
      "epoch": 7.400611620795107,
      "grad_norm": 0.07140769809484482,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 7260
    },
    {
      "epoch": 7.401630988786952,
      "grad_norm": 0.05497924983501434,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 7261
    },
    {
      "epoch": 7.402650356778797,
      "grad_norm": 0.0993182584643364,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 7262
    },
    {
      "epoch": 7.4036697247706424,
      "grad_norm": 0.11669682711362839,
      "learning_rate": 0.001,
      "loss": 0.1631,
      "step": 7263
    },
    {
      "epoch": 7.404689092762487,
      "grad_norm": 0.10350590199232101,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 7264
    },
    {
      "epoch": 7.405708460754332,
      "grad_norm": 0.0755617618560791,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7265
    },
    {
      "epoch": 7.4067278287461775,
      "grad_norm": 0.10682867467403412,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 7266
    },
    {
      "epoch": 7.407747196738022,
      "grad_norm": 0.06246470659971237,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 7267
    },
    {
      "epoch": 7.408766564729867,
      "grad_norm": 0.07179754972457886,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 7268
    },
    {
      "epoch": 7.409785932721713,
      "grad_norm": 0.1687173843383789,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 7269
    },
    {
      "epoch": 7.410805300713558,
      "grad_norm": 0.12344338744878769,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 7270
    },
    {
      "epoch": 7.411824668705402,
      "grad_norm": 0.15948349237442017,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 7271
    },
    {
      "epoch": 7.412844036697248,
      "grad_norm": 0.0631483793258667,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 7272
    },
    {
      "epoch": 7.413863404689093,
      "grad_norm": 0.09622929245233536,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 7273
    },
    {
      "epoch": 7.414882772680937,
      "grad_norm": 0.09527347981929779,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 7274
    },
    {
      "epoch": 7.415902140672783,
      "grad_norm": 0.133319690823555,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 7275
    },
    {
      "epoch": 7.416921508664628,
      "grad_norm": 0.11946915090084076,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 7276
    },
    {
      "epoch": 7.417940876656473,
      "grad_norm": 0.12238210439682007,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 7277
    },
    {
      "epoch": 7.418960244648318,
      "grad_norm": 0.09927968680858612,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7278
    },
    {
      "epoch": 7.419979612640163,
      "grad_norm": 0.07845612615346909,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 7279
    },
    {
      "epoch": 7.4209989806320085,
      "grad_norm": 0.1036103218793869,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7280
    },
    {
      "epoch": 7.422018348623853,
      "grad_norm": 0.13228672742843628,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 7281
    },
    {
      "epoch": 7.423037716615698,
      "grad_norm": 0.09503263235092163,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 7282
    },
    {
      "epoch": 7.4240570846075435,
      "grad_norm": 0.08784915506839752,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 7283
    },
    {
      "epoch": 7.425076452599388,
      "grad_norm": 0.1013619601726532,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7284
    },
    {
      "epoch": 7.426095820591233,
      "grad_norm": 0.10047509521245956,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 7285
    },
    {
      "epoch": 7.427115188583079,
      "grad_norm": 0.25248661637306213,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 7286
    },
    {
      "epoch": 7.428134556574924,
      "grad_norm": 0.20803864300251007,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 7287
    },
    {
      "epoch": 7.429153924566768,
      "grad_norm": 0.0698731318116188,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 7288
    },
    {
      "epoch": 7.430173292558614,
      "grad_norm": 0.14788033068180084,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 7289
    },
    {
      "epoch": 7.431192660550459,
      "grad_norm": 0.2082194685935974,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 7290
    },
    {
      "epoch": 7.4322120285423035,
      "grad_norm": 0.10032183676958084,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 7291
    },
    {
      "epoch": 7.433231396534149,
      "grad_norm": 0.08283311873674393,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 7292
    },
    {
      "epoch": 7.434250764525994,
      "grad_norm": 0.10326419770717621,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 7293
    },
    {
      "epoch": 7.4352701325178385,
      "grad_norm": 0.08510543406009674,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7294
    },
    {
      "epoch": 7.436289500509684,
      "grad_norm": 0.16261284053325653,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 7295
    },
    {
      "epoch": 7.437308868501529,
      "grad_norm": 0.1575058102607727,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 7296
    },
    {
      "epoch": 7.4383282364933745,
      "grad_norm": 0.15352791547775269,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 7297
    },
    {
      "epoch": 7.439347604485219,
      "grad_norm": 0.15664683282375336,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 7298
    },
    {
      "epoch": 7.440366972477064,
      "grad_norm": 0.15185430645942688,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 7299
    },
    {
      "epoch": 7.44138634046891,
      "grad_norm": 0.1036602184176445,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 7300
    },
    {
      "epoch": 7.442405708460754,
      "grad_norm": 0.08447811007499695,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7301
    },
    {
      "epoch": 7.443425076452599,
      "grad_norm": 0.13260413706302643,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 7302
    },
    {
      "epoch": 7.444444444444445,
      "grad_norm": 0.4044496417045593,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 7303
    },
    {
      "epoch": 7.445463812436289,
      "grad_norm": 0.10476835072040558,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 7304
    },
    {
      "epoch": 7.446483180428134,
      "grad_norm": 0.08235735446214676,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 7305
    },
    {
      "epoch": 7.44750254841998,
      "grad_norm": 0.11816336959600449,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 7306
    },
    {
      "epoch": 7.448521916411825,
      "grad_norm": 0.22972960770130157,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 7307
    },
    {
      "epoch": 7.4495412844036695,
      "grad_norm": 0.1330215334892273,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 7308
    },
    {
      "epoch": 7.450560652395515,
      "grad_norm": 0.1332738697528839,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 7309
    },
    {
      "epoch": 7.45158002038736,
      "grad_norm": 0.10381316393613815,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7310
    },
    {
      "epoch": 7.4525993883792045,
      "grad_norm": 0.09725048393011093,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 7311
    },
    {
      "epoch": 7.45361875637105,
      "grad_norm": 0.10264122486114502,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 7312
    },
    {
      "epoch": 7.454638124362895,
      "grad_norm": 0.1150636374950409,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 7313
    },
    {
      "epoch": 7.4556574923547405,
      "grad_norm": 0.09594988822937012,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 7314
    },
    {
      "epoch": 7.456676860346585,
      "grad_norm": 0.17639248073101044,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 7315
    },
    {
      "epoch": 7.45769622833843,
      "grad_norm": 0.26265856623649597,
      "learning_rate": 0.001,
      "loss": 0.2318,
      "step": 7316
    },
    {
      "epoch": 7.458715596330276,
      "grad_norm": 0.08399036526679993,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 7317
    },
    {
      "epoch": 7.45973496432212,
      "grad_norm": 0.11439043283462524,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 7318
    },
    {
      "epoch": 7.460754332313965,
      "grad_norm": 0.2863065302371979,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 7319
    },
    {
      "epoch": 7.461773700305811,
      "grad_norm": 0.16367504000663757,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 7320
    },
    {
      "epoch": 7.462793068297655,
      "grad_norm": 0.17248502373695374,
      "learning_rate": 0.001,
      "loss": 0.2238,
      "step": 7321
    },
    {
      "epoch": 7.4638124362895,
      "grad_norm": 0.13765202462673187,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 7322
    },
    {
      "epoch": 7.464831804281346,
      "grad_norm": 0.1115792989730835,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 7323
    },
    {
      "epoch": 7.46585117227319,
      "grad_norm": 0.27268776297569275,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 7324
    },
    {
      "epoch": 7.4668705402650355,
      "grad_norm": 0.07008486241102219,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 7325
    },
    {
      "epoch": 7.467889908256881,
      "grad_norm": 0.17395015060901642,
      "learning_rate": 0.001,
      "loss": 0.2079,
      "step": 7326
    },
    {
      "epoch": 7.468909276248726,
      "grad_norm": 0.19243764877319336,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 7327
    },
    {
      "epoch": 7.469928644240571,
      "grad_norm": 0.07631319016218185,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 7328
    },
    {
      "epoch": 7.470948012232416,
      "grad_norm": 0.10418659448623657,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 7329
    },
    {
      "epoch": 7.471967380224261,
      "grad_norm": 0.15976561605930328,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 7330
    },
    {
      "epoch": 7.472986748216106,
      "grad_norm": 0.07874750345945358,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 7331
    },
    {
      "epoch": 7.474006116207951,
      "grad_norm": 0.10914307832717896,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 7332
    },
    {
      "epoch": 7.475025484199796,
      "grad_norm": 0.16702499985694885,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 7333
    },
    {
      "epoch": 7.476044852191642,
      "grad_norm": 0.12482964992523193,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7334
    },
    {
      "epoch": 7.477064220183486,
      "grad_norm": 0.11653964221477509,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 7335
    },
    {
      "epoch": 7.478083588175331,
      "grad_norm": 0.16711723804473877,
      "learning_rate": 0.001,
      "loss": 0.2263,
      "step": 7336
    },
    {
      "epoch": 7.479102956167177,
      "grad_norm": 0.12612484395503998,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 7337
    },
    {
      "epoch": 7.480122324159021,
      "grad_norm": 0.14829900860786438,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 7338
    },
    {
      "epoch": 7.481141692150866,
      "grad_norm": 0.116768479347229,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 7339
    },
    {
      "epoch": 7.482161060142712,
      "grad_norm": 0.10011912137269974,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 7340
    },
    {
      "epoch": 7.483180428134556,
      "grad_norm": 0.33719101548194885,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 7341
    },
    {
      "epoch": 7.4841997961264015,
      "grad_norm": 0.11193130165338516,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 7342
    },
    {
      "epoch": 7.485219164118247,
      "grad_norm": 0.1513696312904358,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 7343
    },
    {
      "epoch": 7.486238532110092,
      "grad_norm": 0.11001092940568924,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 7344
    },
    {
      "epoch": 7.487257900101937,
      "grad_norm": 0.10255809873342514,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7345
    },
    {
      "epoch": 7.488277268093782,
      "grad_norm": 0.09617230296134949,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 7346
    },
    {
      "epoch": 7.489296636085627,
      "grad_norm": 0.09423170238733292,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 7347
    },
    {
      "epoch": 7.490316004077472,
      "grad_norm": 0.09912462532520294,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 7348
    },
    {
      "epoch": 7.491335372069317,
      "grad_norm": 0.11239036172628403,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 7349
    },
    {
      "epoch": 7.492354740061162,
      "grad_norm": 0.07284792512655258,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7350
    },
    {
      "epoch": 7.493374108053007,
      "grad_norm": 0.07614266872406006,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 7351
    },
    {
      "epoch": 7.494393476044852,
      "grad_norm": 0.10958509147167206,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7352
    },
    {
      "epoch": 7.495412844036697,
      "grad_norm": 0.12172041833400726,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 7353
    },
    {
      "epoch": 7.496432212028543,
      "grad_norm": 0.10009774565696716,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 7354
    },
    {
      "epoch": 7.497451580020387,
      "grad_norm": 0.1462901532649994,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 7355
    },
    {
      "epoch": 7.4984709480122325,
      "grad_norm": 0.16470809280872345,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 7356
    },
    {
      "epoch": 7.499490316004078,
      "grad_norm": 0.12071622163057327,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 7357
    },
    {
      "epoch": 7.500509683995922,
      "grad_norm": 0.0694723054766655,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 7358
    },
    {
      "epoch": 7.5015290519877675,
      "grad_norm": 0.19058196246623993,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 7359
    },
    {
      "epoch": 7.502548419979613,
      "grad_norm": 0.20724624395370483,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 7360
    },
    {
      "epoch": 7.503567787971457,
      "grad_norm": 0.12176329642534256,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 7361
    },
    {
      "epoch": 7.504587155963303,
      "grad_norm": 0.1004650667309761,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 7362
    },
    {
      "epoch": 7.505606523955148,
      "grad_norm": 0.1304825246334076,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 7363
    },
    {
      "epoch": 7.506625891946992,
      "grad_norm": 0.06518548727035522,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 7364
    },
    {
      "epoch": 7.507645259938838,
      "grad_norm": 0.11272525787353516,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 7365
    },
    {
      "epoch": 7.508664627930683,
      "grad_norm": 0.11212184280157089,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 7366
    },
    {
      "epoch": 7.509683995922528,
      "grad_norm": 0.17422807216644287,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 7367
    },
    {
      "epoch": 7.510703363914373,
      "grad_norm": 0.08350170403718948,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 7368
    },
    {
      "epoch": 7.511722731906218,
      "grad_norm": 0.14983516931533813,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 7369
    },
    {
      "epoch": 7.512742099898063,
      "grad_norm": 0.11676378548145294,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 7370
    },
    {
      "epoch": 7.513761467889909,
      "grad_norm": 0.07210229337215424,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 7371
    },
    {
      "epoch": 7.514780835881753,
      "grad_norm": 0.07070843875408173,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7372
    },
    {
      "epoch": 7.5158002038735985,
      "grad_norm": 0.15687589347362518,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 7373
    },
    {
      "epoch": 7.516819571865444,
      "grad_norm": 0.18878303468227386,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 7374
    },
    {
      "epoch": 7.517838939857288,
      "grad_norm": 0.10826818645000458,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 7375
    },
    {
      "epoch": 7.518858307849134,
      "grad_norm": 0.12126949429512024,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7376
    },
    {
      "epoch": 7.519877675840979,
      "grad_norm": 0.1932988464832306,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 7377
    },
    {
      "epoch": 7.520897043832823,
      "grad_norm": 0.1436055302619934,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 7378
    },
    {
      "epoch": 7.521916411824669,
      "grad_norm": 0.11725249141454697,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 7379
    },
    {
      "epoch": 7.522935779816514,
      "grad_norm": 0.08944237977266312,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 7380
    },
    {
      "epoch": 7.523955147808358,
      "grad_norm": 0.25217968225479126,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 7381
    },
    {
      "epoch": 7.524974515800204,
      "grad_norm": 0.1665111780166626,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 7382
    },
    {
      "epoch": 7.525993883792049,
      "grad_norm": 0.0959838479757309,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 7383
    },
    {
      "epoch": 7.527013251783894,
      "grad_norm": 0.21303287148475647,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 7384
    },
    {
      "epoch": 7.528032619775739,
      "grad_norm": 0.12837569415569305,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 7385
    },
    {
      "epoch": 7.529051987767584,
      "grad_norm": 0.09234891086816788,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 7386
    },
    {
      "epoch": 7.530071355759429,
      "grad_norm": 0.14288678765296936,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 7387
    },
    {
      "epoch": 7.531090723751274,
      "grad_norm": 0.14806224405765533,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 7388
    },
    {
      "epoch": 7.532110091743119,
      "grad_norm": 0.1001310721039772,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 7389
    },
    {
      "epoch": 7.5331294597349645,
      "grad_norm": 0.11785034835338593,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 7390
    },
    {
      "epoch": 7.53414882772681,
      "grad_norm": 0.07574516534805298,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 7391
    },
    {
      "epoch": 7.535168195718654,
      "grad_norm": 0.09803298115730286,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 7392
    },
    {
      "epoch": 7.5361875637105,
      "grad_norm": 0.0824221596121788,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 7393
    },
    {
      "epoch": 7.537206931702345,
      "grad_norm": 0.14262330532073975,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 7394
    },
    {
      "epoch": 7.538226299694189,
      "grad_norm": 0.09844163805246353,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 7395
    },
    {
      "epoch": 7.539245667686035,
      "grad_norm": 0.13684597611427307,
      "learning_rate": 0.001,
      "loss": 0.2235,
      "step": 7396
    },
    {
      "epoch": 7.54026503567788,
      "grad_norm": 0.08910709619522095,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 7397
    },
    {
      "epoch": 7.541284403669724,
      "grad_norm": 0.13113512098789215,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 7398
    },
    {
      "epoch": 7.54230377166157,
      "grad_norm": 0.11688166856765747,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 7399
    },
    {
      "epoch": 7.543323139653415,
      "grad_norm": 0.09596127271652222,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 7400
    },
    {
      "epoch": 7.5443425076452595,
      "grad_norm": 0.08001360297203064,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 7401
    },
    {
      "epoch": 7.545361875637105,
      "grad_norm": 0.2145194262266159,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 7402
    },
    {
      "epoch": 7.54638124362895,
      "grad_norm": 0.11405062675476074,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 7403
    },
    {
      "epoch": 7.5474006116207955,
      "grad_norm": 0.10822615772485733,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 7404
    },
    {
      "epoch": 7.54841997961264,
      "grad_norm": 0.16342322528362274,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 7405
    },
    {
      "epoch": 7.549439347604485,
      "grad_norm": 0.12153120338916779,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 7406
    },
    {
      "epoch": 7.5504587155963305,
      "grad_norm": 0.19424764811992645,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 7407
    },
    {
      "epoch": 7.551478083588175,
      "grad_norm": 0.15566740930080414,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 7408
    },
    {
      "epoch": 7.55249745158002,
      "grad_norm": 0.12901842594146729,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 7409
    },
    {
      "epoch": 7.553516819571866,
      "grad_norm": 0.10016428679227829,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7410
    },
    {
      "epoch": 7.554536187563711,
      "grad_norm": 0.08704240620136261,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7411
    },
    {
      "epoch": 7.555555555555555,
      "grad_norm": 0.160608172416687,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7412
    },
    {
      "epoch": 7.556574923547401,
      "grad_norm": 0.1264726221561432,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7413
    },
    {
      "epoch": 7.557594291539246,
      "grad_norm": 0.1651095747947693,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 7414
    },
    {
      "epoch": 7.55861365953109,
      "grad_norm": 0.3088812232017517,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 7415
    },
    {
      "epoch": 7.559633027522936,
      "grad_norm": 0.16549094021320343,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 7416
    },
    {
      "epoch": 7.560652395514781,
      "grad_norm": 0.06785037368535995,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 7417
    },
    {
      "epoch": 7.5616717635066255,
      "grad_norm": 0.06929783523082733,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 7418
    },
    {
      "epoch": 7.562691131498471,
      "grad_norm": 0.06286371499300003,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 7419
    },
    {
      "epoch": 7.563710499490316,
      "grad_norm": 0.08763178437948227,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 7420
    },
    {
      "epoch": 7.564729867482161,
      "grad_norm": 0.09052518755197525,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 7421
    },
    {
      "epoch": 7.565749235474006,
      "grad_norm": 0.1369505077600479,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 7422
    },
    {
      "epoch": 7.566768603465851,
      "grad_norm": 0.12091527134180069,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 7423
    },
    {
      "epoch": 7.5677879714576965,
      "grad_norm": 0.10263089090585709,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 7424
    },
    {
      "epoch": 7.568807339449541,
      "grad_norm": 0.12266629934310913,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 7425
    },
    {
      "epoch": 7.569826707441386,
      "grad_norm": 0.13714398443698883,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 7426
    },
    {
      "epoch": 7.570846075433232,
      "grad_norm": 0.1335206925868988,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 7427
    },
    {
      "epoch": 7.571865443425077,
      "grad_norm": 0.11380365490913391,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 7428
    },
    {
      "epoch": 7.572884811416921,
      "grad_norm": 0.10620160400867462,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 7429
    },
    {
      "epoch": 7.573904179408767,
      "grad_norm": 0.08005549758672714,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7430
    },
    {
      "epoch": 7.574923547400612,
      "grad_norm": 0.08411525189876556,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 7431
    },
    {
      "epoch": 7.5759429153924565,
      "grad_norm": 0.06551308184862137,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7432
    },
    {
      "epoch": 7.576962283384302,
      "grad_norm": 0.07608120888471603,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 7433
    },
    {
      "epoch": 7.577981651376147,
      "grad_norm": 0.13603097200393677,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 7434
    },
    {
      "epoch": 7.5790010193679915,
      "grad_norm": 0.07786420732736588,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 7435
    },
    {
      "epoch": 7.580020387359837,
      "grad_norm": 0.12880238890647888,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7436
    },
    {
      "epoch": 7.581039755351682,
      "grad_norm": 0.15677694976329803,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 7437
    },
    {
      "epoch": 7.582059123343527,
      "grad_norm": 0.11002364009618759,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7438
    },
    {
      "epoch": 7.583078491335372,
      "grad_norm": 0.13436469435691833,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 7439
    },
    {
      "epoch": 7.584097859327217,
      "grad_norm": 0.21985971927642822,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 7440
    },
    {
      "epoch": 7.585117227319062,
      "grad_norm": 0.09908108413219452,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7441
    },
    {
      "epoch": 7.586136595310907,
      "grad_norm": 0.1637924760580063,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7442
    },
    {
      "epoch": 7.587155963302752,
      "grad_norm": 0.0725245550274849,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 7443
    },
    {
      "epoch": 7.588175331294598,
      "grad_norm": 0.2007792741060257,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 7444
    },
    {
      "epoch": 7.589194699286442,
      "grad_norm": 0.15189285576343536,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 7445
    },
    {
      "epoch": 7.590214067278287,
      "grad_norm": 0.10000073164701462,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 7446
    },
    {
      "epoch": 7.591233435270133,
      "grad_norm": 0.1591257005929947,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 7447
    },
    {
      "epoch": 7.592252803261978,
      "grad_norm": 0.1471131443977356,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 7448
    },
    {
      "epoch": 7.5932721712538225,
      "grad_norm": 0.09995083510875702,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 7449
    },
    {
      "epoch": 7.594291539245668,
      "grad_norm": 0.14818531274795532,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 7450
    },
    {
      "epoch": 7.595310907237513,
      "grad_norm": 0.15811429917812347,
      "learning_rate": 0.001,
      "loss": 0.2134,
      "step": 7451
    },
    {
      "epoch": 7.5963302752293576,
      "grad_norm": 0.04669585078954697,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 7452
    },
    {
      "epoch": 7.597349643221203,
      "grad_norm": 0.0818348303437233,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7453
    },
    {
      "epoch": 7.598369011213048,
      "grad_norm": 0.15050166845321655,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 7454
    },
    {
      "epoch": 7.599388379204893,
      "grad_norm": 0.11974183470010757,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 7455
    },
    {
      "epoch": 7.600407747196738,
      "grad_norm": 0.11782874912023544,
      "learning_rate": 0.001,
      "loss": 0.2131,
      "step": 7456
    },
    {
      "epoch": 7.601427115188583,
      "grad_norm": 0.05695588141679764,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7457
    },
    {
      "epoch": 7.602446483180428,
      "grad_norm": 0.16493742167949677,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 7458
    },
    {
      "epoch": 7.603465851172273,
      "grad_norm": 0.11110660433769226,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 7459
    },
    {
      "epoch": 7.604485219164118,
      "grad_norm": 0.06548021733760834,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 7460
    },
    {
      "epoch": 7.605504587155964,
      "grad_norm": 0.12111087143421173,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 7461
    },
    {
      "epoch": 7.606523955147808,
      "grad_norm": 0.11934593319892883,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 7462
    },
    {
      "epoch": 7.607543323139653,
      "grad_norm": 0.09774041175842285,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 7463
    },
    {
      "epoch": 7.608562691131499,
      "grad_norm": 0.09816163778305054,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 7464
    },
    {
      "epoch": 7.609582059123343,
      "grad_norm": 0.12237012386322021,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 7465
    },
    {
      "epoch": 7.6106014271151885,
      "grad_norm": 0.06161079928278923,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7466
    },
    {
      "epoch": 7.611620795107034,
      "grad_norm": 0.11887597292661667,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 7467
    },
    {
      "epoch": 7.612640163098879,
      "grad_norm": 0.11882033944129944,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 7468
    },
    {
      "epoch": 7.613659531090724,
      "grad_norm": 0.11252973973751068,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 7469
    },
    {
      "epoch": 7.614678899082569,
      "grad_norm": 0.06785891950130463,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 7470
    },
    {
      "epoch": 7.615698267074414,
      "grad_norm": 0.09756027162075043,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 7471
    },
    {
      "epoch": 7.616717635066259,
      "grad_norm": 0.13224980235099792,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7472
    },
    {
      "epoch": 7.617737003058104,
      "grad_norm": 0.11464826762676239,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 7473
    },
    {
      "epoch": 7.618756371049949,
      "grad_norm": 0.15308645367622375,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 7474
    },
    {
      "epoch": 7.619775739041794,
      "grad_norm": 0.16661179065704346,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 7475
    },
    {
      "epoch": 7.620795107033639,
      "grad_norm": 0.13858051598072052,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7476
    },
    {
      "epoch": 7.621814475025484,
      "grad_norm": 0.34691205620765686,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 7477
    },
    {
      "epoch": 7.622833843017329,
      "grad_norm": 0.10549299418926239,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 7478
    },
    {
      "epoch": 7.623853211009174,
      "grad_norm": 0.10192273557186127,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 7479
    },
    {
      "epoch": 7.6248725790010194,
      "grad_norm": 0.09173885732889175,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 7480
    },
    {
      "epoch": 7.625891946992865,
      "grad_norm": 0.11645480990409851,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 7481
    },
    {
      "epoch": 7.626911314984709,
      "grad_norm": 0.08892921358346939,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 7482
    },
    {
      "epoch": 7.6279306829765545,
      "grad_norm": 0.10487046092748642,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 7483
    },
    {
      "epoch": 7.6289500509684,
      "grad_norm": 0.06778011471033096,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7484
    },
    {
      "epoch": 7.629969418960244,
      "grad_norm": 0.19848798215389252,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 7485
    },
    {
      "epoch": 7.63098878695209,
      "grad_norm": 0.08280904591083527,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7486
    },
    {
      "epoch": 7.632008154943935,
      "grad_norm": 0.12645968794822693,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 7487
    },
    {
      "epoch": 7.63302752293578,
      "grad_norm": 0.08593033999204636,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7488
    },
    {
      "epoch": 7.634046890927625,
      "grad_norm": 0.06900867074728012,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 7489
    },
    {
      "epoch": 7.63506625891947,
      "grad_norm": 0.08926329761743546,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7490
    },
    {
      "epoch": 7.636085626911315,
      "grad_norm": 0.14267677068710327,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 7491
    },
    {
      "epoch": 7.63710499490316,
      "grad_norm": 0.10727809369564056,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 7492
    },
    {
      "epoch": 7.638124362895005,
      "grad_norm": 0.12867328524589539,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 7493
    },
    {
      "epoch": 7.63914373088685,
      "grad_norm": 0.12766849994659424,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 7494
    },
    {
      "epoch": 7.640163098878695,
      "grad_norm": 0.10216976702213287,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 7495
    },
    {
      "epoch": 7.64118246687054,
      "grad_norm": 0.09755145013332367,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 7496
    },
    {
      "epoch": 7.6422018348623855,
      "grad_norm": 0.1396556794643402,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 7497
    },
    {
      "epoch": 7.64322120285423,
      "grad_norm": 0.08536013215780258,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 7498
    },
    {
      "epoch": 7.644240570846075,
      "grad_norm": 0.08741641789674759,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 7499
    },
    {
      "epoch": 7.6452599388379205,
      "grad_norm": 0.11615771800279617,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 7500
    },
    {
      "epoch": 7.646279306829766,
      "grad_norm": 0.12936171889305115,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 7501
    },
    {
      "epoch": 7.64729867482161,
      "grad_norm": 0.07940196245908737,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 7502
    },
    {
      "epoch": 7.648318042813456,
      "grad_norm": 0.17841948568820953,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 7503
    },
    {
      "epoch": 7.649337410805301,
      "grad_norm": 0.06448137760162354,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 7504
    },
    {
      "epoch": 7.650356778797146,
      "grad_norm": 0.12410903722047806,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 7505
    },
    {
      "epoch": 7.651376146788991,
      "grad_norm": 0.09200920909643173,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 7506
    },
    {
      "epoch": 7.652395514780836,
      "grad_norm": 0.08427821099758148,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 7507
    },
    {
      "epoch": 7.653414882772681,
      "grad_norm": 0.14749199151992798,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 7508
    },
    {
      "epoch": 7.654434250764526,
      "grad_norm": 0.35209494829177856,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7509
    },
    {
      "epoch": 7.655453618756371,
      "grad_norm": 0.09698784351348877,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 7510
    },
    {
      "epoch": 7.656472986748216,
      "grad_norm": 0.08287735283374786,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 7511
    },
    {
      "epoch": 7.657492354740061,
      "grad_norm": 0.06704392284154892,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 7512
    },
    {
      "epoch": 7.658511722731906,
      "grad_norm": 0.058476611971855164,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 7513
    },
    {
      "epoch": 7.6595310907237515,
      "grad_norm": 0.07237763702869415,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 7514
    },
    {
      "epoch": 7.660550458715596,
      "grad_norm": 0.09503033012151718,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 7515
    },
    {
      "epoch": 7.661569826707441,
      "grad_norm": 0.08383311331272125,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 7516
    },
    {
      "epoch": 7.662589194699287,
      "grad_norm": 0.15052145719528198,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 7517
    },
    {
      "epoch": 7.663608562691132,
      "grad_norm": 0.07917208969593048,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 7518
    },
    {
      "epoch": 7.664627930682976,
      "grad_norm": 0.09040409326553345,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 7519
    },
    {
      "epoch": 7.665647298674822,
      "grad_norm": 0.31321150064468384,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7520
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.14542585611343384,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7521
    },
    {
      "epoch": 7.667686034658511,
      "grad_norm": 0.08526802062988281,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 7522
    },
    {
      "epoch": 7.668705402650357,
      "grad_norm": 0.10338662564754486,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 7523
    },
    {
      "epoch": 7.669724770642202,
      "grad_norm": 0.09710419923067093,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 7524
    },
    {
      "epoch": 7.670744138634047,
      "grad_norm": 0.11084634065628052,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 7525
    },
    {
      "epoch": 7.671763506625892,
      "grad_norm": 0.12088380008935928,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 7526
    },
    {
      "epoch": 7.672782874617737,
      "grad_norm": 0.08513740450143814,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 7527
    },
    {
      "epoch": 7.673802242609582,
      "grad_norm": 0.09904403984546661,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 7528
    },
    {
      "epoch": 7.674821610601427,
      "grad_norm": 0.10271506756544113,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 7529
    },
    {
      "epoch": 7.675840978593272,
      "grad_norm": 0.11281551420688629,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 7530
    },
    {
      "epoch": 7.6768603465851175,
      "grad_norm": 0.12747710943222046,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 7531
    },
    {
      "epoch": 7.677879714576962,
      "grad_norm": 0.09848011285066605,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 7532
    },
    {
      "epoch": 7.678899082568807,
      "grad_norm": 0.26743683218955994,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 7533
    },
    {
      "epoch": 7.679918450560653,
      "grad_norm": 0.11037693172693253,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 7534
    },
    {
      "epoch": 7.680937818552497,
      "grad_norm": 0.15589852631092072,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 7535
    },
    {
      "epoch": 7.681957186544342,
      "grad_norm": 0.11229649931192398,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 7536
    },
    {
      "epoch": 7.682976554536188,
      "grad_norm": 0.27905285358428955,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 7537
    },
    {
      "epoch": 7.683995922528033,
      "grad_norm": 0.11768745630979538,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 7538
    },
    {
      "epoch": 7.685015290519877,
      "grad_norm": 0.12001630663871765,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 7539
    },
    {
      "epoch": 7.686034658511723,
      "grad_norm": 0.15535879135131836,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7540
    },
    {
      "epoch": 7.687054026503568,
      "grad_norm": 0.06945071369409561,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7541
    },
    {
      "epoch": 7.6880733944954125,
      "grad_norm": 0.07323363423347473,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 7542
    },
    {
      "epoch": 7.689092762487258,
      "grad_norm": 0.07168839871883392,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 7543
    },
    {
      "epoch": 7.690112130479103,
      "grad_norm": 0.09112293273210526,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7544
    },
    {
      "epoch": 7.6911314984709485,
      "grad_norm": 0.06828026473522186,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 7545
    },
    {
      "epoch": 7.692150866462793,
      "grad_norm": 0.0781288743019104,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 7546
    },
    {
      "epoch": 7.693170234454638,
      "grad_norm": 0.16739727556705475,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 7547
    },
    {
      "epoch": 7.6941896024464835,
      "grad_norm": 0.14337345957756042,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 7548
    },
    {
      "epoch": 7.695208970438328,
      "grad_norm": 0.21880470216274261,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 7549
    },
    {
      "epoch": 7.696228338430173,
      "grad_norm": 0.09431733191013336,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7550
    },
    {
      "epoch": 7.697247706422019,
      "grad_norm": 0.09347226470708847,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 7551
    },
    {
      "epoch": 7.698267074413863,
      "grad_norm": 0.071153923869133,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 7552
    },
    {
      "epoch": 7.699286442405708,
      "grad_norm": 0.10934127867221832,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 7553
    },
    {
      "epoch": 7.700305810397554,
      "grad_norm": 0.0895538181066513,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 7554
    },
    {
      "epoch": 7.701325178389398,
      "grad_norm": 0.10976207256317139,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 7555
    },
    {
      "epoch": 7.702344546381243,
      "grad_norm": 0.11433707177639008,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 7556
    },
    {
      "epoch": 7.703363914373089,
      "grad_norm": 0.10546073317527771,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 7557
    },
    {
      "epoch": 7.704383282364934,
      "grad_norm": 0.102411188185215,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7558
    },
    {
      "epoch": 7.7054026503567785,
      "grad_norm": 0.12568342685699463,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 7559
    },
    {
      "epoch": 7.706422018348624,
      "grad_norm": 0.1392994374036789,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 7560
    },
    {
      "epoch": 7.707441386340469,
      "grad_norm": 0.20426085591316223,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 7561
    },
    {
      "epoch": 7.708460754332314,
      "grad_norm": 0.10688187181949615,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 7562
    },
    {
      "epoch": 7.709480122324159,
      "grad_norm": 0.0839376151561737,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7563
    },
    {
      "epoch": 7.710499490316004,
      "grad_norm": 0.13810864090919495,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 7564
    },
    {
      "epoch": 7.7115188583078496,
      "grad_norm": 0.10131042450666428,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 7565
    },
    {
      "epoch": 7.712538226299694,
      "grad_norm": 0.10506691783666611,
      "learning_rate": 0.001,
      "loss": 0.2155,
      "step": 7566
    },
    {
      "epoch": 7.713557594291539,
      "grad_norm": 0.06490852683782578,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 7567
    },
    {
      "epoch": 7.714576962283385,
      "grad_norm": 0.11955736577510834,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 7568
    },
    {
      "epoch": 7.715596330275229,
      "grad_norm": 0.10578181594610214,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 7569
    },
    {
      "epoch": 7.716615698267074,
      "grad_norm": 0.09287089109420776,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 7570
    },
    {
      "epoch": 7.71763506625892,
      "grad_norm": 0.11975504457950592,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 7571
    },
    {
      "epoch": 7.718654434250764,
      "grad_norm": 0.1387929618358612,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 7572
    },
    {
      "epoch": 7.7196738022426095,
      "grad_norm": 0.07494939863681793,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 7573
    },
    {
      "epoch": 7.720693170234455,
      "grad_norm": 0.1006443053483963,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 7574
    },
    {
      "epoch": 7.721712538226299,
      "grad_norm": 0.07683417201042175,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 7575
    },
    {
      "epoch": 7.7227319062181445,
      "grad_norm": 0.07400591671466827,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 7576
    },
    {
      "epoch": 7.72375127420999,
      "grad_norm": 0.10974787175655365,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 7577
    },
    {
      "epoch": 7.724770642201835,
      "grad_norm": 0.10912215709686279,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7578
    },
    {
      "epoch": 7.72579001019368,
      "grad_norm": 0.11964695900678635,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 7579
    },
    {
      "epoch": 7.726809378185525,
      "grad_norm": 0.11513270437717438,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 7580
    },
    {
      "epoch": 7.72782874617737,
      "grad_norm": 0.07867815345525742,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 7581
    },
    {
      "epoch": 7.728848114169216,
      "grad_norm": 0.19519077241420746,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 7582
    },
    {
      "epoch": 7.72986748216106,
      "grad_norm": 0.11485544592142105,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7583
    },
    {
      "epoch": 7.730886850152905,
      "grad_norm": 0.07916917651891708,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 7584
    },
    {
      "epoch": 7.731906218144751,
      "grad_norm": 0.0923057347536087,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 7585
    },
    {
      "epoch": 7.732925586136595,
      "grad_norm": 0.10349857807159424,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 7586
    },
    {
      "epoch": 7.73394495412844,
      "grad_norm": 0.08230840414762497,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7587
    },
    {
      "epoch": 7.734964322120286,
      "grad_norm": 0.1849212795495987,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 7588
    },
    {
      "epoch": 7.73598369011213,
      "grad_norm": 0.09692323952913284,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 7589
    },
    {
      "epoch": 7.7370030581039755,
      "grad_norm": 0.33689287304878235,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 7590
    },
    {
      "epoch": 7.738022426095821,
      "grad_norm": 0.17670197784900665,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 7591
    },
    {
      "epoch": 7.739041794087665,
      "grad_norm": 0.1022133082151413,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 7592
    },
    {
      "epoch": 7.740061162079511,
      "grad_norm": 0.14809107780456543,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 7593
    },
    {
      "epoch": 7.741080530071356,
      "grad_norm": 0.1693696677684784,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 7594
    },
    {
      "epoch": 7.742099898063201,
      "grad_norm": 0.10951825231313705,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 7595
    },
    {
      "epoch": 7.743119266055046,
      "grad_norm": 0.08862560987472534,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 7596
    },
    {
      "epoch": 7.744138634046891,
      "grad_norm": 0.1004575565457344,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 7597
    },
    {
      "epoch": 7.745158002038736,
      "grad_norm": 0.13636113703250885,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 7598
    },
    {
      "epoch": 7.746177370030581,
      "grad_norm": 0.09313064813613892,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 7599
    },
    {
      "epoch": 7.747196738022426,
      "grad_norm": 0.09730114042758942,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 7600
    },
    {
      "epoch": 7.748216106014271,
      "grad_norm": 0.1191481351852417,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 7601
    },
    {
      "epoch": 7.749235474006117,
      "grad_norm": 0.15012383460998535,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 7602
    },
    {
      "epoch": 7.750254841997961,
      "grad_norm": 0.13301853835582733,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 7603
    },
    {
      "epoch": 7.751274209989806,
      "grad_norm": 0.060410868376493454,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7604
    },
    {
      "epoch": 7.752293577981652,
      "grad_norm": 0.19645123183727264,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 7605
    },
    {
      "epoch": 7.753312945973496,
      "grad_norm": 0.13060703873634338,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 7606
    },
    {
      "epoch": 7.7543323139653415,
      "grad_norm": 0.150803804397583,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 7607
    },
    {
      "epoch": 7.755351681957187,
      "grad_norm": 0.1562916487455368,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 7608
    },
    {
      "epoch": 7.756371049949031,
      "grad_norm": 0.10755705833435059,
      "learning_rate": 0.001,
      "loss": 0.2167,
      "step": 7609
    },
    {
      "epoch": 7.757390417940877,
      "grad_norm": 0.16744239628314972,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 7610
    },
    {
      "epoch": 7.758409785932722,
      "grad_norm": 0.06268980354070663,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 7611
    },
    {
      "epoch": 7.759429153924566,
      "grad_norm": 0.13433408737182617,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 7612
    },
    {
      "epoch": 7.760448521916412,
      "grad_norm": 0.13088484108448029,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 7613
    },
    {
      "epoch": 7.761467889908257,
      "grad_norm": 0.05457054078578949,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 7614
    },
    {
      "epoch": 7.762487257900102,
      "grad_norm": 0.14402662217617035,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 7615
    },
    {
      "epoch": 7.763506625891947,
      "grad_norm": 0.11439400166273117,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 7616
    },
    {
      "epoch": 7.764525993883792,
      "grad_norm": 0.13548363745212555,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 7617
    },
    {
      "epoch": 7.765545361875637,
      "grad_norm": 0.05906905233860016,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 7618
    },
    {
      "epoch": 7.766564729867482,
      "grad_norm": 0.14375540614128113,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 7619
    },
    {
      "epoch": 7.767584097859327,
      "grad_norm": 0.1175227165222168,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 7620
    },
    {
      "epoch": 7.7686034658511725,
      "grad_norm": 0.1260497272014618,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 7621
    },
    {
      "epoch": 7.769622833843018,
      "grad_norm": 0.09120523929595947,
      "learning_rate": 0.001,
      "loss": 0.219,
      "step": 7622
    },
    {
      "epoch": 7.770642201834862,
      "grad_norm": 0.14832565188407898,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 7623
    },
    {
      "epoch": 7.7716615698267075,
      "grad_norm": 0.2274649441242218,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 7624
    },
    {
      "epoch": 7.772680937818553,
      "grad_norm": 0.08312401175498962,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7625
    },
    {
      "epoch": 7.773700305810397,
      "grad_norm": 0.2153250277042389,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 7626
    },
    {
      "epoch": 7.774719673802243,
      "grad_norm": 0.12669041752815247,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 7627
    },
    {
      "epoch": 7.775739041794088,
      "grad_norm": 0.0634787455201149,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 7628
    },
    {
      "epoch": 7.776758409785932,
      "grad_norm": 0.13679148256778717,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 7629
    },
    {
      "epoch": 7.777777777777778,
      "grad_norm": 0.14025017619132996,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 7630
    },
    {
      "epoch": 7.778797145769623,
      "grad_norm": 0.18880385160446167,
      "learning_rate": 0.001,
      "loss": 0.2286,
      "step": 7631
    },
    {
      "epoch": 7.779816513761467,
      "grad_norm": 0.15139618515968323,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 7632
    },
    {
      "epoch": 7.780835881753313,
      "grad_norm": 0.07775036990642548,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 7633
    },
    {
      "epoch": 7.781855249745158,
      "grad_norm": 0.10436303913593292,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 7634
    },
    {
      "epoch": 7.782874617737003,
      "grad_norm": 0.10538772493600845,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 7635
    },
    {
      "epoch": 7.783893985728848,
      "grad_norm": 0.11173909157514572,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 7636
    },
    {
      "epoch": 7.784913353720693,
      "grad_norm": 0.06737715005874634,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 7637
    },
    {
      "epoch": 7.7859327217125385,
      "grad_norm": 0.10709811747074127,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 7638
    },
    {
      "epoch": 7.786952089704383,
      "grad_norm": 0.06914523243904114,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 7639
    },
    {
      "epoch": 7.787971457696228,
      "grad_norm": 0.1385270059108734,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 7640
    },
    {
      "epoch": 7.7889908256880735,
      "grad_norm": 0.11516320705413818,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 7641
    },
    {
      "epoch": 7.790010193679919,
      "grad_norm": 0.09802614897489548,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7642
    },
    {
      "epoch": 7.791029561671763,
      "grad_norm": 0.13016095757484436,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 7643
    },
    {
      "epoch": 7.792048929663609,
      "grad_norm": 0.0951579362154007,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 7644
    },
    {
      "epoch": 7.793068297655454,
      "grad_norm": 0.06530032306909561,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 7645
    },
    {
      "epoch": 7.794087665647298,
      "grad_norm": 0.1620803326368332,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7646
    },
    {
      "epoch": 7.795107033639144,
      "grad_norm": 0.08324065804481506,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 7647
    },
    {
      "epoch": 7.796126401630989,
      "grad_norm": 0.1018945723772049,
      "learning_rate": 0.001,
      "loss": 0.2262,
      "step": 7648
    },
    {
      "epoch": 7.7971457696228335,
      "grad_norm": 0.12831448018550873,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 7649
    },
    {
      "epoch": 7.798165137614679,
      "grad_norm": 0.10949057340621948,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 7650
    },
    {
      "epoch": 7.799184505606524,
      "grad_norm": 0.19932454824447632,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 7651
    },
    {
      "epoch": 7.8002038735983685,
      "grad_norm": 0.06243201717734337,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 7652
    },
    {
      "epoch": 7.801223241590214,
      "grad_norm": 0.10805292427539825,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 7653
    },
    {
      "epoch": 7.802242609582059,
      "grad_norm": 0.13381482660770416,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 7654
    },
    {
      "epoch": 7.8032619775739045,
      "grad_norm": 0.043513692915439606,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 7655
    },
    {
      "epoch": 7.804281345565749,
      "grad_norm": 0.17783981561660767,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 7656
    },
    {
      "epoch": 7.805300713557594,
      "grad_norm": 0.06607801467180252,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 7657
    },
    {
      "epoch": 7.80632008154944,
      "grad_norm": 0.05843890458345413,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 7658
    },
    {
      "epoch": 7.807339449541285,
      "grad_norm": 0.09202619642019272,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 7659
    },
    {
      "epoch": 7.808358817533129,
      "grad_norm": 0.08065737038850784,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 7660
    },
    {
      "epoch": 7.809378185524975,
      "grad_norm": 0.07312016934156418,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 7661
    },
    {
      "epoch": 7.81039755351682,
      "grad_norm": 0.09297934174537659,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 7662
    },
    {
      "epoch": 7.811416921508664,
      "grad_norm": 0.15496119856834412,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 7663
    },
    {
      "epoch": 7.81243628950051,
      "grad_norm": 0.09732896089553833,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 7664
    },
    {
      "epoch": 7.813455657492355,
      "grad_norm": 0.10954567044973373,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 7665
    },
    {
      "epoch": 7.8144750254841995,
      "grad_norm": 0.1207161545753479,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 7666
    },
    {
      "epoch": 7.815494393476045,
      "grad_norm": 0.14256539940834045,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 7667
    },
    {
      "epoch": 7.81651376146789,
      "grad_norm": 0.10410623252391815,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 7668
    },
    {
      "epoch": 7.8175331294597346,
      "grad_norm": 0.12831923365592957,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 7669
    },
    {
      "epoch": 7.81855249745158,
      "grad_norm": 0.11502690613269806,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 7670
    },
    {
      "epoch": 7.819571865443425,
      "grad_norm": 0.10818472504615784,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 7671
    },
    {
      "epoch": 7.8205912334352705,
      "grad_norm": 0.06336279213428497,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 7672
    },
    {
      "epoch": 7.821610601427115,
      "grad_norm": 0.08844274282455444,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 7673
    },
    {
      "epoch": 7.82262996941896,
      "grad_norm": 0.3350120782852173,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 7674
    },
    {
      "epoch": 7.823649337410806,
      "grad_norm": 0.2209179699420929,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 7675
    },
    {
      "epoch": 7.82466870540265,
      "grad_norm": 0.170140340924263,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 7676
    },
    {
      "epoch": 7.825688073394495,
      "grad_norm": 0.17007897794246674,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 7677
    },
    {
      "epoch": 7.826707441386341,
      "grad_norm": 0.08709180355072021,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 7678
    },
    {
      "epoch": 7.827726809378186,
      "grad_norm": 0.12214286625385284,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7679
    },
    {
      "epoch": 7.82874617737003,
      "grad_norm": 0.12863102555274963,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7680
    },
    {
      "epoch": 7.829765545361876,
      "grad_norm": 0.13810190558433533,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 7681
    },
    {
      "epoch": 7.830784913353721,
      "grad_norm": 0.15006288886070251,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 7682
    },
    {
      "epoch": 7.8318042813455655,
      "grad_norm": 0.09277818351984024,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 7683
    },
    {
      "epoch": 7.832823649337411,
      "grad_norm": 0.14410419762134552,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 7684
    },
    {
      "epoch": 7.833843017329256,
      "grad_norm": 0.1641845703125,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 7685
    },
    {
      "epoch": 7.834862385321101,
      "grad_norm": 0.15800470113754272,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 7686
    },
    {
      "epoch": 7.835881753312946,
      "grad_norm": 0.1590784192085266,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 7687
    },
    {
      "epoch": 7.836901121304791,
      "grad_norm": 0.09401722997426987,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 7688
    },
    {
      "epoch": 7.837920489296636,
      "grad_norm": 0.058915875852108,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 7689
    },
    {
      "epoch": 7.838939857288481,
      "grad_norm": 0.10960523039102554,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 7690
    },
    {
      "epoch": 7.839959225280326,
      "grad_norm": 0.05437508970499039,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 7691
    },
    {
      "epoch": 7.840978593272172,
      "grad_norm": 0.10542387515306473,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 7692
    },
    {
      "epoch": 7.841997961264016,
      "grad_norm": 0.22998163104057312,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 7693
    },
    {
      "epoch": 7.843017329255861,
      "grad_norm": 0.21947136521339417,
      "learning_rate": 0.001,
      "loss": 0.2336,
      "step": 7694
    },
    {
      "epoch": 7.844036697247707,
      "grad_norm": 0.15807072818279266,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 7695
    },
    {
      "epoch": 7.845056065239551,
      "grad_norm": 0.14268267154693604,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 7696
    },
    {
      "epoch": 7.8460754332313964,
      "grad_norm": 0.09323251247406006,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 7697
    },
    {
      "epoch": 7.847094801223242,
      "grad_norm": 0.10874521732330322,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 7698
    },
    {
      "epoch": 7.848114169215087,
      "grad_norm": 0.10139985382556915,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7699
    },
    {
      "epoch": 7.8491335372069315,
      "grad_norm": 0.09787207096815109,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7700
    },
    {
      "epoch": 7.850152905198777,
      "grad_norm": 0.16119247674942017,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 7701
    },
    {
      "epoch": 7.851172273190622,
      "grad_norm": 0.10220148414373398,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 7702
    },
    {
      "epoch": 7.852191641182467,
      "grad_norm": 0.12716902792453766,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 7703
    },
    {
      "epoch": 7.853211009174312,
      "grad_norm": 0.13066169619560242,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 7704
    },
    {
      "epoch": 7.854230377166157,
      "grad_norm": 0.10163185745477676,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 7705
    },
    {
      "epoch": 7.855249745158002,
      "grad_norm": 0.08496414124965668,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 7706
    },
    {
      "epoch": 7.856269113149847,
      "grad_norm": 0.12388676404953003,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 7707
    },
    {
      "epoch": 7.857288481141692,
      "grad_norm": 0.09008420258760452,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 7708
    },
    {
      "epoch": 7.858307849133537,
      "grad_norm": 0.0930572971701622,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 7709
    },
    {
      "epoch": 7.859327217125382,
      "grad_norm": 0.07131573557853699,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 7710
    },
    {
      "epoch": 7.860346585117227,
      "grad_norm": 0.07183900475502014,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 7711
    },
    {
      "epoch": 7.861365953109073,
      "grad_norm": 0.08992843329906464,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 7712
    },
    {
      "epoch": 7.862385321100917,
      "grad_norm": 0.07984517514705658,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 7713
    },
    {
      "epoch": 7.8634046890927625,
      "grad_norm": 0.1198883131146431,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 7714
    },
    {
      "epoch": 7.864424057084608,
      "grad_norm": 0.07419944554567337,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 7715
    },
    {
      "epoch": 7.865443425076452,
      "grad_norm": 0.10196078568696976,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 7716
    },
    {
      "epoch": 7.8664627930682975,
      "grad_norm": 0.11313092708587646,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 7717
    },
    {
      "epoch": 7.867482161060143,
      "grad_norm": 0.1356920748949051,
      "learning_rate": 0.001,
      "loss": 0.2151,
      "step": 7718
    },
    {
      "epoch": 7.868501529051988,
      "grad_norm": 0.06659890711307526,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 7719
    },
    {
      "epoch": 7.869520897043833,
      "grad_norm": 0.18298010528087616,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 7720
    },
    {
      "epoch": 7.870540265035678,
      "grad_norm": 0.1805112063884735,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 7721
    },
    {
      "epoch": 7.871559633027523,
      "grad_norm": 0.13798420131206512,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 7722
    },
    {
      "epoch": 7.872579001019368,
      "grad_norm": 0.10424743592739105,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 7723
    },
    {
      "epoch": 7.873598369011213,
      "grad_norm": 0.06243528425693512,
      "learning_rate": 0.001,
      "loss": 0.1586,
      "step": 7724
    },
    {
      "epoch": 7.874617737003058,
      "grad_norm": 0.1161876767873764,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 7725
    },
    {
      "epoch": 7.875637104994903,
      "grad_norm": 0.07068737596273422,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 7726
    },
    {
      "epoch": 7.876656472986748,
      "grad_norm": 0.06121094524860382,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 7727
    },
    {
      "epoch": 7.877675840978593,
      "grad_norm": 0.11720798909664154,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 7728
    },
    {
      "epoch": 7.878695208970438,
      "grad_norm": 0.18410049378871918,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 7729
    },
    {
      "epoch": 7.879714576962283,
      "grad_norm": 0.07880764454603195,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 7730
    },
    {
      "epoch": 7.8807339449541285,
      "grad_norm": 0.08938861638307571,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 7731
    },
    {
      "epoch": 7.881753312945974,
      "grad_norm": 0.11249536275863647,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 7732
    },
    {
      "epoch": 7.882772680937818,
      "grad_norm": 0.12384296208620071,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7733
    },
    {
      "epoch": 7.883792048929664,
      "grad_norm": 0.058509934693574905,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 7734
    },
    {
      "epoch": 7.884811416921509,
      "grad_norm": 0.11526387929916382,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 7735
    },
    {
      "epoch": 7.885830784913354,
      "grad_norm": 0.1250717043876648,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 7736
    },
    {
      "epoch": 7.886850152905199,
      "grad_norm": 0.10591652989387512,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 7737
    },
    {
      "epoch": 7.887869520897044,
      "grad_norm": 0.12246420234441757,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 7738
    },
    {
      "epoch": 7.888888888888889,
      "grad_norm": 0.1044139489531517,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 7739
    },
    {
      "epoch": 7.889908256880734,
      "grad_norm": 0.12098938226699829,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 7740
    },
    {
      "epoch": 7.890927624872579,
      "grad_norm": 0.09694726765155792,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 7741
    },
    {
      "epoch": 7.891946992864424,
      "grad_norm": 0.07921729981899261,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 7742
    },
    {
      "epoch": 7.892966360856269,
      "grad_norm": 0.2338007241487503,
      "learning_rate": 0.001,
      "loss": 0.2179,
      "step": 7743
    },
    {
      "epoch": 7.893985728848114,
      "grad_norm": 0.1520480066537857,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 7744
    },
    {
      "epoch": 7.895005096839959,
      "grad_norm": 0.10922712087631226,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 7745
    },
    {
      "epoch": 7.896024464831804,
      "grad_norm": 0.10869898647069931,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 7746
    },
    {
      "epoch": 7.897043832823649,
      "grad_norm": 0.10731923580169678,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 7747
    },
    {
      "epoch": 7.8980632008154945,
      "grad_norm": 0.100736603140831,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 7748
    },
    {
      "epoch": 7.89908256880734,
      "grad_norm": 0.08450520038604736,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7749
    },
    {
      "epoch": 7.900101936799184,
      "grad_norm": 0.12464191764593124,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 7750
    },
    {
      "epoch": 7.90112130479103,
      "grad_norm": 0.08922190964221954,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 7751
    },
    {
      "epoch": 7.902140672782875,
      "grad_norm": 0.14819897711277008,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 7752
    },
    {
      "epoch": 7.903160040774719,
      "grad_norm": 0.1674104630947113,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 7753
    },
    {
      "epoch": 7.904179408766565,
      "grad_norm": 0.12155276536941528,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7754
    },
    {
      "epoch": 7.90519877675841,
      "grad_norm": 0.0923166573047638,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 7755
    },
    {
      "epoch": 7.906218144750255,
      "grad_norm": 0.08651803433895111,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 7756
    },
    {
      "epoch": 7.9072375127421,
      "grad_norm": 0.14451052248477936,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 7757
    },
    {
      "epoch": 7.908256880733945,
      "grad_norm": 0.1684577316045761,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 7758
    },
    {
      "epoch": 7.90927624872579,
      "grad_norm": 0.17262597382068634,
      "learning_rate": 0.001,
      "loss": 0.2106,
      "step": 7759
    },
    {
      "epoch": 7.910295616717635,
      "grad_norm": 0.20792675018310547,
      "learning_rate": 0.001,
      "loss": 0.162,
      "step": 7760
    },
    {
      "epoch": 7.91131498470948,
      "grad_norm": 0.10079607367515564,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 7761
    },
    {
      "epoch": 7.9123343527013255,
      "grad_norm": 0.10589029639959335,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 7762
    },
    {
      "epoch": 7.91335372069317,
      "grad_norm": 0.07599572837352753,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 7763
    },
    {
      "epoch": 7.914373088685015,
      "grad_norm": 0.11529837548732758,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 7764
    },
    {
      "epoch": 7.9153924566768605,
      "grad_norm": 0.107890285551548,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 7765
    },
    {
      "epoch": 7.916411824668705,
      "grad_norm": 0.1084662675857544,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 7766
    },
    {
      "epoch": 7.91743119266055,
      "grad_norm": 0.08648409694433212,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 7767
    },
    {
      "epoch": 7.918450560652396,
      "grad_norm": 0.145227313041687,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7768
    },
    {
      "epoch": 7.919469928644241,
      "grad_norm": 0.054521337151527405,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 7769
    },
    {
      "epoch": 7.920489296636085,
      "grad_norm": 0.13707533478736877,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 7770
    },
    {
      "epoch": 7.921508664627931,
      "grad_norm": 0.11763734370470047,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7771
    },
    {
      "epoch": 7.922528032619776,
      "grad_norm": 0.14347970485687256,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 7772
    },
    {
      "epoch": 7.92354740061162,
      "grad_norm": 0.07676775008440018,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 7773
    },
    {
      "epoch": 7.924566768603466,
      "grad_norm": 0.11213907599449158,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 7774
    },
    {
      "epoch": 7.925586136595311,
      "grad_norm": 0.11778765171766281,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7775
    },
    {
      "epoch": 7.926605504587156,
      "grad_norm": 0.1901673823595047,
      "learning_rate": 0.001,
      "loss": 0.2231,
      "step": 7776
    },
    {
      "epoch": 7.927624872579001,
      "grad_norm": 0.11523162573575974,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 7777
    },
    {
      "epoch": 7.928644240570846,
      "grad_norm": 0.07585389167070389,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 7778
    },
    {
      "epoch": 7.9296636085626915,
      "grad_norm": 0.1073354035615921,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 7779
    },
    {
      "epoch": 7.930682976554536,
      "grad_norm": 0.16572868824005127,
      "learning_rate": 0.001,
      "loss": 0.2139,
      "step": 7780
    },
    {
      "epoch": 7.931702344546381,
      "grad_norm": 0.15335501730442047,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 7781
    },
    {
      "epoch": 7.9327217125382266,
      "grad_norm": 0.1077868863940239,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7782
    },
    {
      "epoch": 7.933741080530071,
      "grad_norm": 0.11342741549015045,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 7783
    },
    {
      "epoch": 7.934760448521916,
      "grad_norm": 0.10742201656103134,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 7784
    },
    {
      "epoch": 7.935779816513762,
      "grad_norm": 0.1298186480998993,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 7785
    },
    {
      "epoch": 7.936799184505606,
      "grad_norm": 0.11186912655830383,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 7786
    },
    {
      "epoch": 7.937818552497451,
      "grad_norm": 0.1309230923652649,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 7787
    },
    {
      "epoch": 7.938837920489297,
      "grad_norm": 0.11248593777418137,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 7788
    },
    {
      "epoch": 7.939857288481142,
      "grad_norm": 0.09753623604774475,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 7789
    },
    {
      "epoch": 7.9408766564729865,
      "grad_norm": 0.11037895083427429,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 7790
    },
    {
      "epoch": 7.941896024464832,
      "grad_norm": 0.09944924712181091,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 7791
    },
    {
      "epoch": 7.942915392456677,
      "grad_norm": 0.11732833087444305,
      "learning_rate": 0.001,
      "loss": 0.223,
      "step": 7792
    },
    {
      "epoch": 7.9439347604485215,
      "grad_norm": 0.11185051500797272,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 7793
    },
    {
      "epoch": 7.944954128440367,
      "grad_norm": 0.092088982462883,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 7794
    },
    {
      "epoch": 7.945973496432212,
      "grad_norm": 0.11395592242479324,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 7795
    },
    {
      "epoch": 7.9469928644240575,
      "grad_norm": 0.14295564591884613,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 7796
    },
    {
      "epoch": 7.948012232415902,
      "grad_norm": 0.08330044150352478,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 7797
    },
    {
      "epoch": 7.949031600407747,
      "grad_norm": 0.1427697390317917,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 7798
    },
    {
      "epoch": 7.950050968399593,
      "grad_norm": 0.09813442826271057,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 7799
    },
    {
      "epoch": 7.951070336391437,
      "grad_norm": 0.1278832107782364,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 7800
    },
    {
      "epoch": 7.952089704383282,
      "grad_norm": 0.05061434954404831,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 7801
    },
    {
      "epoch": 7.953109072375128,
      "grad_norm": 0.10616479068994522,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 7802
    },
    {
      "epoch": 7.954128440366972,
      "grad_norm": 0.19259744882583618,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 7803
    },
    {
      "epoch": 7.955147808358817,
      "grad_norm": 0.09508073329925537,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 7804
    },
    {
      "epoch": 7.956167176350663,
      "grad_norm": 0.20007449388504028,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 7805
    },
    {
      "epoch": 7.957186544342507,
      "grad_norm": 0.12286712974309921,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 7806
    },
    {
      "epoch": 7.9582059123343525,
      "grad_norm": 0.0913846492767334,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 7807
    },
    {
      "epoch": 7.959225280326198,
      "grad_norm": 0.08546264469623566,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 7808
    },
    {
      "epoch": 7.960244648318043,
      "grad_norm": 0.132492795586586,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7809
    },
    {
      "epoch": 7.961264016309888,
      "grad_norm": 0.07718198746442795,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 7810
    },
    {
      "epoch": 7.962283384301733,
      "grad_norm": 0.09146025776863098,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 7811
    },
    {
      "epoch": 7.963302752293578,
      "grad_norm": 0.09606117010116577,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 7812
    },
    {
      "epoch": 7.9643221202854235,
      "grad_norm": 0.08913771063089371,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 7813
    },
    {
      "epoch": 7.965341488277268,
      "grad_norm": 0.08189793676137924,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7814
    },
    {
      "epoch": 7.966360856269113,
      "grad_norm": 0.13262036442756653,
      "learning_rate": 0.001,
      "loss": 0.2068,
      "step": 7815
    },
    {
      "epoch": 7.967380224260959,
      "grad_norm": 0.08191265165805817,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7816
    },
    {
      "epoch": 7.968399592252803,
      "grad_norm": 0.09284492582082748,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 7817
    },
    {
      "epoch": 7.969418960244648,
      "grad_norm": 0.08556605130434036,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 7818
    },
    {
      "epoch": 7.970438328236494,
      "grad_norm": 0.08326981961727142,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 7819
    },
    {
      "epoch": 7.971457696228338,
      "grad_norm": 0.13308048248291016,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 7820
    },
    {
      "epoch": 7.972477064220183,
      "grad_norm": 0.10184293985366821,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 7821
    },
    {
      "epoch": 7.973496432212029,
      "grad_norm": 0.15509484708309174,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 7822
    },
    {
      "epoch": 7.974515800203873,
      "grad_norm": 0.1009523794054985,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 7823
    },
    {
      "epoch": 7.9755351681957185,
      "grad_norm": 0.060332585126161575,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 7824
    },
    {
      "epoch": 7.976554536187564,
      "grad_norm": 0.10132556408643723,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7825
    },
    {
      "epoch": 7.977573904179409,
      "grad_norm": 0.08372669667005539,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 7826
    },
    {
      "epoch": 7.978593272171254,
      "grad_norm": 0.09221810847520828,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 7827
    },
    {
      "epoch": 7.979612640163099,
      "grad_norm": 0.14366976916790009,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 7828
    },
    {
      "epoch": 7.980632008154944,
      "grad_norm": 0.11111529916524887,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 7829
    },
    {
      "epoch": 7.981651376146789,
      "grad_norm": 0.09661432355642319,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 7830
    },
    {
      "epoch": 7.982670744138634,
      "grad_norm": 0.0913078784942627,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 7831
    },
    {
      "epoch": 7.983690112130479,
      "grad_norm": 0.17584244906902313,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 7832
    },
    {
      "epoch": 7.984709480122325,
      "grad_norm": 0.06511888653039932,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 7833
    },
    {
      "epoch": 7.985728848114169,
      "grad_norm": 0.1141105592250824,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7834
    },
    {
      "epoch": 7.986748216106014,
      "grad_norm": 0.12863391637802124,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 7835
    },
    {
      "epoch": 7.98776758409786,
      "grad_norm": 0.09390310198068619,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 7836
    },
    {
      "epoch": 7.988786952089704,
      "grad_norm": 0.1902315467596054,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7837
    },
    {
      "epoch": 7.9898063200815495,
      "grad_norm": 0.10280874371528625,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7838
    },
    {
      "epoch": 7.990825688073395,
      "grad_norm": 0.1200898289680481,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 7839
    },
    {
      "epoch": 7.991845056065239,
      "grad_norm": 0.13837873935699463,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 7840
    },
    {
      "epoch": 7.9928644240570845,
      "grad_norm": 0.13067275285720825,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 7841
    },
    {
      "epoch": 7.99388379204893,
      "grad_norm": 0.08634163439273834,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7842
    },
    {
      "epoch": 7.994903160040774,
      "grad_norm": 0.08186354488134384,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 7843
    },
    {
      "epoch": 7.99592252803262,
      "grad_norm": 0.12813900411128998,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 7844
    },
    {
      "epoch": 7.996941896024465,
      "grad_norm": 0.10185454040765762,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 7845
    },
    {
      "epoch": 7.99796126401631,
      "grad_norm": 0.12810802459716797,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 7846
    },
    {
      "epoch": 7.998980632008155,
      "grad_norm": 0.20169201493263245,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7847
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.11560377478599548,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7848
    },
    {
      "epoch": 8.0,
      "eval_-_f1-score": 0.15,
      "eval_-_precision": 0.16666666666666666,
      "eval_-_recall": 0.13636363636363635,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9609835399309083,
      "eval_<_precision": 0.9501707856138236,
      "eval_<_recall": 0.9720452209660843,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.7926078028747433,
      "eval_=_precision": 0.8075313807531381,
      "eval_=_recall": 0.7782258064516129,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9594019312636278,
      "eval_>_precision": 0.9693663449433487,
      "eval_>_recall": 0.9496402877697842,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9545,
      "eval_loss": 0.11366874724626541,
      "eval_macro_avg_f1-score": 0.7157483185173199,
      "eval_macro_avg_precision": 0.7234337944942443,
      "eval_macro_avg_recall": 0.7090687378877794,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.907,
      "eval_samples_per_second": 774.773,
      "eval_steps_per_second": 3.099,
      "eval_weighted_avg_f1-score": 0.9542542052474355,
      "eval_weighted_avg_precision": 0.9542482589254087,
      "eval_weighted_avg_recall": 0.9545,
      "eval_weighted_avg_support": 10000.0,
      "step": 7848
    },
    {
      "epoch": 8.001019367991844,
      "grad_norm": 0.1690305471420288,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 7849
    },
    {
      "epoch": 8.00203873598369,
      "grad_norm": 0.22275209426879883,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 7850
    },
    {
      "epoch": 8.003058103975535,
      "grad_norm": 0.13592340052127838,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 7851
    },
    {
      "epoch": 8.00407747196738,
      "grad_norm": 0.13175000250339508,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 7852
    },
    {
      "epoch": 8.005096839959226,
      "grad_norm": 0.07490543276071548,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 7853
    },
    {
      "epoch": 8.00611620795107,
      "grad_norm": 0.3408351540565491,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 7854
    },
    {
      "epoch": 8.007135575942915,
      "grad_norm": 0.09323425590991974,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 7855
    },
    {
      "epoch": 8.00815494393476,
      "grad_norm": 0.09026210010051727,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 7856
    },
    {
      "epoch": 8.009174311926605,
      "grad_norm": 0.12326180189847946,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 7857
    },
    {
      "epoch": 8.010193679918451,
      "grad_norm": 0.11271625757217407,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 7858
    },
    {
      "epoch": 8.011213047910296,
      "grad_norm": 0.09668566286563873,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 7859
    },
    {
      "epoch": 8.01223241590214,
      "grad_norm": 0.12952250242233276,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 7860
    },
    {
      "epoch": 8.013251783893987,
      "grad_norm": 0.08826231956481934,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 7861
    },
    {
      "epoch": 8.014271151885831,
      "grad_norm": 0.10567325353622437,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 7862
    },
    {
      "epoch": 8.015290519877675,
      "grad_norm": 0.0644446462392807,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 7863
    },
    {
      "epoch": 8.016309887869522,
      "grad_norm": 0.12344268709421158,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 7864
    },
    {
      "epoch": 8.017329255861366,
      "grad_norm": 0.10952840745449066,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 7865
    },
    {
      "epoch": 8.01834862385321,
      "grad_norm": 0.14334142208099365,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 7866
    },
    {
      "epoch": 8.019367991845057,
      "grad_norm": 0.24901090562343597,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 7867
    },
    {
      "epoch": 8.020387359836901,
      "grad_norm": 0.17189577221870422,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 7868
    },
    {
      "epoch": 8.021406727828746,
      "grad_norm": 0.10617313534021378,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 7869
    },
    {
      "epoch": 8.022426095820592,
      "grad_norm": 0.12245793640613556,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 7870
    },
    {
      "epoch": 8.023445463812436,
      "grad_norm": 0.12902511656284332,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 7871
    },
    {
      "epoch": 8.02446483180428,
      "grad_norm": 0.09538507461547852,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 7872
    },
    {
      "epoch": 8.025484199796127,
      "grad_norm": 0.08834490925073624,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 7873
    },
    {
      "epoch": 8.026503567787971,
      "grad_norm": 0.14003755152225494,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 7874
    },
    {
      "epoch": 8.027522935779816,
      "grad_norm": 0.12326056510210037,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 7875
    },
    {
      "epoch": 8.028542303771662,
      "grad_norm": 0.09160168468952179,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 7876
    },
    {
      "epoch": 8.029561671763506,
      "grad_norm": 0.11797290295362473,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 7877
    },
    {
      "epoch": 8.030581039755353,
      "grad_norm": 0.10343065112829208,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 7878
    },
    {
      "epoch": 8.031600407747197,
      "grad_norm": 0.12169606983661652,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 7879
    },
    {
      "epoch": 8.032619775739041,
      "grad_norm": 0.12169995903968811,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 7880
    },
    {
      "epoch": 8.033639143730888,
      "grad_norm": 0.14148758351802826,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 7881
    },
    {
      "epoch": 8.034658511722732,
      "grad_norm": 0.12094978988170624,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 7882
    },
    {
      "epoch": 8.035677879714576,
      "grad_norm": 0.07674028724431992,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 7883
    },
    {
      "epoch": 8.036697247706423,
      "grad_norm": 0.09300601482391357,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 7884
    },
    {
      "epoch": 8.037716615698267,
      "grad_norm": 0.10675918310880661,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 7885
    },
    {
      "epoch": 8.038735983690112,
      "grad_norm": 0.14194370806217194,
      "learning_rate": 0.001,
      "loss": 0.217,
      "step": 7886
    },
    {
      "epoch": 8.039755351681958,
      "grad_norm": 0.12129156291484833,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 7887
    },
    {
      "epoch": 8.040774719673802,
      "grad_norm": 0.08830234408378601,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 7888
    },
    {
      "epoch": 8.041794087665647,
      "grad_norm": 0.13012760877609253,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 7889
    },
    {
      "epoch": 8.042813455657493,
      "grad_norm": 0.267892450094223,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 7890
    },
    {
      "epoch": 8.043832823649337,
      "grad_norm": 0.10471179336309433,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 7891
    },
    {
      "epoch": 8.044852191641182,
      "grad_norm": 0.10742292553186417,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 7892
    },
    {
      "epoch": 8.045871559633028,
      "grad_norm": 0.1596994698047638,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 7893
    },
    {
      "epoch": 8.046890927624872,
      "grad_norm": 0.07413098216056824,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 7894
    },
    {
      "epoch": 8.047910295616717,
      "grad_norm": 0.06899860501289368,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 7895
    },
    {
      "epoch": 8.048929663608563,
      "grad_norm": 0.05060872808098793,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 7896
    },
    {
      "epoch": 8.049949031600407,
      "grad_norm": 0.05874243006110191,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 7897
    },
    {
      "epoch": 8.050968399592254,
      "grad_norm": 0.08626436442136765,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 7898
    },
    {
      "epoch": 8.051987767584098,
      "grad_norm": 0.07949414104223251,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 7899
    },
    {
      "epoch": 8.053007135575942,
      "grad_norm": 0.11530785262584686,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 7900
    },
    {
      "epoch": 8.054026503567789,
      "grad_norm": 0.10295194387435913,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 7901
    },
    {
      "epoch": 8.055045871559633,
      "grad_norm": 0.18869706988334656,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7902
    },
    {
      "epoch": 8.056065239551478,
      "grad_norm": 0.12421175092458725,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 7903
    },
    {
      "epoch": 8.057084607543324,
      "grad_norm": 0.0842926949262619,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 7904
    },
    {
      "epoch": 8.058103975535168,
      "grad_norm": 0.1422223299741745,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 7905
    },
    {
      "epoch": 8.059123343527013,
      "grad_norm": 0.21857696771621704,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 7906
    },
    {
      "epoch": 8.060142711518859,
      "grad_norm": 0.1457539051771164,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 7907
    },
    {
      "epoch": 8.061162079510703,
      "grad_norm": 0.13934755325317383,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 7908
    },
    {
      "epoch": 8.062181447502548,
      "grad_norm": 0.061743468046188354,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 7909
    },
    {
      "epoch": 8.063200815494394,
      "grad_norm": 0.1747351437807083,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 7910
    },
    {
      "epoch": 8.064220183486238,
      "grad_norm": 0.1462739109992981,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 7911
    },
    {
      "epoch": 8.065239551478083,
      "grad_norm": 0.08907139301300049,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 7912
    },
    {
      "epoch": 8.066258919469929,
      "grad_norm": 0.09259553998708725,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 7913
    },
    {
      "epoch": 8.067278287461773,
      "grad_norm": 0.10273313522338867,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 7914
    },
    {
      "epoch": 8.068297655453618,
      "grad_norm": 0.07271147519350052,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 7915
    },
    {
      "epoch": 8.069317023445464,
      "grad_norm": 0.08692585676908493,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 7916
    },
    {
      "epoch": 8.070336391437309,
      "grad_norm": 0.06908094882965088,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 7917
    },
    {
      "epoch": 8.071355759429155,
      "grad_norm": 0.1108657717704773,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 7918
    },
    {
      "epoch": 8.072375127421,
      "grad_norm": 0.10146702080965042,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 7919
    },
    {
      "epoch": 8.073394495412844,
      "grad_norm": 0.08388949930667877,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 7920
    },
    {
      "epoch": 8.07441386340469,
      "grad_norm": 0.16696697473526,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 7921
    },
    {
      "epoch": 8.075433231396534,
      "grad_norm": 0.0935361459851265,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 7922
    },
    {
      "epoch": 8.076452599388379,
      "grad_norm": 0.1252732276916504,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 7923
    },
    {
      "epoch": 8.077471967380225,
      "grad_norm": 0.09825379401445389,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 7924
    },
    {
      "epoch": 8.07849133537207,
      "grad_norm": 0.19187065958976746,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 7925
    },
    {
      "epoch": 8.079510703363914,
      "grad_norm": 0.05521024763584137,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 7926
    },
    {
      "epoch": 8.08053007135576,
      "grad_norm": 0.0916125699877739,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 7927
    },
    {
      "epoch": 8.081549439347604,
      "grad_norm": 0.10490905493497849,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 7928
    },
    {
      "epoch": 8.082568807339449,
      "grad_norm": 0.31077510118484497,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 7929
    },
    {
      "epoch": 8.083588175331295,
      "grad_norm": 0.07046712934970856,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 7930
    },
    {
      "epoch": 8.08460754332314,
      "grad_norm": 0.1353319138288498,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 7931
    },
    {
      "epoch": 8.085626911314984,
      "grad_norm": 0.07580617070198059,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 7932
    },
    {
      "epoch": 8.08664627930683,
      "grad_norm": 0.09384845197200775,
      "learning_rate": 0.001,
      "loss": 0.2153,
      "step": 7933
    },
    {
      "epoch": 8.087665647298675,
      "grad_norm": 0.08306077867746353,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7934
    },
    {
      "epoch": 8.08868501529052,
      "grad_norm": 0.07849697023630142,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 7935
    },
    {
      "epoch": 8.089704383282365,
      "grad_norm": 0.10656829923391342,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 7936
    },
    {
      "epoch": 8.09072375127421,
      "grad_norm": 0.11760790646076202,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 7937
    },
    {
      "epoch": 8.091743119266056,
      "grad_norm": 0.08957285434007645,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 7938
    },
    {
      "epoch": 8.0927624872579,
      "grad_norm": 0.13423894345760345,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 7939
    },
    {
      "epoch": 8.093781855249745,
      "grad_norm": 0.10875582695007324,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7940
    },
    {
      "epoch": 8.094801223241591,
      "grad_norm": 0.10104508697986603,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 7941
    },
    {
      "epoch": 8.095820591233435,
      "grad_norm": 0.09087784588336945,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 7942
    },
    {
      "epoch": 8.09683995922528,
      "grad_norm": 0.13495083153247833,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 7943
    },
    {
      "epoch": 8.097859327217126,
      "grad_norm": 0.2697988450527191,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 7944
    },
    {
      "epoch": 8.09887869520897,
      "grad_norm": 0.09880254417657852,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 7945
    },
    {
      "epoch": 8.099898063200815,
      "grad_norm": 0.09736912697553635,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 7946
    },
    {
      "epoch": 8.100917431192661,
      "grad_norm": 0.1416974514722824,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 7947
    },
    {
      "epoch": 8.101936799184505,
      "grad_norm": 0.10341212153434753,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 7948
    },
    {
      "epoch": 8.10295616717635,
      "grad_norm": 0.06936486065387726,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 7949
    },
    {
      "epoch": 8.103975535168196,
      "grad_norm": 0.10055112838745117,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 7950
    },
    {
      "epoch": 8.10499490316004,
      "grad_norm": 0.10334932804107666,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 7951
    },
    {
      "epoch": 8.106014271151885,
      "grad_norm": 0.09710201621055603,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 7952
    },
    {
      "epoch": 8.107033639143731,
      "grad_norm": 0.1668718457221985,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 7953
    },
    {
      "epoch": 8.108053007135576,
      "grad_norm": 0.06303218752145767,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 7954
    },
    {
      "epoch": 8.109072375127422,
      "grad_norm": 0.05441470444202423,
      "learning_rate": 0.001,
      "loss": 0.1582,
      "step": 7955
    },
    {
      "epoch": 8.110091743119266,
      "grad_norm": 0.15922974050045013,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 7956
    },
    {
      "epoch": 8.11111111111111,
      "grad_norm": 0.07953287661075592,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 7957
    },
    {
      "epoch": 8.112130479102957,
      "grad_norm": 0.11036239564418793,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 7958
    },
    {
      "epoch": 8.113149847094801,
      "grad_norm": 0.12739600241184235,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 7959
    },
    {
      "epoch": 8.114169215086646,
      "grad_norm": 0.14997966587543488,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 7960
    },
    {
      "epoch": 8.115188583078492,
      "grad_norm": 0.13569137454032898,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 7961
    },
    {
      "epoch": 8.116207951070336,
      "grad_norm": 0.1147586852312088,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 7962
    },
    {
      "epoch": 8.11722731906218,
      "grad_norm": 0.09414302557706833,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 7963
    },
    {
      "epoch": 8.118246687054027,
      "grad_norm": 0.20937861502170563,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 7964
    },
    {
      "epoch": 8.119266055045872,
      "grad_norm": 0.12352629750967026,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 7965
    },
    {
      "epoch": 8.120285423037716,
      "grad_norm": 0.09853870421648026,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 7966
    },
    {
      "epoch": 8.121304791029562,
      "grad_norm": 0.07896644622087479,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 7967
    },
    {
      "epoch": 8.122324159021407,
      "grad_norm": 0.09557196497917175,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 7968
    },
    {
      "epoch": 8.123343527013251,
      "grad_norm": 0.12145861983299255,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 7969
    },
    {
      "epoch": 8.124362895005097,
      "grad_norm": 0.07127657532691956,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 7970
    },
    {
      "epoch": 8.125382262996942,
      "grad_norm": 0.0703539103269577,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 7971
    },
    {
      "epoch": 8.126401630988786,
      "grad_norm": 0.1463470160961151,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 7972
    },
    {
      "epoch": 8.127420998980632,
      "grad_norm": 0.09088464081287384,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 7973
    },
    {
      "epoch": 8.128440366972477,
      "grad_norm": 0.1329423487186432,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 7974
    },
    {
      "epoch": 8.129459734964323,
      "grad_norm": 0.10702818632125854,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 7975
    },
    {
      "epoch": 8.130479102956167,
      "grad_norm": 0.12913000583648682,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 7976
    },
    {
      "epoch": 8.131498470948012,
      "grad_norm": 0.05560890957713127,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 7977
    },
    {
      "epoch": 8.132517838939858,
      "grad_norm": 0.07646310329437256,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 7978
    },
    {
      "epoch": 8.133537206931702,
      "grad_norm": 0.08720684796571732,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 7979
    },
    {
      "epoch": 8.134556574923547,
      "grad_norm": 0.06711068749427795,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 7980
    },
    {
      "epoch": 8.135575942915393,
      "grad_norm": 0.03960537910461426,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 7981
    },
    {
      "epoch": 8.136595310907238,
      "grad_norm": 0.11535721272230148,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 7982
    },
    {
      "epoch": 8.137614678899082,
      "grad_norm": 0.10098323971033096,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 7983
    },
    {
      "epoch": 8.138634046890928,
      "grad_norm": 0.12260240316390991,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 7984
    },
    {
      "epoch": 8.139653414882773,
      "grad_norm": 0.47943970561027527,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 7985
    },
    {
      "epoch": 8.140672782874617,
      "grad_norm": 0.10957901924848557,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 7986
    },
    {
      "epoch": 8.141692150866463,
      "grad_norm": 0.07952618598937988,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 7987
    },
    {
      "epoch": 8.142711518858308,
      "grad_norm": 0.09155929088592529,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 7988
    },
    {
      "epoch": 8.143730886850152,
      "grad_norm": 0.04883696511387825,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 7989
    },
    {
      "epoch": 8.144750254841998,
      "grad_norm": 0.1202719658613205,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 7990
    },
    {
      "epoch": 8.145769622833843,
      "grad_norm": 0.14506950974464417,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 7991
    },
    {
      "epoch": 8.146788990825687,
      "grad_norm": 0.16155411303043365,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 7992
    },
    {
      "epoch": 8.147808358817533,
      "grad_norm": 0.09709422290325165,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 7993
    },
    {
      "epoch": 8.148827726809378,
      "grad_norm": 0.16897398233413696,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 7994
    },
    {
      "epoch": 8.149847094801224,
      "grad_norm": 0.08945032209157944,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 7995
    },
    {
      "epoch": 8.150866462793068,
      "grad_norm": 0.10304830223321915,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 7996
    },
    {
      "epoch": 8.151885830784913,
      "grad_norm": 0.15168976783752441,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 7997
    },
    {
      "epoch": 8.15290519877676,
      "grad_norm": 0.09851004928350449,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 7998
    },
    {
      "epoch": 8.153924566768604,
      "grad_norm": 0.09448334574699402,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 7999
    },
    {
      "epoch": 8.154943934760448,
      "grad_norm": 0.09682433307170868,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 8000
    },
    {
      "epoch": 8.155963302752294,
      "grad_norm": 0.09628233313560486,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 8001
    },
    {
      "epoch": 8.156982670744139,
      "grad_norm": 0.10838449001312256,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 8002
    },
    {
      "epoch": 8.158002038735983,
      "grad_norm": 0.1276063770055771,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8003
    },
    {
      "epoch": 8.15902140672783,
      "grad_norm": 0.127982497215271,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 8004
    },
    {
      "epoch": 8.160040774719674,
      "grad_norm": 0.10677068680524826,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8005
    },
    {
      "epoch": 8.161060142711518,
      "grad_norm": 0.08387859910726547,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8006
    },
    {
      "epoch": 8.162079510703364,
      "grad_norm": 0.13174593448638916,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 8007
    },
    {
      "epoch": 8.163098878695209,
      "grad_norm": 0.14365516602993011,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8008
    },
    {
      "epoch": 8.164118246687053,
      "grad_norm": 0.06015594303607941,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8009
    },
    {
      "epoch": 8.1651376146789,
      "grad_norm": 0.10063046216964722,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 8010
    },
    {
      "epoch": 8.166156982670744,
      "grad_norm": 0.08916934579610825,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 8011
    },
    {
      "epoch": 8.16717635066259,
      "grad_norm": 0.19062238931655884,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 8012
    },
    {
      "epoch": 8.168195718654435,
      "grad_norm": 0.0998455137014389,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 8013
    },
    {
      "epoch": 8.169215086646279,
      "grad_norm": 0.1404108852148056,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 8014
    },
    {
      "epoch": 8.170234454638125,
      "grad_norm": 0.25041666626930237,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 8015
    },
    {
      "epoch": 8.17125382262997,
      "grad_norm": 0.07479284703731537,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8016
    },
    {
      "epoch": 8.172273190621814,
      "grad_norm": 0.060767874121665955,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 8017
    },
    {
      "epoch": 8.17329255861366,
      "grad_norm": 0.18138083815574646,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 8018
    },
    {
      "epoch": 8.174311926605505,
      "grad_norm": 0.11392799764871597,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 8019
    },
    {
      "epoch": 8.175331294597349,
      "grad_norm": 0.13527849316596985,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 8020
    },
    {
      "epoch": 8.176350662589195,
      "grad_norm": 0.06397330015897751,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 8021
    },
    {
      "epoch": 8.17737003058104,
      "grad_norm": 0.13375335931777954,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 8022
    },
    {
      "epoch": 8.178389398572884,
      "grad_norm": 0.18250685930252075,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8023
    },
    {
      "epoch": 8.17940876656473,
      "grad_norm": 0.06769047677516937,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 8024
    },
    {
      "epoch": 8.180428134556575,
      "grad_norm": 0.12302649766206741,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 8025
    },
    {
      "epoch": 8.18144750254842,
      "grad_norm": 0.16766302287578583,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 8026
    },
    {
      "epoch": 8.182466870540265,
      "grad_norm": 0.15319037437438965,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 8027
    },
    {
      "epoch": 8.18348623853211,
      "grad_norm": 0.08486094325780869,
      "learning_rate": 0.001,
      "loss": 0.1608,
      "step": 8028
    },
    {
      "epoch": 8.184505606523954,
      "grad_norm": 0.08684617280960083,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 8029
    },
    {
      "epoch": 8.1855249745158,
      "grad_norm": 0.1778121143579483,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 8030
    },
    {
      "epoch": 8.186544342507645,
      "grad_norm": 0.0649389997124672,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 8031
    },
    {
      "epoch": 8.187563710499491,
      "grad_norm": 0.19361090660095215,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 8032
    },
    {
      "epoch": 8.188583078491336,
      "grad_norm": 0.15646399557590485,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 8033
    },
    {
      "epoch": 8.18960244648318,
      "grad_norm": 0.13941363990306854,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8034
    },
    {
      "epoch": 8.190621814475026,
      "grad_norm": 0.1103506088256836,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 8035
    },
    {
      "epoch": 8.19164118246687,
      "grad_norm": 0.1591922789812088,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8036
    },
    {
      "epoch": 8.192660550458715,
      "grad_norm": 0.11433116346597672,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 8037
    },
    {
      "epoch": 8.193679918450561,
      "grad_norm": 0.15835042297840118,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 8038
    },
    {
      "epoch": 8.194699286442406,
      "grad_norm": 0.16403448581695557,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 8039
    },
    {
      "epoch": 8.19571865443425,
      "grad_norm": 0.12418076395988464,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8040
    },
    {
      "epoch": 8.196738022426096,
      "grad_norm": 0.23197413980960846,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8041
    },
    {
      "epoch": 8.19775739041794,
      "grad_norm": 0.0874100774526596,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 8042
    },
    {
      "epoch": 8.198776758409785,
      "grad_norm": 0.0644776001572609,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 8043
    },
    {
      "epoch": 8.199796126401631,
      "grad_norm": 0.1671941876411438,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8044
    },
    {
      "epoch": 8.200815494393476,
      "grad_norm": 0.0751245990395546,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8045
    },
    {
      "epoch": 8.20183486238532,
      "grad_norm": 0.22837291657924652,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 8046
    },
    {
      "epoch": 8.202854230377167,
      "grad_norm": 0.23726105690002441,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 8047
    },
    {
      "epoch": 8.203873598369011,
      "grad_norm": 0.1416422724723816,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8048
    },
    {
      "epoch": 8.204892966360855,
      "grad_norm": 0.11663831025362015,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 8049
    },
    {
      "epoch": 8.205912334352702,
      "grad_norm": 0.14375640451908112,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 8050
    },
    {
      "epoch": 8.206931702344546,
      "grad_norm": 0.12417779117822647,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8051
    },
    {
      "epoch": 8.207951070336392,
      "grad_norm": 0.12343442440032959,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8052
    },
    {
      "epoch": 8.208970438328237,
      "grad_norm": 0.04979819059371948,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 8053
    },
    {
      "epoch": 8.209989806320081,
      "grad_norm": 0.1301509141921997,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 8054
    },
    {
      "epoch": 8.211009174311927,
      "grad_norm": 0.16807225346565247,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 8055
    },
    {
      "epoch": 8.212028542303772,
      "grad_norm": 0.25521883368492126,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8056
    },
    {
      "epoch": 8.213047910295616,
      "grad_norm": 0.11640547960996628,
      "learning_rate": 0.001,
      "loss": 0.2072,
      "step": 8057
    },
    {
      "epoch": 8.214067278287462,
      "grad_norm": 0.14084675908088684,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 8058
    },
    {
      "epoch": 8.215086646279307,
      "grad_norm": 0.19292238354682922,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 8059
    },
    {
      "epoch": 8.216106014271151,
      "grad_norm": 0.11890264600515366,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 8060
    },
    {
      "epoch": 8.217125382262997,
      "grad_norm": 0.19661466777324677,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 8061
    },
    {
      "epoch": 8.218144750254842,
      "grad_norm": 0.11159945279359818,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 8062
    },
    {
      "epoch": 8.219164118246686,
      "grad_norm": 0.12767863273620605,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 8063
    },
    {
      "epoch": 8.220183486238533,
      "grad_norm": 0.09448721259832382,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 8064
    },
    {
      "epoch": 8.221202854230377,
      "grad_norm": 0.09914358705282211,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8065
    },
    {
      "epoch": 8.222222222222221,
      "grad_norm": 0.06477553397417068,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 8066
    },
    {
      "epoch": 8.223241590214068,
      "grad_norm": 0.0687536671757698,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 8067
    },
    {
      "epoch": 8.224260958205912,
      "grad_norm": 0.13372881710529327,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 8068
    },
    {
      "epoch": 8.225280326197758,
      "grad_norm": 0.09179665893316269,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8069
    },
    {
      "epoch": 8.226299694189603,
      "grad_norm": 0.12032359093427658,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 8070
    },
    {
      "epoch": 8.227319062181447,
      "grad_norm": 0.06391926854848862,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 8071
    },
    {
      "epoch": 8.228338430173293,
      "grad_norm": 0.11733636260032654,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 8072
    },
    {
      "epoch": 8.229357798165138,
      "grad_norm": 0.13050030171871185,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 8073
    },
    {
      "epoch": 8.230377166156982,
      "grad_norm": 0.21844129264354706,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 8074
    },
    {
      "epoch": 8.231396534148828,
      "grad_norm": 0.08224597573280334,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 8075
    },
    {
      "epoch": 8.232415902140673,
      "grad_norm": 0.08575835078954697,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 8076
    },
    {
      "epoch": 8.233435270132517,
      "grad_norm": 0.0829789862036705,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 8077
    },
    {
      "epoch": 8.234454638124364,
      "grad_norm": 0.06872104853391647,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 8078
    },
    {
      "epoch": 8.235474006116208,
      "grad_norm": 0.10788089036941528,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 8079
    },
    {
      "epoch": 8.236493374108052,
      "grad_norm": 0.11711383610963821,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 8080
    },
    {
      "epoch": 8.237512742099899,
      "grad_norm": 0.1236344501376152,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 8081
    },
    {
      "epoch": 8.238532110091743,
      "grad_norm": 0.10842001438140869,
      "learning_rate": 0.001,
      "loss": 0.2123,
      "step": 8082
    },
    {
      "epoch": 8.239551478083587,
      "grad_norm": 0.10576982796192169,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 8083
    },
    {
      "epoch": 8.240570846075434,
      "grad_norm": 0.13448993861675262,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 8084
    },
    {
      "epoch": 8.241590214067278,
      "grad_norm": 0.1694507896900177,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 8085
    },
    {
      "epoch": 8.242609582059123,
      "grad_norm": 0.10399119555950165,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 8086
    },
    {
      "epoch": 8.243628950050969,
      "grad_norm": 0.1455138772726059,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 8087
    },
    {
      "epoch": 8.244648318042813,
      "grad_norm": 0.11421246826648712,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 8088
    },
    {
      "epoch": 8.24566768603466,
      "grad_norm": 0.10255460441112518,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 8089
    },
    {
      "epoch": 8.246687054026504,
      "grad_norm": 0.06957300007343292,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 8090
    },
    {
      "epoch": 8.247706422018348,
      "grad_norm": 0.09372416883707047,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 8091
    },
    {
      "epoch": 8.248725790010194,
      "grad_norm": 0.0695207267999649,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 8092
    },
    {
      "epoch": 8.249745158002039,
      "grad_norm": 0.09002526104450226,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 8093
    },
    {
      "epoch": 8.250764525993883,
      "grad_norm": 0.08752460032701492,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8094
    },
    {
      "epoch": 8.25178389398573,
      "grad_norm": 0.15626828372478485,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8095
    },
    {
      "epoch": 8.252803261977574,
      "grad_norm": 0.11619409173727036,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 8096
    },
    {
      "epoch": 8.253822629969418,
      "grad_norm": 0.111524797976017,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 8097
    },
    {
      "epoch": 8.254841997961265,
      "grad_norm": 0.15025119483470917,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 8098
    },
    {
      "epoch": 8.255861365953109,
      "grad_norm": 0.14619797468185425,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 8099
    },
    {
      "epoch": 8.256880733944953,
      "grad_norm": 0.09396543353796005,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 8100
    },
    {
      "epoch": 8.2579001019368,
      "grad_norm": 0.3229828476905823,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8101
    },
    {
      "epoch": 8.258919469928644,
      "grad_norm": 0.12339338660240173,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8102
    },
    {
      "epoch": 8.259938837920489,
      "grad_norm": 0.11747759580612183,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8103
    },
    {
      "epoch": 8.260958205912335,
      "grad_norm": 0.1483667641878128,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 8104
    },
    {
      "epoch": 8.26197757390418,
      "grad_norm": 0.06789633631706238,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8105
    },
    {
      "epoch": 8.262996941896024,
      "grad_norm": 0.12846964597702026,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 8106
    },
    {
      "epoch": 8.26401630988787,
      "grad_norm": 0.2136918157339096,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 8107
    },
    {
      "epoch": 8.265035677879714,
      "grad_norm": 0.18441013991832733,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 8108
    },
    {
      "epoch": 8.26605504587156,
      "grad_norm": 0.1434742510318756,
      "learning_rate": 0.001,
      "loss": 0.155,
      "step": 8109
    },
    {
      "epoch": 8.267074413863405,
      "grad_norm": 0.1290898323059082,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 8110
    },
    {
      "epoch": 8.26809378185525,
      "grad_norm": 0.1019003763794899,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 8111
    },
    {
      "epoch": 8.269113149847096,
      "grad_norm": 0.07570027559995651,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 8112
    },
    {
      "epoch": 8.27013251783894,
      "grad_norm": 0.1196889653801918,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 8113
    },
    {
      "epoch": 8.271151885830784,
      "grad_norm": 0.1089601069688797,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 8114
    },
    {
      "epoch": 8.27217125382263,
      "grad_norm": 0.11641789227724075,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 8115
    },
    {
      "epoch": 8.273190621814475,
      "grad_norm": 0.19130082428455353,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8116
    },
    {
      "epoch": 8.27420998980632,
      "grad_norm": 0.09638186544179916,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 8117
    },
    {
      "epoch": 8.275229357798166,
      "grad_norm": 0.08529019355773926,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 8118
    },
    {
      "epoch": 8.27624872579001,
      "grad_norm": 0.0869060829281807,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 8119
    },
    {
      "epoch": 8.277268093781855,
      "grad_norm": 0.20321708917617798,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8120
    },
    {
      "epoch": 8.2782874617737,
      "grad_norm": 0.08864055573940277,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8121
    },
    {
      "epoch": 8.279306829765545,
      "grad_norm": 0.08375690877437592,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 8122
    },
    {
      "epoch": 8.28032619775739,
      "grad_norm": 0.10910450667142868,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 8123
    },
    {
      "epoch": 8.281345565749236,
      "grad_norm": 0.10801418870687485,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 8124
    },
    {
      "epoch": 8.28236493374108,
      "grad_norm": 0.09714969992637634,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 8125
    },
    {
      "epoch": 8.283384301732925,
      "grad_norm": 0.06730260699987411,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 8126
    },
    {
      "epoch": 8.284403669724771,
      "grad_norm": 0.08582141250371933,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 8127
    },
    {
      "epoch": 8.285423037716615,
      "grad_norm": 0.1546110063791275,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8128
    },
    {
      "epoch": 8.286442405708462,
      "grad_norm": 0.06424014270305634,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 8129
    },
    {
      "epoch": 8.287461773700306,
      "grad_norm": 0.08046619594097137,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 8130
    },
    {
      "epoch": 8.28848114169215,
      "grad_norm": 0.15931671857833862,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8131
    },
    {
      "epoch": 8.289500509683997,
      "grad_norm": 0.12601806223392487,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 8132
    },
    {
      "epoch": 8.290519877675841,
      "grad_norm": 0.09100830554962158,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 8133
    },
    {
      "epoch": 8.291539245667686,
      "grad_norm": 0.05524733290076256,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8134
    },
    {
      "epoch": 8.292558613659532,
      "grad_norm": 0.09204355627298355,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 8135
    },
    {
      "epoch": 8.293577981651376,
      "grad_norm": 0.08221117407083511,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 8136
    },
    {
      "epoch": 8.29459734964322,
      "grad_norm": 0.12052550911903381,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 8137
    },
    {
      "epoch": 8.295616717635067,
      "grad_norm": 0.16551540791988373,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 8138
    },
    {
      "epoch": 8.296636085626911,
      "grad_norm": 0.10334743559360504,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 8139
    },
    {
      "epoch": 8.297655453618756,
      "grad_norm": 0.11774546653032303,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 8140
    },
    {
      "epoch": 8.298674821610602,
      "grad_norm": 0.06931160390377045,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 8141
    },
    {
      "epoch": 8.299694189602446,
      "grad_norm": 0.18716733157634735,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 8142
    },
    {
      "epoch": 8.30071355759429,
      "grad_norm": 0.30474981665611267,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 8143
    },
    {
      "epoch": 8.301732925586137,
      "grad_norm": 0.12037571519613266,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 8144
    },
    {
      "epoch": 8.302752293577981,
      "grad_norm": 0.15140876173973083,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 8145
    },
    {
      "epoch": 8.303771661569826,
      "grad_norm": 0.2479669153690338,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 8146
    },
    {
      "epoch": 8.304791029561672,
      "grad_norm": 0.11856282502412796,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 8147
    },
    {
      "epoch": 8.305810397553516,
      "grad_norm": 0.10021413117647171,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 8148
    },
    {
      "epoch": 8.306829765545363,
      "grad_norm": 0.14911998808383942,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 8149
    },
    {
      "epoch": 8.307849133537207,
      "grad_norm": 0.26128971576690674,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 8150
    },
    {
      "epoch": 8.308868501529052,
      "grad_norm": 0.09941276162862778,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8151
    },
    {
      "epoch": 8.309887869520898,
      "grad_norm": 0.14319667220115662,
      "learning_rate": 0.001,
      "loss": 0.2178,
      "step": 8152
    },
    {
      "epoch": 8.310907237512742,
      "grad_norm": 0.0933045819401741,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 8153
    },
    {
      "epoch": 8.311926605504587,
      "grad_norm": 0.1012132316827774,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 8154
    },
    {
      "epoch": 8.312945973496433,
      "grad_norm": 0.1413111835718155,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 8155
    },
    {
      "epoch": 8.313965341488277,
      "grad_norm": 0.17611458897590637,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 8156
    },
    {
      "epoch": 8.314984709480122,
      "grad_norm": 0.10682040452957153,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 8157
    },
    {
      "epoch": 8.316004077471968,
      "grad_norm": 0.2207489162683487,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 8158
    },
    {
      "epoch": 8.317023445463812,
      "grad_norm": 0.1685030162334442,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 8159
    },
    {
      "epoch": 8.318042813455657,
      "grad_norm": 0.1035970002412796,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 8160
    },
    {
      "epoch": 8.319062181447503,
      "grad_norm": 0.09453020989894867,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 8161
    },
    {
      "epoch": 8.320081549439347,
      "grad_norm": 0.08774863183498383,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8162
    },
    {
      "epoch": 8.321100917431192,
      "grad_norm": 0.169906347990036,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 8163
    },
    {
      "epoch": 8.322120285423038,
      "grad_norm": 0.08542539179325104,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8164
    },
    {
      "epoch": 8.323139653414882,
      "grad_norm": 0.12725822627544403,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 8165
    },
    {
      "epoch": 8.324159021406729,
      "grad_norm": 0.1337735801935196,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 8166
    },
    {
      "epoch": 8.325178389398573,
      "grad_norm": 0.12640966475009918,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8167
    },
    {
      "epoch": 8.326197757390418,
      "grad_norm": 0.09687673300504684,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 8168
    },
    {
      "epoch": 8.327217125382264,
      "grad_norm": 0.11361236870288849,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 8169
    },
    {
      "epoch": 8.328236493374108,
      "grad_norm": 0.13412848114967346,
      "learning_rate": 0.001,
      "loss": 0.2085,
      "step": 8170
    },
    {
      "epoch": 8.329255861365953,
      "grad_norm": 0.13335499167442322,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8171
    },
    {
      "epoch": 8.330275229357799,
      "grad_norm": 0.1305844932794571,
      "learning_rate": 0.001,
      "loss": 0.2192,
      "step": 8172
    },
    {
      "epoch": 8.331294597349643,
      "grad_norm": 0.11555615812540054,
      "learning_rate": 0.001,
      "loss": 0.2218,
      "step": 8173
    },
    {
      "epoch": 8.332313965341488,
      "grad_norm": 0.13098548352718353,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8174
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.10212425887584686,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 8175
    },
    {
      "epoch": 8.334352701325178,
      "grad_norm": 0.08368010073900223,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 8176
    },
    {
      "epoch": 8.335372069317023,
      "grad_norm": 0.07451023906469345,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 8177
    },
    {
      "epoch": 8.336391437308869,
      "grad_norm": 0.1428900808095932,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 8178
    },
    {
      "epoch": 8.337410805300713,
      "grad_norm": 0.08746373653411865,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8179
    },
    {
      "epoch": 8.338430173292558,
      "grad_norm": 0.08745799958705902,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 8180
    },
    {
      "epoch": 8.339449541284404,
      "grad_norm": 0.1013718768954277,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 8181
    },
    {
      "epoch": 8.340468909276249,
      "grad_norm": 0.15725383162498474,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 8182
    },
    {
      "epoch": 8.341488277268093,
      "grad_norm": 0.2209843546152115,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 8183
    },
    {
      "epoch": 8.34250764525994,
      "grad_norm": 0.1250724047422409,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 8184
    },
    {
      "epoch": 8.343527013251784,
      "grad_norm": 0.09316611289978027,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 8185
    },
    {
      "epoch": 8.34454638124363,
      "grad_norm": 0.05430907756090164,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 8186
    },
    {
      "epoch": 8.345565749235474,
      "grad_norm": 0.09520100802183151,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 8187
    },
    {
      "epoch": 8.346585117227319,
      "grad_norm": 0.12403696030378342,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 8188
    },
    {
      "epoch": 8.347604485219165,
      "grad_norm": 0.10146684944629669,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 8189
    },
    {
      "epoch": 8.34862385321101,
      "grad_norm": 0.13920839130878448,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 8190
    },
    {
      "epoch": 8.349643221202854,
      "grad_norm": 0.19185498356819153,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 8191
    },
    {
      "epoch": 8.3506625891947,
      "grad_norm": 0.18111446499824524,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 8192
    },
    {
      "epoch": 8.351681957186544,
      "grad_norm": 0.07592534273862839,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 8193
    },
    {
      "epoch": 8.352701325178389,
      "grad_norm": 0.08965633809566498,
      "learning_rate": 0.001,
      "loss": 0.1636,
      "step": 8194
    },
    {
      "epoch": 8.353720693170235,
      "grad_norm": 0.08584193140268326,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 8195
    },
    {
      "epoch": 8.35474006116208,
      "grad_norm": 0.10692299902439117,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 8196
    },
    {
      "epoch": 8.355759429153924,
      "grad_norm": 0.08741848915815353,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 8197
    },
    {
      "epoch": 8.35677879714577,
      "grad_norm": 0.1339636892080307,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8198
    },
    {
      "epoch": 8.357798165137615,
      "grad_norm": 0.06530014425516129,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 8199
    },
    {
      "epoch": 8.358817533129459,
      "grad_norm": 0.1105642020702362,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 8200
    },
    {
      "epoch": 8.359836901121305,
      "grad_norm": 0.12440893799066544,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 8201
    },
    {
      "epoch": 8.36085626911315,
      "grad_norm": 0.1612093448638916,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 8202
    },
    {
      "epoch": 8.361875637104994,
      "grad_norm": 0.20461000502109528,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 8203
    },
    {
      "epoch": 8.36289500509684,
      "grad_norm": 0.14780278503894806,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 8204
    },
    {
      "epoch": 8.363914373088685,
      "grad_norm": 0.11193610727787018,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 8205
    },
    {
      "epoch": 8.364933741080531,
      "grad_norm": 0.1352987140417099,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 8206
    },
    {
      "epoch": 8.365953109072375,
      "grad_norm": 0.142531156539917,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 8207
    },
    {
      "epoch": 8.36697247706422,
      "grad_norm": 0.10990481823682785,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 8208
    },
    {
      "epoch": 8.367991845056066,
      "grad_norm": 0.11640527844429016,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 8209
    },
    {
      "epoch": 8.36901121304791,
      "grad_norm": 0.13215988874435425,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 8210
    },
    {
      "epoch": 8.370030581039755,
      "grad_norm": 0.07564831525087357,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 8211
    },
    {
      "epoch": 8.371049949031601,
      "grad_norm": 0.29775121808052063,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 8212
    },
    {
      "epoch": 8.372069317023445,
      "grad_norm": 0.16145452857017517,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 8213
    },
    {
      "epoch": 8.37308868501529,
      "grad_norm": 0.07767371088266373,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 8214
    },
    {
      "epoch": 8.374108053007136,
      "grad_norm": 0.10647869855165482,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 8215
    },
    {
      "epoch": 8.37512742099898,
      "grad_norm": 0.11171990633010864,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 8216
    },
    {
      "epoch": 8.376146788990825,
      "grad_norm": 0.17789676785469055,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 8217
    },
    {
      "epoch": 8.377166156982671,
      "grad_norm": 0.11201570928096771,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 8218
    },
    {
      "epoch": 8.378185524974516,
      "grad_norm": 0.08629241585731506,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 8219
    },
    {
      "epoch": 8.37920489296636,
      "grad_norm": 0.07794663310050964,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 8220
    },
    {
      "epoch": 8.380224260958206,
      "grad_norm": 0.09861072897911072,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 8221
    },
    {
      "epoch": 8.38124362895005,
      "grad_norm": 0.22730891406536102,
      "learning_rate": 0.001,
      "loss": 0.213,
      "step": 8222
    },
    {
      "epoch": 8.382262996941897,
      "grad_norm": 0.13253840804100037,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8223
    },
    {
      "epoch": 8.383282364933741,
      "grad_norm": 0.1026739850640297,
      "learning_rate": 0.001,
      "loss": 0.2228,
      "step": 8224
    },
    {
      "epoch": 8.384301732925586,
      "grad_norm": 0.12621405720710754,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8225
    },
    {
      "epoch": 8.385321100917432,
      "grad_norm": 0.13348805904388428,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 8226
    },
    {
      "epoch": 8.386340468909276,
      "grad_norm": 0.11125250905752182,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 8227
    },
    {
      "epoch": 8.38735983690112,
      "grad_norm": 0.09466720372438431,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8228
    },
    {
      "epoch": 8.388379204892967,
      "grad_norm": 0.07790447771549225,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 8229
    },
    {
      "epoch": 8.389398572884812,
      "grad_norm": 0.09905768185853958,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 8230
    },
    {
      "epoch": 8.390417940876656,
      "grad_norm": 0.06310608237981796,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 8231
    },
    {
      "epoch": 8.391437308868502,
      "grad_norm": 0.06140463799238205,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 8232
    },
    {
      "epoch": 8.392456676860347,
      "grad_norm": 0.09430134296417236,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 8233
    },
    {
      "epoch": 8.393476044852191,
      "grad_norm": 0.19175097346305847,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 8234
    },
    {
      "epoch": 8.394495412844037,
      "grad_norm": 0.10020238161087036,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 8235
    },
    {
      "epoch": 8.395514780835882,
      "grad_norm": 0.0692312940955162,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 8236
    },
    {
      "epoch": 8.396534148827726,
      "grad_norm": 0.10593871772289276,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 8237
    },
    {
      "epoch": 8.397553516819572,
      "grad_norm": 0.18042072653770447,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 8238
    },
    {
      "epoch": 8.398572884811417,
      "grad_norm": 0.11078061908483505,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 8239
    },
    {
      "epoch": 8.399592252803261,
      "grad_norm": 0.29491686820983887,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 8240
    },
    {
      "epoch": 8.400611620795107,
      "grad_norm": 0.38929858803749084,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 8241
    },
    {
      "epoch": 8.401630988786952,
      "grad_norm": 0.18099896609783173,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 8242
    },
    {
      "epoch": 8.402650356778796,
      "grad_norm": 0.09459316730499268,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 8243
    },
    {
      "epoch": 8.403669724770642,
      "grad_norm": 0.1549578160047531,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 8244
    },
    {
      "epoch": 8.404689092762487,
      "grad_norm": 0.11896825581789017,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8245
    },
    {
      "epoch": 8.405708460754333,
      "grad_norm": 0.19386087357997894,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 8246
    },
    {
      "epoch": 8.406727828746178,
      "grad_norm": 0.14108166098594666,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 8247
    },
    {
      "epoch": 8.407747196738022,
      "grad_norm": 0.08389410376548767,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 8248
    },
    {
      "epoch": 8.408766564729868,
      "grad_norm": 0.058682866394519806,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 8249
    },
    {
      "epoch": 8.409785932721713,
      "grad_norm": 0.08027917891740799,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 8250
    },
    {
      "epoch": 8.410805300713557,
      "grad_norm": 0.10881154239177704,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 8251
    },
    {
      "epoch": 8.411824668705403,
      "grad_norm": 0.1558428555727005,
      "learning_rate": 0.001,
      "loss": 0.2384,
      "step": 8252
    },
    {
      "epoch": 8.412844036697248,
      "grad_norm": 0.08572061359882355,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 8253
    },
    {
      "epoch": 8.413863404689092,
      "grad_norm": 0.1647033393383026,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 8254
    },
    {
      "epoch": 8.414882772680938,
      "grad_norm": 0.09195207059383392,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 8255
    },
    {
      "epoch": 8.415902140672783,
      "grad_norm": 0.12453785538673401,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 8256
    },
    {
      "epoch": 8.416921508664627,
      "grad_norm": 0.10937546193599701,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 8257
    },
    {
      "epoch": 8.417940876656473,
      "grad_norm": 0.12340390682220459,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 8258
    },
    {
      "epoch": 8.418960244648318,
      "grad_norm": 0.0766187235713005,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 8259
    },
    {
      "epoch": 8.419979612640162,
      "grad_norm": 0.12600336968898773,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 8260
    },
    {
      "epoch": 8.420998980632008,
      "grad_norm": 0.10291182994842529,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 8261
    },
    {
      "epoch": 8.422018348623853,
      "grad_norm": 0.14576241374015808,
      "learning_rate": 0.001,
      "loss": 0.2108,
      "step": 8262
    },
    {
      "epoch": 8.423037716615699,
      "grad_norm": 0.10340128093957901,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 8263
    },
    {
      "epoch": 8.424057084607544,
      "grad_norm": 0.1633128970861435,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 8264
    },
    {
      "epoch": 8.425076452599388,
      "grad_norm": 0.16949836909770966,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 8265
    },
    {
      "epoch": 8.426095820591234,
      "grad_norm": 0.12759467959403992,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 8266
    },
    {
      "epoch": 8.427115188583079,
      "grad_norm": 0.08667905628681183,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 8267
    },
    {
      "epoch": 8.428134556574923,
      "grad_norm": 0.12334199249744415,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 8268
    },
    {
      "epoch": 8.42915392456677,
      "grad_norm": 0.09478985518217087,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 8269
    },
    {
      "epoch": 8.430173292558614,
      "grad_norm": 0.09628937393426895,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 8270
    },
    {
      "epoch": 8.431192660550458,
      "grad_norm": 0.11639644205570221,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8271
    },
    {
      "epoch": 8.432212028542304,
      "grad_norm": 0.09119068086147308,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 8272
    },
    {
      "epoch": 8.433231396534149,
      "grad_norm": 0.10280942916870117,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 8273
    },
    {
      "epoch": 8.434250764525993,
      "grad_norm": 0.17445436120033264,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 8274
    },
    {
      "epoch": 8.43527013251784,
      "grad_norm": 0.0697561725974083,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 8275
    },
    {
      "epoch": 8.436289500509684,
      "grad_norm": 0.08007105439901352,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 8276
    },
    {
      "epoch": 8.437308868501528,
      "grad_norm": 0.09277811646461487,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8277
    },
    {
      "epoch": 8.438328236493374,
      "grad_norm": 0.2208739072084427,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 8278
    },
    {
      "epoch": 8.439347604485219,
      "grad_norm": 0.08498728275299072,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 8279
    },
    {
      "epoch": 8.440366972477065,
      "grad_norm": 0.09640856832265854,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 8280
    },
    {
      "epoch": 8.44138634046891,
      "grad_norm": 0.14423659443855286,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 8281
    },
    {
      "epoch": 8.442405708460754,
      "grad_norm": 0.063935287296772,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 8282
    },
    {
      "epoch": 8.4434250764526,
      "grad_norm": 0.08168982714414597,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 8283
    },
    {
      "epoch": 8.444444444444445,
      "grad_norm": 0.15017464756965637,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 8284
    },
    {
      "epoch": 8.445463812436289,
      "grad_norm": 0.11298833042383194,
      "learning_rate": 0.001,
      "loss": 0.2209,
      "step": 8285
    },
    {
      "epoch": 8.446483180428135,
      "grad_norm": 0.1294211447238922,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8286
    },
    {
      "epoch": 8.44750254841998,
      "grad_norm": 0.09737054258584976,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 8287
    },
    {
      "epoch": 8.448521916411824,
      "grad_norm": 0.1128188893198967,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 8288
    },
    {
      "epoch": 8.44954128440367,
      "grad_norm": 0.09523703157901764,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8289
    },
    {
      "epoch": 8.450560652395515,
      "grad_norm": 0.20340900123119354,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 8290
    },
    {
      "epoch": 8.45158002038736,
      "grad_norm": 0.13088157773017883,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 8291
    },
    {
      "epoch": 8.452599388379205,
      "grad_norm": 0.10635611414909363,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 8292
    },
    {
      "epoch": 8.45361875637105,
      "grad_norm": 0.7308564782142639,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 8293
    },
    {
      "epoch": 8.454638124362894,
      "grad_norm": 0.0754280760884285,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8294
    },
    {
      "epoch": 8.45565749235474,
      "grad_norm": 0.30318161845207214,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 8295
    },
    {
      "epoch": 8.456676860346585,
      "grad_norm": 0.1159767135977745,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 8296
    },
    {
      "epoch": 8.45769622833843,
      "grad_norm": 0.19628176093101501,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 8297
    },
    {
      "epoch": 8.458715596330276,
      "grad_norm": 0.12229017168283463,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8298
    },
    {
      "epoch": 8.45973496432212,
      "grad_norm": 0.1367635875940323,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 8299
    },
    {
      "epoch": 8.460754332313964,
      "grad_norm": 0.20737037062644958,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 8300
    },
    {
      "epoch": 8.46177370030581,
      "grad_norm": 0.23649221658706665,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 8301
    },
    {
      "epoch": 8.462793068297655,
      "grad_norm": 0.5236082673072815,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 8302
    },
    {
      "epoch": 8.463812436289501,
      "grad_norm": 0.1387796700000763,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 8303
    },
    {
      "epoch": 8.464831804281346,
      "grad_norm": 0.09843003749847412,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 8304
    },
    {
      "epoch": 8.46585117227319,
      "grad_norm": 0.5887413620948792,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 8305
    },
    {
      "epoch": 8.466870540265036,
      "grad_norm": 0.07512147724628448,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8306
    },
    {
      "epoch": 8.46788990825688,
      "grad_norm": 0.12752829492092133,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8307
    },
    {
      "epoch": 8.468909276248725,
      "grad_norm": 0.09677403420209885,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 8308
    },
    {
      "epoch": 8.469928644240571,
      "grad_norm": 0.11679166555404663,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 8309
    },
    {
      "epoch": 8.470948012232416,
      "grad_norm": 0.08199205994606018,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 8310
    },
    {
      "epoch": 8.47196738022426,
      "grad_norm": 0.17744356393814087,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8311
    },
    {
      "epoch": 8.472986748216107,
      "grad_norm": 0.05813387408852577,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 8312
    },
    {
      "epoch": 8.474006116207951,
      "grad_norm": 0.14151139557361603,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 8313
    },
    {
      "epoch": 8.475025484199795,
      "grad_norm": 0.10189065337181091,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 8314
    },
    {
      "epoch": 8.476044852191642,
      "grad_norm": 0.12741263210773468,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 8315
    },
    {
      "epoch": 8.477064220183486,
      "grad_norm": 0.07374849170446396,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 8316
    },
    {
      "epoch": 8.47808358817533,
      "grad_norm": 0.09459000825881958,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 8317
    },
    {
      "epoch": 8.479102956167177,
      "grad_norm": 0.09986726939678192,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 8318
    },
    {
      "epoch": 8.480122324159021,
      "grad_norm": 0.14168709516525269,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 8319
    },
    {
      "epoch": 8.481141692150867,
      "grad_norm": 0.08473366498947144,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 8320
    },
    {
      "epoch": 8.482161060142712,
      "grad_norm": 0.12864865362644196,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 8321
    },
    {
      "epoch": 8.483180428134556,
      "grad_norm": 0.17591191828250885,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 8322
    },
    {
      "epoch": 8.484199796126402,
      "grad_norm": 0.10563642531633377,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 8323
    },
    {
      "epoch": 8.485219164118247,
      "grad_norm": 0.12673743069171906,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 8324
    },
    {
      "epoch": 8.486238532110091,
      "grad_norm": 0.13567252457141876,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 8325
    },
    {
      "epoch": 8.487257900101937,
      "grad_norm": 0.12045454233884811,
      "learning_rate": 0.001,
      "loss": 0.2244,
      "step": 8326
    },
    {
      "epoch": 8.488277268093782,
      "grad_norm": 0.1815262883901596,
      "learning_rate": 0.001,
      "loss": 0.2195,
      "step": 8327
    },
    {
      "epoch": 8.489296636085626,
      "grad_norm": 0.11342014372348785,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 8328
    },
    {
      "epoch": 8.490316004077473,
      "grad_norm": 0.07584143429994583,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 8329
    },
    {
      "epoch": 8.491335372069317,
      "grad_norm": 0.11924149096012115,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 8330
    },
    {
      "epoch": 8.492354740061161,
      "grad_norm": 0.0845988467335701,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 8331
    },
    {
      "epoch": 8.493374108053008,
      "grad_norm": 0.08477899432182312,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8332
    },
    {
      "epoch": 8.494393476044852,
      "grad_norm": 0.09145426005125046,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 8333
    },
    {
      "epoch": 8.495412844036696,
      "grad_norm": 0.05973142385482788,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 8334
    },
    {
      "epoch": 8.496432212028543,
      "grad_norm": 0.0957176685333252,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 8335
    },
    {
      "epoch": 8.497451580020387,
      "grad_norm": 0.0866805836558342,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 8336
    },
    {
      "epoch": 8.498470948012232,
      "grad_norm": 0.23047363758087158,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8337
    },
    {
      "epoch": 8.499490316004078,
      "grad_norm": 0.20951034128665924,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 8338
    },
    {
      "epoch": 8.500509683995922,
      "grad_norm": 0.15113982558250427,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 8339
    },
    {
      "epoch": 8.501529051987767,
      "grad_norm": 0.24129030108451843,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8340
    },
    {
      "epoch": 8.502548419979613,
      "grad_norm": 0.09054630994796753,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8341
    },
    {
      "epoch": 8.503567787971457,
      "grad_norm": 0.0824180394411087,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 8342
    },
    {
      "epoch": 8.504587155963304,
      "grad_norm": 0.12869124114513397,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 8343
    },
    {
      "epoch": 8.505606523955148,
      "grad_norm": 0.1127634048461914,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 8344
    },
    {
      "epoch": 8.506625891946992,
      "grad_norm": 0.14983795583248138,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 8345
    },
    {
      "epoch": 8.507645259938839,
      "grad_norm": 0.25469204783439636,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 8346
    },
    {
      "epoch": 8.508664627930683,
      "grad_norm": 0.13376152515411377,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 8347
    },
    {
      "epoch": 8.509683995922527,
      "grad_norm": 0.11216308176517487,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 8348
    },
    {
      "epoch": 8.510703363914374,
      "grad_norm": 0.1383982002735138,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 8349
    },
    {
      "epoch": 8.511722731906218,
      "grad_norm": 0.08538244664669037,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 8350
    },
    {
      "epoch": 8.512742099898063,
      "grad_norm": 0.06583244353532791,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 8351
    },
    {
      "epoch": 8.513761467889909,
      "grad_norm": 0.3948487639427185,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 8352
    },
    {
      "epoch": 8.514780835881753,
      "grad_norm": 0.08436042070388794,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 8353
    },
    {
      "epoch": 8.515800203873598,
      "grad_norm": 0.07979219406843185,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 8354
    },
    {
      "epoch": 8.516819571865444,
      "grad_norm": 0.11411798000335693,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 8355
    },
    {
      "epoch": 8.517838939857288,
      "grad_norm": 0.08272670209407806,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 8356
    },
    {
      "epoch": 8.518858307849133,
      "grad_norm": 0.08696206659078598,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8357
    },
    {
      "epoch": 8.519877675840979,
      "grad_norm": 0.052471261471509933,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 8358
    },
    {
      "epoch": 8.520897043832823,
      "grad_norm": 0.1258915811777115,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 8359
    },
    {
      "epoch": 8.52191641182467,
      "grad_norm": 0.12736447155475616,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8360
    },
    {
      "epoch": 8.522935779816514,
      "grad_norm": 0.04580054432153702,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 8361
    },
    {
      "epoch": 8.523955147808358,
      "grad_norm": 0.10744991898536682,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 8362
    },
    {
      "epoch": 8.524974515800205,
      "grad_norm": 0.16342079639434814,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 8363
    },
    {
      "epoch": 8.525993883792049,
      "grad_norm": 0.10018767416477203,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 8364
    },
    {
      "epoch": 8.527013251783893,
      "grad_norm": 0.07193180173635483,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 8365
    },
    {
      "epoch": 8.52803261977574,
      "grad_norm": 0.1407536119222641,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 8366
    },
    {
      "epoch": 8.529051987767584,
      "grad_norm": 0.09223813563585281,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 8367
    },
    {
      "epoch": 8.530071355759429,
      "grad_norm": 0.1544197052717209,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 8368
    },
    {
      "epoch": 8.531090723751275,
      "grad_norm": 0.14027023315429688,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 8369
    },
    {
      "epoch": 8.53211009174312,
      "grad_norm": 0.13298240303993225,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 8370
    },
    {
      "epoch": 8.533129459734964,
      "grad_norm": 0.16623039543628693,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 8371
    },
    {
      "epoch": 8.53414882772681,
      "grad_norm": 0.10181397944688797,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 8372
    },
    {
      "epoch": 8.535168195718654,
      "grad_norm": 0.18306542932987213,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 8373
    },
    {
      "epoch": 8.536187563710499,
      "grad_norm": 0.09853404015302658,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 8374
    },
    {
      "epoch": 8.537206931702345,
      "grad_norm": 0.12876786291599274,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 8375
    },
    {
      "epoch": 8.53822629969419,
      "grad_norm": 0.09344727545976639,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 8376
    },
    {
      "epoch": 8.539245667686036,
      "grad_norm": 0.10620288550853729,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8377
    },
    {
      "epoch": 8.54026503567788,
      "grad_norm": 0.09976217895746231,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 8378
    },
    {
      "epoch": 8.541284403669724,
      "grad_norm": 0.051806554198265076,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 8379
    },
    {
      "epoch": 8.54230377166157,
      "grad_norm": 0.09312258660793304,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 8380
    },
    {
      "epoch": 8.543323139653415,
      "grad_norm": 0.059527333825826645,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 8381
    },
    {
      "epoch": 8.54434250764526,
      "grad_norm": 0.11401520669460297,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 8382
    },
    {
      "epoch": 8.545361875637106,
      "grad_norm": 0.12922976911067963,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 8383
    },
    {
      "epoch": 8.54638124362895,
      "grad_norm": 0.09906183183193207,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 8384
    },
    {
      "epoch": 8.547400611620795,
      "grad_norm": 0.19972063601016998,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 8385
    },
    {
      "epoch": 8.54841997961264,
      "grad_norm": 0.1629418581724167,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 8386
    },
    {
      "epoch": 8.549439347604485,
      "grad_norm": 0.1162886768579483,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 8387
    },
    {
      "epoch": 8.55045871559633,
      "grad_norm": 0.13834576308727264,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 8388
    },
    {
      "epoch": 8.551478083588176,
      "grad_norm": 0.18152503669261932,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 8389
    },
    {
      "epoch": 8.55249745158002,
      "grad_norm": 0.10716152936220169,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8390
    },
    {
      "epoch": 8.553516819571865,
      "grad_norm": 0.09692425280809402,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 8391
    },
    {
      "epoch": 8.554536187563711,
      "grad_norm": 0.09421828389167786,
      "learning_rate": 0.001,
      "loss": 0.2207,
      "step": 8392
    },
    {
      "epoch": 8.555555555555555,
      "grad_norm": 0.08980868756771088,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 8393
    },
    {
      "epoch": 8.5565749235474,
      "grad_norm": 0.1530732661485672,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 8394
    },
    {
      "epoch": 8.557594291539246,
      "grad_norm": 0.14376623928546906,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 8395
    },
    {
      "epoch": 8.55861365953109,
      "grad_norm": 0.10024552047252655,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8396
    },
    {
      "epoch": 8.559633027522935,
      "grad_norm": 0.11090905964374542,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 8397
    },
    {
      "epoch": 8.560652395514781,
      "grad_norm": 0.11720643937587738,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 8398
    },
    {
      "epoch": 8.561671763506626,
      "grad_norm": 0.16152609884738922,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8399
    },
    {
      "epoch": 8.562691131498472,
      "grad_norm": 0.115289106965065,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 8400
    },
    {
      "epoch": 8.563710499490316,
      "grad_norm": 0.08044055849313736,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8401
    },
    {
      "epoch": 8.56472986748216,
      "grad_norm": 0.16864857077598572,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 8402
    },
    {
      "epoch": 8.565749235474007,
      "grad_norm": 0.16689470410346985,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 8403
    },
    {
      "epoch": 8.566768603465851,
      "grad_norm": 0.08746373653411865,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 8404
    },
    {
      "epoch": 8.567787971457696,
      "grad_norm": 0.30846214294433594,
      "learning_rate": 0.001,
      "loss": 0.2119,
      "step": 8405
    },
    {
      "epoch": 8.568807339449542,
      "grad_norm": 0.0988854467868805,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 8406
    },
    {
      "epoch": 8.569826707441386,
      "grad_norm": 0.10799909383058548,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 8407
    },
    {
      "epoch": 8.57084607543323,
      "grad_norm": 0.10016023367643356,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 8408
    },
    {
      "epoch": 8.571865443425077,
      "grad_norm": 0.11589958518743515,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 8409
    },
    {
      "epoch": 8.572884811416921,
      "grad_norm": 0.10018426179885864,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 8410
    },
    {
      "epoch": 8.573904179408766,
      "grad_norm": 0.15562425553798676,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 8411
    },
    {
      "epoch": 8.574923547400612,
      "grad_norm": 0.12425612658262253,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 8412
    },
    {
      "epoch": 8.575942915392456,
      "grad_norm": 0.14530125260353088,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 8413
    },
    {
      "epoch": 8.576962283384301,
      "grad_norm": 0.11972827464342117,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 8414
    },
    {
      "epoch": 8.577981651376147,
      "grad_norm": 0.12032202631235123,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 8415
    },
    {
      "epoch": 8.579001019367992,
      "grad_norm": 0.2785800099372864,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 8416
    },
    {
      "epoch": 8.580020387359838,
      "grad_norm": 0.11706884950399399,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 8417
    },
    {
      "epoch": 8.581039755351682,
      "grad_norm": 0.07340110093355179,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8418
    },
    {
      "epoch": 8.582059123343527,
      "grad_norm": 0.11044272035360336,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 8419
    },
    {
      "epoch": 8.583078491335373,
      "grad_norm": 0.07677196711301804,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 8420
    },
    {
      "epoch": 8.584097859327217,
      "grad_norm": 0.13081863522529602,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 8421
    },
    {
      "epoch": 8.585117227319062,
      "grad_norm": 0.12124474346637726,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 8422
    },
    {
      "epoch": 8.586136595310908,
      "grad_norm": 0.195292130112648,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 8423
    },
    {
      "epoch": 8.587155963302752,
      "grad_norm": 0.13465909659862518,
      "learning_rate": 0.001,
      "loss": 0.1636,
      "step": 8424
    },
    {
      "epoch": 8.588175331294597,
      "grad_norm": 0.12051882594823837,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 8425
    },
    {
      "epoch": 8.589194699286443,
      "grad_norm": 0.15860483050346375,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 8426
    },
    {
      "epoch": 8.590214067278287,
      "grad_norm": 0.09961365908384323,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 8427
    },
    {
      "epoch": 8.591233435270132,
      "grad_norm": 0.0785600021481514,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 8428
    },
    {
      "epoch": 8.592252803261978,
      "grad_norm": 0.09234678000211716,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 8429
    },
    {
      "epoch": 8.593272171253822,
      "grad_norm": 0.20875024795532227,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 8430
    },
    {
      "epoch": 8.594291539245667,
      "grad_norm": 0.08720491081476212,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 8431
    },
    {
      "epoch": 8.595310907237513,
      "grad_norm": 0.19543376564979553,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 8432
    },
    {
      "epoch": 8.596330275229358,
      "grad_norm": 0.13349981606006622,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 8433
    },
    {
      "epoch": 8.597349643221204,
      "grad_norm": 0.08710148185491562,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8434
    },
    {
      "epoch": 8.598369011213048,
      "grad_norm": 0.07858856767416,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 8435
    },
    {
      "epoch": 8.599388379204893,
      "grad_norm": 0.16085581481456757,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 8436
    },
    {
      "epoch": 8.600407747196739,
      "grad_norm": 0.22036781907081604,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 8437
    },
    {
      "epoch": 8.601427115188583,
      "grad_norm": 0.06794921308755875,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 8438
    },
    {
      "epoch": 8.602446483180428,
      "grad_norm": 0.1470848023891449,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 8439
    },
    {
      "epoch": 8.603465851172274,
      "grad_norm": 0.09823732078075409,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 8440
    },
    {
      "epoch": 8.604485219164118,
      "grad_norm": 0.11583297699689865,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 8441
    },
    {
      "epoch": 8.605504587155963,
      "grad_norm": 0.12330201268196106,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8442
    },
    {
      "epoch": 8.606523955147809,
      "grad_norm": 0.09000442177057266,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 8443
    },
    {
      "epoch": 8.607543323139653,
      "grad_norm": 0.04043355956673622,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 8444
    },
    {
      "epoch": 8.608562691131498,
      "grad_norm": 0.10208359360694885,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 8445
    },
    {
      "epoch": 8.609582059123344,
      "grad_norm": 0.12806974351406097,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 8446
    },
    {
      "epoch": 8.610601427115188,
      "grad_norm": 0.08957307040691376,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 8447
    },
    {
      "epoch": 8.611620795107033,
      "grad_norm": 0.11985758692026138,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8448
    },
    {
      "epoch": 8.61264016309888,
      "grad_norm": 0.10311784595251083,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 8449
    },
    {
      "epoch": 8.613659531090724,
      "grad_norm": 0.10494627058506012,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8450
    },
    {
      "epoch": 8.614678899082568,
      "grad_norm": 0.04670834168791771,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 8451
    },
    {
      "epoch": 8.615698267074414,
      "grad_norm": 0.16990365087985992,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 8452
    },
    {
      "epoch": 8.616717635066259,
      "grad_norm": 0.10118165612220764,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 8453
    },
    {
      "epoch": 8.617737003058103,
      "grad_norm": 0.1075611487030983,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 8454
    },
    {
      "epoch": 8.61875637104995,
      "grad_norm": 0.14225220680236816,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 8455
    },
    {
      "epoch": 8.619775739041794,
      "grad_norm": 0.12876050174236298,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8456
    },
    {
      "epoch": 8.62079510703364,
      "grad_norm": 0.07385052740573883,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8457
    },
    {
      "epoch": 8.621814475025484,
      "grad_norm": 0.09663402289152145,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 8458
    },
    {
      "epoch": 8.622833843017329,
      "grad_norm": 0.08171475678682327,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 8459
    },
    {
      "epoch": 8.623853211009175,
      "grad_norm": 0.10179610550403595,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 8460
    },
    {
      "epoch": 8.62487257900102,
      "grad_norm": 0.0908946543931961,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 8461
    },
    {
      "epoch": 8.625891946992864,
      "grad_norm": 0.11754630506038666,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 8462
    },
    {
      "epoch": 8.62691131498471,
      "grad_norm": 0.09686720371246338,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 8463
    },
    {
      "epoch": 8.627930682976555,
      "grad_norm": 0.20185141265392303,
      "learning_rate": 0.001,
      "loss": 0.224,
      "step": 8464
    },
    {
      "epoch": 8.628950050968399,
      "grad_norm": 0.09977486729621887,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 8465
    },
    {
      "epoch": 8.629969418960245,
      "grad_norm": 0.14279231429100037,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 8466
    },
    {
      "epoch": 8.63098878695209,
      "grad_norm": 0.1786356419324875,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 8467
    },
    {
      "epoch": 8.632008154943934,
      "grad_norm": 0.08702989667654037,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 8468
    },
    {
      "epoch": 8.63302752293578,
      "grad_norm": 0.14369729161262512,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8469
    },
    {
      "epoch": 8.634046890927625,
      "grad_norm": 0.09854057431221008,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 8470
    },
    {
      "epoch": 8.635066258919469,
      "grad_norm": 0.11567075550556183,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 8471
    },
    {
      "epoch": 8.636085626911315,
      "grad_norm": 0.15182611346244812,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 8472
    },
    {
      "epoch": 8.63710499490316,
      "grad_norm": 0.09436437487602234,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8473
    },
    {
      "epoch": 8.638124362895006,
      "grad_norm": 0.08064737915992737,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 8474
    },
    {
      "epoch": 8.63914373088685,
      "grad_norm": 0.08993709087371826,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 8475
    },
    {
      "epoch": 8.640163098878695,
      "grad_norm": 0.06377954035997391,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 8476
    },
    {
      "epoch": 8.641182466870541,
      "grad_norm": 0.08436117321252823,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8477
    },
    {
      "epoch": 8.642201834862385,
      "grad_norm": 0.07452574372291565,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 8478
    },
    {
      "epoch": 8.64322120285423,
      "grad_norm": 0.13642747700214386,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 8479
    },
    {
      "epoch": 8.644240570846076,
      "grad_norm": 0.13509264588356018,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 8480
    },
    {
      "epoch": 8.64525993883792,
      "grad_norm": 0.12336184084415436,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 8481
    },
    {
      "epoch": 8.646279306829765,
      "grad_norm": 0.14134301245212555,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 8482
    },
    {
      "epoch": 8.647298674821611,
      "grad_norm": 0.06955806165933609,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8483
    },
    {
      "epoch": 8.648318042813456,
      "grad_norm": 0.20364321768283844,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 8484
    },
    {
      "epoch": 8.6493374108053,
      "grad_norm": 0.18751375377178192,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 8485
    },
    {
      "epoch": 8.650356778797146,
      "grad_norm": 0.08498167991638184,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8486
    },
    {
      "epoch": 8.65137614678899,
      "grad_norm": 0.1032414361834526,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 8487
    },
    {
      "epoch": 8.652395514780835,
      "grad_norm": 0.0962766781449318,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 8488
    },
    {
      "epoch": 8.653414882772681,
      "grad_norm": 0.09452057629823685,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 8489
    },
    {
      "epoch": 8.654434250764526,
      "grad_norm": 0.07350632548332214,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 8490
    },
    {
      "epoch": 8.655453618756372,
      "grad_norm": 0.10765142738819122,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 8491
    },
    {
      "epoch": 8.656472986748216,
      "grad_norm": 0.13461340963840485,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 8492
    },
    {
      "epoch": 8.65749235474006,
      "grad_norm": 0.09059274196624756,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 8493
    },
    {
      "epoch": 8.658511722731905,
      "grad_norm": 0.08663908392190933,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 8494
    },
    {
      "epoch": 8.659531090723751,
      "grad_norm": 0.04483333230018616,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 8495
    },
    {
      "epoch": 8.660550458715596,
      "grad_norm": 0.16439397633075714,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 8496
    },
    {
      "epoch": 8.661569826707442,
      "grad_norm": 0.08965322375297546,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 8497
    },
    {
      "epoch": 8.662589194699287,
      "grad_norm": 0.08902745693922043,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 8498
    },
    {
      "epoch": 8.663608562691131,
      "grad_norm": 0.09617898613214493,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 8499
    },
    {
      "epoch": 8.664627930682977,
      "grad_norm": 0.21318981051445007,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 8500
    },
    {
      "epoch": 8.665647298674822,
      "grad_norm": 0.08682943880558014,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 8501
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.06592033803462982,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 8502
    },
    {
      "epoch": 8.667686034658512,
      "grad_norm": 0.26435720920562744,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 8503
    },
    {
      "epoch": 8.668705402650357,
      "grad_norm": 0.082704558968544,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8504
    },
    {
      "epoch": 8.669724770642201,
      "grad_norm": 0.05019195005297661,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 8505
    },
    {
      "epoch": 8.670744138634047,
      "grad_norm": 0.11090768873691559,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 8506
    },
    {
      "epoch": 8.671763506625892,
      "grad_norm": 0.10445252805948257,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 8507
    },
    {
      "epoch": 8.672782874617736,
      "grad_norm": 0.07970938086509705,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 8508
    },
    {
      "epoch": 8.673802242609582,
      "grad_norm": 0.19830116629600525,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 8509
    },
    {
      "epoch": 8.674821610601427,
      "grad_norm": 0.13776235282421112,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 8510
    },
    {
      "epoch": 8.675840978593271,
      "grad_norm": 0.08105894178152084,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 8511
    },
    {
      "epoch": 8.676860346585118,
      "grad_norm": 0.10287168622016907,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 8512
    },
    {
      "epoch": 8.677879714576962,
      "grad_norm": 0.1409417986869812,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 8513
    },
    {
      "epoch": 8.678899082568808,
      "grad_norm": 0.11743616312742233,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 8514
    },
    {
      "epoch": 8.679918450560653,
      "grad_norm": 0.15765082836151123,
      "learning_rate": 0.001,
      "loss": 0.214,
      "step": 8515
    },
    {
      "epoch": 8.680937818552497,
      "grad_norm": 0.09712310135364532,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 8516
    },
    {
      "epoch": 8.681957186544343,
      "grad_norm": 0.0743652805685997,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 8517
    },
    {
      "epoch": 8.682976554536188,
      "grad_norm": 0.08604201674461365,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 8518
    },
    {
      "epoch": 8.683995922528032,
      "grad_norm": 0.13243478536605835,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 8519
    },
    {
      "epoch": 8.685015290519878,
      "grad_norm": 0.1850099265575409,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 8520
    },
    {
      "epoch": 8.686034658511723,
      "grad_norm": 0.12890484929084778,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 8521
    },
    {
      "epoch": 8.687054026503567,
      "grad_norm": 0.1530957967042923,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8522
    },
    {
      "epoch": 8.688073394495413,
      "grad_norm": 0.13902409374713898,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 8523
    },
    {
      "epoch": 8.689092762487258,
      "grad_norm": 0.1818249523639679,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 8524
    },
    {
      "epoch": 8.690112130479102,
      "grad_norm": 0.10266542434692383,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 8525
    },
    {
      "epoch": 8.691131498470948,
      "grad_norm": 0.1134190484881401,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 8526
    },
    {
      "epoch": 8.692150866462793,
      "grad_norm": 0.10190046578645706,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 8527
    },
    {
      "epoch": 8.693170234454637,
      "grad_norm": 0.06412770599126816,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8528
    },
    {
      "epoch": 8.694189602446484,
      "grad_norm": 0.062169793993234634,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8529
    },
    {
      "epoch": 8.695208970438328,
      "grad_norm": 0.07691077142953873,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 8530
    },
    {
      "epoch": 8.696228338430174,
      "grad_norm": 0.14109401404857635,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 8531
    },
    {
      "epoch": 8.697247706422019,
      "grad_norm": 0.05374017730355263,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 8532
    },
    {
      "epoch": 8.698267074413863,
      "grad_norm": 0.11301304399967194,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 8533
    },
    {
      "epoch": 8.69928644240571,
      "grad_norm": 0.08537638932466507,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 8534
    },
    {
      "epoch": 8.700305810397554,
      "grad_norm": 0.10697098821401596,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 8535
    },
    {
      "epoch": 8.701325178389398,
      "grad_norm": 0.13887162506580353,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8536
    },
    {
      "epoch": 8.702344546381244,
      "grad_norm": 0.08630203455686569,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 8537
    },
    {
      "epoch": 8.703363914373089,
      "grad_norm": 0.07068799436092377,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 8538
    },
    {
      "epoch": 8.704383282364933,
      "grad_norm": 0.11323065310716629,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 8539
    },
    {
      "epoch": 8.70540265035678,
      "grad_norm": 0.10778845846652985,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 8540
    },
    {
      "epoch": 8.706422018348624,
      "grad_norm": 0.07707691192626953,
      "learning_rate": 0.001,
      "loss": 0.166,
      "step": 8541
    },
    {
      "epoch": 8.707441386340468,
      "grad_norm": 0.09712569415569305,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 8542
    },
    {
      "epoch": 8.708460754332314,
      "grad_norm": 0.07392974197864532,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 8543
    },
    {
      "epoch": 8.709480122324159,
      "grad_norm": 0.07865612208843231,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 8544
    },
    {
      "epoch": 8.710499490316003,
      "grad_norm": 0.13822583854198456,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 8545
    },
    {
      "epoch": 8.71151885830785,
      "grad_norm": 0.06990668177604675,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 8546
    },
    {
      "epoch": 8.712538226299694,
      "grad_norm": 0.10333685576915741,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 8547
    },
    {
      "epoch": 8.713557594291538,
      "grad_norm": 0.04091990739107132,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 8548
    },
    {
      "epoch": 8.714576962283385,
      "grad_norm": 0.12450281530618668,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 8549
    },
    {
      "epoch": 8.715596330275229,
      "grad_norm": 0.14986306428909302,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8550
    },
    {
      "epoch": 8.716615698267073,
      "grad_norm": 0.1202370747923851,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 8551
    },
    {
      "epoch": 8.71763506625892,
      "grad_norm": 0.17261557281017303,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 8552
    },
    {
      "epoch": 8.718654434250764,
      "grad_norm": 0.10264077037572861,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 8553
    },
    {
      "epoch": 8.71967380224261,
      "grad_norm": 0.06617294996976852,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 8554
    },
    {
      "epoch": 8.720693170234455,
      "grad_norm": 0.09862460941076279,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 8555
    },
    {
      "epoch": 8.7217125382263,
      "grad_norm": 0.06311055272817612,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 8556
    },
    {
      "epoch": 8.722731906218145,
      "grad_norm": 0.11826203763484955,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 8557
    },
    {
      "epoch": 8.72375127420999,
      "grad_norm": 0.10872244089841843,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8558
    },
    {
      "epoch": 8.724770642201834,
      "grad_norm": 0.10871658474206924,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 8559
    },
    {
      "epoch": 8.72579001019368,
      "grad_norm": 0.0794651135802269,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8560
    },
    {
      "epoch": 8.726809378185525,
      "grad_norm": 0.12654899060726166,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 8561
    },
    {
      "epoch": 8.72782874617737,
      "grad_norm": 0.0726374015212059,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 8562
    },
    {
      "epoch": 8.728848114169216,
      "grad_norm": 0.1108771339058876,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 8563
    },
    {
      "epoch": 8.72986748216106,
      "grad_norm": 0.14875753223896027,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 8564
    },
    {
      "epoch": 8.730886850152904,
      "grad_norm": 0.2142292708158493,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 8565
    },
    {
      "epoch": 8.73190621814475,
      "grad_norm": 0.08454538881778717,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 8566
    },
    {
      "epoch": 8.732925586136595,
      "grad_norm": 0.10722223669290543,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 8567
    },
    {
      "epoch": 8.73394495412844,
      "grad_norm": 0.15407507121562958,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 8568
    },
    {
      "epoch": 8.734964322120286,
      "grad_norm": 0.06481430679559708,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 8569
    },
    {
      "epoch": 8.73598369011213,
      "grad_norm": 0.09670837223529816,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8570
    },
    {
      "epoch": 8.737003058103976,
      "grad_norm": 0.07586807757616043,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 8571
    },
    {
      "epoch": 8.73802242609582,
      "grad_norm": 0.10983788967132568,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8572
    },
    {
      "epoch": 8.739041794087665,
      "grad_norm": 0.15569734573364258,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 8573
    },
    {
      "epoch": 8.740061162079511,
      "grad_norm": 0.13067865371704102,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 8574
    },
    {
      "epoch": 8.741080530071356,
      "grad_norm": 0.09217627346515656,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 8575
    },
    {
      "epoch": 8.7420998980632,
      "grad_norm": 0.05382977053523064,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 8576
    },
    {
      "epoch": 8.743119266055047,
      "grad_norm": 0.07339408993721008,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8577
    },
    {
      "epoch": 8.744138634046891,
      "grad_norm": 0.08013594150543213,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 8578
    },
    {
      "epoch": 8.745158002038735,
      "grad_norm": 0.09690582752227783,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 8579
    },
    {
      "epoch": 8.746177370030582,
      "grad_norm": 0.09469680488109589,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 8580
    },
    {
      "epoch": 8.747196738022426,
      "grad_norm": 0.06771624833345413,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 8581
    },
    {
      "epoch": 8.74821610601427,
      "grad_norm": 0.07378034293651581,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8582
    },
    {
      "epoch": 8.749235474006117,
      "grad_norm": 0.12856635451316833,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 8583
    },
    {
      "epoch": 8.750254841997961,
      "grad_norm": 0.10066283494234085,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 8584
    },
    {
      "epoch": 8.751274209989806,
      "grad_norm": 0.08130515366792679,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 8585
    },
    {
      "epoch": 8.752293577981652,
      "grad_norm": 0.19941473007202148,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 8586
    },
    {
      "epoch": 8.753312945973496,
      "grad_norm": 0.17696915566921234,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 8587
    },
    {
      "epoch": 8.754332313965342,
      "grad_norm": 0.23547197878360748,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 8588
    },
    {
      "epoch": 8.755351681957187,
      "grad_norm": 0.08413365483283997,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 8589
    },
    {
      "epoch": 8.756371049949031,
      "grad_norm": 0.0958227813243866,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8590
    },
    {
      "epoch": 8.757390417940877,
      "grad_norm": 0.11517644673585892,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 8591
    },
    {
      "epoch": 8.758409785932722,
      "grad_norm": 0.15949557721614838,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 8592
    },
    {
      "epoch": 8.759429153924566,
      "grad_norm": 0.11536502838134766,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8593
    },
    {
      "epoch": 8.760448521916413,
      "grad_norm": 0.17131288349628448,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 8594
    },
    {
      "epoch": 8.761467889908257,
      "grad_norm": 0.10546234250068665,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 8595
    },
    {
      "epoch": 8.762487257900101,
      "grad_norm": 0.14038528501987457,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8596
    },
    {
      "epoch": 8.763506625891948,
      "grad_norm": 0.08798294514417648,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 8597
    },
    {
      "epoch": 8.764525993883792,
      "grad_norm": 0.05819782242178917,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 8598
    },
    {
      "epoch": 8.765545361875636,
      "grad_norm": 0.28026238083839417,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 8599
    },
    {
      "epoch": 8.766564729867483,
      "grad_norm": 0.09966494143009186,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 8600
    },
    {
      "epoch": 8.767584097859327,
      "grad_norm": 0.1159224808216095,
      "learning_rate": 0.001,
      "loss": 0.2161,
      "step": 8601
    },
    {
      "epoch": 8.768603465851172,
      "grad_norm": 0.1126432716846466,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 8602
    },
    {
      "epoch": 8.769622833843018,
      "grad_norm": 0.14074860513210297,
      "learning_rate": 0.001,
      "loss": 0.1599,
      "step": 8603
    },
    {
      "epoch": 8.770642201834862,
      "grad_norm": 0.0959448590874672,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8604
    },
    {
      "epoch": 8.771661569826707,
      "grad_norm": 0.28062042593955994,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 8605
    },
    {
      "epoch": 8.772680937818553,
      "grad_norm": 0.09800127893686295,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8606
    },
    {
      "epoch": 8.773700305810397,
      "grad_norm": 0.13626673817634583,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 8607
    },
    {
      "epoch": 8.774719673802242,
      "grad_norm": 0.04625708982348442,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 8608
    },
    {
      "epoch": 8.775739041794088,
      "grad_norm": 0.07611498981714249,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 8609
    },
    {
      "epoch": 8.776758409785932,
      "grad_norm": 0.13531143963336945,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 8610
    },
    {
      "epoch": 8.777777777777779,
      "grad_norm": 0.09710057824850082,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 8611
    },
    {
      "epoch": 8.778797145769623,
      "grad_norm": 0.484076589345932,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 8612
    },
    {
      "epoch": 8.779816513761467,
      "grad_norm": 0.1598154902458191,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8613
    },
    {
      "epoch": 8.780835881753314,
      "grad_norm": 0.07552164793014526,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 8614
    },
    {
      "epoch": 8.781855249745158,
      "grad_norm": 0.10237432271242142,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8615
    },
    {
      "epoch": 8.782874617737003,
      "grad_norm": 0.09208525717258453,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 8616
    },
    {
      "epoch": 8.783893985728849,
      "grad_norm": 0.21700824797153473,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 8617
    },
    {
      "epoch": 8.784913353720693,
      "grad_norm": 0.15351435542106628,
      "learning_rate": 0.001,
      "loss": 0.2075,
      "step": 8618
    },
    {
      "epoch": 8.785932721712538,
      "grad_norm": 0.1544594168663025,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 8619
    },
    {
      "epoch": 8.786952089704384,
      "grad_norm": 0.06322142481803894,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 8620
    },
    {
      "epoch": 8.787971457696228,
      "grad_norm": 0.10970455408096313,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 8621
    },
    {
      "epoch": 8.788990825688073,
      "grad_norm": 0.11375641077756882,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 8622
    },
    {
      "epoch": 8.790010193679919,
      "grad_norm": 0.17844311892986298,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8623
    },
    {
      "epoch": 8.791029561671763,
      "grad_norm": 0.07092846184968948,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 8624
    },
    {
      "epoch": 8.792048929663608,
      "grad_norm": 0.06139501929283142,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 8625
    },
    {
      "epoch": 8.793068297655454,
      "grad_norm": 0.13958585262298584,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 8626
    },
    {
      "epoch": 8.794087665647298,
      "grad_norm": 0.1385813057422638,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8627
    },
    {
      "epoch": 8.795107033639145,
      "grad_norm": 0.08744195848703384,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 8628
    },
    {
      "epoch": 8.796126401630989,
      "grad_norm": 0.08858190476894379,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 8629
    },
    {
      "epoch": 8.797145769622833,
      "grad_norm": 0.08173894882202148,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 8630
    },
    {
      "epoch": 8.79816513761468,
      "grad_norm": 0.16040678322315216,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 8631
    },
    {
      "epoch": 8.799184505606524,
      "grad_norm": 0.12836411595344543,
      "learning_rate": 0.001,
      "loss": 0.212,
      "step": 8632
    },
    {
      "epoch": 8.800203873598369,
      "grad_norm": 0.14454959332942963,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 8633
    },
    {
      "epoch": 8.801223241590215,
      "grad_norm": 0.3741060197353363,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 8634
    },
    {
      "epoch": 8.80224260958206,
      "grad_norm": 0.20878063142299652,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 8635
    },
    {
      "epoch": 8.803261977573904,
      "grad_norm": 0.09070802479982376,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8636
    },
    {
      "epoch": 8.80428134556575,
      "grad_norm": 0.13035622239112854,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 8637
    },
    {
      "epoch": 8.805300713557594,
      "grad_norm": 0.11251262575387955,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 8638
    },
    {
      "epoch": 8.806320081549439,
      "grad_norm": 0.2221173346042633,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 8639
    },
    {
      "epoch": 8.807339449541285,
      "grad_norm": 0.1527065634727478,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 8640
    },
    {
      "epoch": 8.80835881753313,
      "grad_norm": 0.12028975784778595,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 8641
    },
    {
      "epoch": 8.809378185524974,
      "grad_norm": 0.06639165431261063,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 8642
    },
    {
      "epoch": 8.81039755351682,
      "grad_norm": 0.11795993149280548,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 8643
    },
    {
      "epoch": 8.811416921508664,
      "grad_norm": 0.08517847210168839,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 8644
    },
    {
      "epoch": 8.81243628950051,
      "grad_norm": 0.1134660392999649,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8645
    },
    {
      "epoch": 8.813455657492355,
      "grad_norm": 0.08119082450866699,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 8646
    },
    {
      "epoch": 8.8144750254842,
      "grad_norm": 0.1517590433359146,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8647
    },
    {
      "epoch": 8.815494393476044,
      "grad_norm": 0.116059310734272,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 8648
    },
    {
      "epoch": 8.81651376146789,
      "grad_norm": 0.07720406353473663,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 8649
    },
    {
      "epoch": 8.817533129459735,
      "grad_norm": 0.08397172391414642,
      "learning_rate": 0.001,
      "loss": 0.222,
      "step": 8650
    },
    {
      "epoch": 8.81855249745158,
      "grad_norm": 0.11580605059862137,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 8651
    },
    {
      "epoch": 8.819571865443425,
      "grad_norm": 0.11992942541837692,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 8652
    },
    {
      "epoch": 8.82059123343527,
      "grad_norm": 0.08507335186004639,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 8653
    },
    {
      "epoch": 8.821610601427116,
      "grad_norm": 0.11166302859783173,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 8654
    },
    {
      "epoch": 8.82262996941896,
      "grad_norm": 0.08264949172735214,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 8655
    },
    {
      "epoch": 8.823649337410805,
      "grad_norm": 0.0822460874915123,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8656
    },
    {
      "epoch": 8.824668705402651,
      "grad_norm": 0.13156118988990784,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 8657
    },
    {
      "epoch": 8.825688073394495,
      "grad_norm": 0.12267868965864182,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8658
    },
    {
      "epoch": 8.82670744138634,
      "grad_norm": 0.11347807943820953,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 8659
    },
    {
      "epoch": 8.827726809378186,
      "grad_norm": 0.1494259238243103,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 8660
    },
    {
      "epoch": 8.82874617737003,
      "grad_norm": 0.091799296438694,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 8661
    },
    {
      "epoch": 8.829765545361875,
      "grad_norm": 0.08134598284959793,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 8662
    },
    {
      "epoch": 8.830784913353721,
      "grad_norm": 0.16013236343860626,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8663
    },
    {
      "epoch": 8.831804281345565,
      "grad_norm": 0.13105949759483337,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 8664
    },
    {
      "epoch": 8.83282364933741,
      "grad_norm": 0.09017512947320938,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 8665
    },
    {
      "epoch": 8.833843017329256,
      "grad_norm": 0.09715812653303146,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 8666
    },
    {
      "epoch": 8.8348623853211,
      "grad_norm": 0.09153120964765549,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 8667
    },
    {
      "epoch": 8.835881753312947,
      "grad_norm": 0.18940000236034393,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 8668
    },
    {
      "epoch": 8.836901121304791,
      "grad_norm": 0.11482341587543488,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 8669
    },
    {
      "epoch": 8.837920489296636,
      "grad_norm": 0.07651206105947495,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 8670
    },
    {
      "epoch": 8.838939857288482,
      "grad_norm": 0.07601001113653183,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8671
    },
    {
      "epoch": 8.839959225280326,
      "grad_norm": 0.09129617363214493,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 8672
    },
    {
      "epoch": 8.84097859327217,
      "grad_norm": 0.108061783015728,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 8673
    },
    {
      "epoch": 8.841997961264017,
      "grad_norm": 0.07296834141016006,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 8674
    },
    {
      "epoch": 8.843017329255861,
      "grad_norm": 0.1646774560213089,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8675
    },
    {
      "epoch": 8.844036697247706,
      "grad_norm": 0.0880763977766037,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8676
    },
    {
      "epoch": 8.845056065239552,
      "grad_norm": 0.21261481940746307,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 8677
    },
    {
      "epoch": 8.846075433231396,
      "grad_norm": 0.11068838834762573,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 8678
    },
    {
      "epoch": 8.84709480122324,
      "grad_norm": 0.09961357712745667,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 8679
    },
    {
      "epoch": 8.848114169215087,
      "grad_norm": 0.13171504437923431,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8680
    },
    {
      "epoch": 8.849133537206932,
      "grad_norm": 0.13976620137691498,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 8681
    },
    {
      "epoch": 8.850152905198776,
      "grad_norm": 0.160781592130661,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 8682
    },
    {
      "epoch": 8.851172273190622,
      "grad_norm": 0.10475858300924301,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 8683
    },
    {
      "epoch": 8.852191641182467,
      "grad_norm": 0.1087903082370758,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8684
    },
    {
      "epoch": 8.853211009174313,
      "grad_norm": 0.10452931374311447,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 8685
    },
    {
      "epoch": 8.854230377166157,
      "grad_norm": 0.1274612694978714,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 8686
    },
    {
      "epoch": 8.855249745158002,
      "grad_norm": 0.1275712549686432,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 8687
    },
    {
      "epoch": 8.856269113149848,
      "grad_norm": 0.08326582610607147,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 8688
    },
    {
      "epoch": 8.857288481141692,
      "grad_norm": 0.12460234761238098,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 8689
    },
    {
      "epoch": 8.858307849133537,
      "grad_norm": 0.0769384503364563,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8690
    },
    {
      "epoch": 8.859327217125383,
      "grad_norm": 0.08943379670381546,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 8691
    },
    {
      "epoch": 8.860346585117227,
      "grad_norm": 0.15565122663974762,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 8692
    },
    {
      "epoch": 8.861365953109072,
      "grad_norm": 0.20257870852947235,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 8693
    },
    {
      "epoch": 8.862385321100918,
      "grad_norm": 0.1709703654050827,
      "learning_rate": 0.001,
      "loss": 0.2274,
      "step": 8694
    },
    {
      "epoch": 8.863404689092762,
      "grad_norm": 0.08143080025911331,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8695
    },
    {
      "epoch": 8.864424057084607,
      "grad_norm": 0.07275623083114624,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 8696
    },
    {
      "epoch": 8.865443425076453,
      "grad_norm": 0.10114980489015579,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 8697
    },
    {
      "epoch": 8.866462793068298,
      "grad_norm": 0.1033259704709053,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 8698
    },
    {
      "epoch": 8.867482161060142,
      "grad_norm": 0.10722285509109497,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 8699
    },
    {
      "epoch": 8.868501529051988,
      "grad_norm": 0.15245190262794495,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 8700
    },
    {
      "epoch": 8.869520897043833,
      "grad_norm": 0.13754214346408844,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 8701
    },
    {
      "epoch": 8.870540265035677,
      "grad_norm": 0.10528615862131119,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 8702
    },
    {
      "epoch": 8.871559633027523,
      "grad_norm": 0.06991284340620041,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8703
    },
    {
      "epoch": 8.872579001019368,
      "grad_norm": 0.09210599213838577,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8704
    },
    {
      "epoch": 8.873598369011212,
      "grad_norm": 0.06316075474023819,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 8705
    },
    {
      "epoch": 8.874617737003058,
      "grad_norm": 0.07459661364555359,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8706
    },
    {
      "epoch": 8.875637104994903,
      "grad_norm": 0.08292126655578613,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 8707
    },
    {
      "epoch": 8.876656472986749,
      "grad_norm": 0.15376074612140656,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 8708
    },
    {
      "epoch": 8.877675840978593,
      "grad_norm": 0.1457839161157608,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8709
    },
    {
      "epoch": 8.878695208970438,
      "grad_norm": 0.1635221242904663,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 8710
    },
    {
      "epoch": 8.879714576962284,
      "grad_norm": 0.11072990298271179,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8711
    },
    {
      "epoch": 8.880733944954128,
      "grad_norm": 0.12048964202404022,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 8712
    },
    {
      "epoch": 8.881753312945973,
      "grad_norm": 0.13865332305431366,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 8713
    },
    {
      "epoch": 8.88277268093782,
      "grad_norm": 0.06201162189245224,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 8714
    },
    {
      "epoch": 8.883792048929664,
      "grad_norm": 0.06966846436262131,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 8715
    },
    {
      "epoch": 8.884811416921508,
      "grad_norm": 0.10402985662221909,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 8716
    },
    {
      "epoch": 8.885830784913354,
      "grad_norm": 0.06969985365867615,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 8717
    },
    {
      "epoch": 8.886850152905199,
      "grad_norm": 0.14877767860889435,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 8718
    },
    {
      "epoch": 8.887869520897043,
      "grad_norm": 0.15310856699943542,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 8719
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 0.10957649350166321,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 8720
    },
    {
      "epoch": 8.889908256880734,
      "grad_norm": 0.11157602816820145,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 8721
    },
    {
      "epoch": 8.890927624872578,
      "grad_norm": 0.190562903881073,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8722
    },
    {
      "epoch": 8.891946992864424,
      "grad_norm": 0.1321183443069458,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 8723
    },
    {
      "epoch": 8.892966360856269,
      "grad_norm": 0.1432231366634369,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 8724
    },
    {
      "epoch": 8.893985728848115,
      "grad_norm": 0.07659134268760681,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 8725
    },
    {
      "epoch": 8.89500509683996,
      "grad_norm": 0.13444894552230835,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 8726
    },
    {
      "epoch": 8.896024464831804,
      "grad_norm": 0.09557205438613892,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 8727
    },
    {
      "epoch": 8.89704383282365,
      "grad_norm": 0.1199076920747757,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 8728
    },
    {
      "epoch": 8.898063200815495,
      "grad_norm": 0.08336116373538971,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 8729
    },
    {
      "epoch": 8.899082568807339,
      "grad_norm": 0.1851552128791809,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 8730
    },
    {
      "epoch": 8.900101936799185,
      "grad_norm": 0.13819226622581482,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 8731
    },
    {
      "epoch": 8.90112130479103,
      "grad_norm": 0.07584766298532486,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 8732
    },
    {
      "epoch": 8.902140672782874,
      "grad_norm": 0.07619532942771912,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8733
    },
    {
      "epoch": 8.90316004077472,
      "grad_norm": 0.10561174899339676,
      "learning_rate": 0.001,
      "loss": 0.2219,
      "step": 8734
    },
    {
      "epoch": 8.904179408766565,
      "grad_norm": 0.13506004214286804,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 8735
    },
    {
      "epoch": 8.905198776758409,
      "grad_norm": 0.07333792746067047,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8736
    },
    {
      "epoch": 8.906218144750255,
      "grad_norm": 0.1618923842906952,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 8737
    },
    {
      "epoch": 8.9072375127421,
      "grad_norm": 0.07765429466962814,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8738
    },
    {
      "epoch": 8.908256880733944,
      "grad_norm": 0.13255059719085693,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 8739
    },
    {
      "epoch": 8.90927624872579,
      "grad_norm": 0.17545685172080994,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 8740
    },
    {
      "epoch": 8.910295616717635,
      "grad_norm": 0.13953401148319244,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 8741
    },
    {
      "epoch": 8.911314984709481,
      "grad_norm": 0.06610580533742905,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 8742
    },
    {
      "epoch": 8.912334352701325,
      "grad_norm": 0.0962468758225441,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 8743
    },
    {
      "epoch": 8.91335372069317,
      "grad_norm": 0.1877640038728714,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 8744
    },
    {
      "epoch": 8.914373088685016,
      "grad_norm": 0.09353908151388168,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 8745
    },
    {
      "epoch": 8.91539245667686,
      "grad_norm": 0.05860420688986778,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 8746
    },
    {
      "epoch": 8.916411824668705,
      "grad_norm": 0.08636705577373505,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8747
    },
    {
      "epoch": 8.917431192660551,
      "grad_norm": 0.12394843250513077,
      "learning_rate": 0.001,
      "loss": 0.2198,
      "step": 8748
    },
    {
      "epoch": 8.918450560652396,
      "grad_norm": 0.07353124767541885,
      "learning_rate": 0.001,
      "loss": 0.166,
      "step": 8749
    },
    {
      "epoch": 8.91946992864424,
      "grad_norm": 0.07957035303115845,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 8750
    },
    {
      "epoch": 8.920489296636086,
      "grad_norm": 0.0927669107913971,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8751
    },
    {
      "epoch": 8.92150866462793,
      "grad_norm": 0.11751247197389603,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 8752
    },
    {
      "epoch": 8.922528032619775,
      "grad_norm": 0.1250583678483963,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 8753
    },
    {
      "epoch": 8.923547400611621,
      "grad_norm": 0.12850472331047058,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 8754
    },
    {
      "epoch": 8.924566768603466,
      "grad_norm": 0.12682783603668213,
      "learning_rate": 0.001,
      "loss": 0.2059,
      "step": 8755
    },
    {
      "epoch": 8.92558613659531,
      "grad_norm": 0.1717616617679596,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 8756
    },
    {
      "epoch": 8.926605504587156,
      "grad_norm": 0.17862196266651154,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 8757
    },
    {
      "epoch": 8.927624872579,
      "grad_norm": 0.10672979056835175,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8758
    },
    {
      "epoch": 8.928644240570845,
      "grad_norm": 0.15809346735477448,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 8759
    },
    {
      "epoch": 8.929663608562691,
      "grad_norm": 0.11702493578195572,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 8760
    },
    {
      "epoch": 8.930682976554536,
      "grad_norm": 0.08313629776239395,
      "learning_rate": 0.001,
      "loss": 0.1605,
      "step": 8761
    },
    {
      "epoch": 8.93170234454638,
      "grad_norm": 0.08099688589572906,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 8762
    },
    {
      "epoch": 8.932721712538227,
      "grad_norm": 0.09512916952371597,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8763
    },
    {
      "epoch": 8.933741080530071,
      "grad_norm": 0.09623203426599503,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 8764
    },
    {
      "epoch": 8.934760448521917,
      "grad_norm": 0.06766102463006973,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 8765
    },
    {
      "epoch": 8.935779816513762,
      "grad_norm": 0.08301682025194168,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 8766
    },
    {
      "epoch": 8.936799184505606,
      "grad_norm": 0.09653394669294357,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 8767
    },
    {
      "epoch": 8.937818552497452,
      "grad_norm": 0.14747335016727448,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 8768
    },
    {
      "epoch": 8.938837920489297,
      "grad_norm": 0.0786067470908165,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 8769
    },
    {
      "epoch": 8.939857288481141,
      "grad_norm": 0.12197193503379822,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 8770
    },
    {
      "epoch": 8.940876656472987,
      "grad_norm": 0.07216212898492813,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 8771
    },
    {
      "epoch": 8.941896024464832,
      "grad_norm": 0.07898446172475815,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 8772
    },
    {
      "epoch": 8.942915392456676,
      "grad_norm": 0.14881373941898346,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 8773
    },
    {
      "epoch": 8.943934760448522,
      "grad_norm": 0.09466780722141266,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 8774
    },
    {
      "epoch": 8.944954128440367,
      "grad_norm": 0.16726824641227722,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 8775
    },
    {
      "epoch": 8.945973496432211,
      "grad_norm": 0.158672496676445,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 8776
    },
    {
      "epoch": 8.946992864424058,
      "grad_norm": 0.11231330037117004,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8777
    },
    {
      "epoch": 8.948012232415902,
      "grad_norm": 0.15936379134655,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 8778
    },
    {
      "epoch": 8.949031600407746,
      "grad_norm": 0.1370777189731598,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 8779
    },
    {
      "epoch": 8.950050968399593,
      "grad_norm": 0.08650833368301392,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 8780
    },
    {
      "epoch": 8.951070336391437,
      "grad_norm": 0.14473508298397064,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8781
    },
    {
      "epoch": 8.952089704383283,
      "grad_norm": 0.18895582854747772,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 8782
    },
    {
      "epoch": 8.953109072375128,
      "grad_norm": 0.16881988942623138,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 8783
    },
    {
      "epoch": 8.954128440366972,
      "grad_norm": 0.1106535941362381,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 8784
    },
    {
      "epoch": 8.955147808358818,
      "grad_norm": 0.1049007847905159,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8785
    },
    {
      "epoch": 8.956167176350663,
      "grad_norm": 0.09101974219083786,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8786
    },
    {
      "epoch": 8.957186544342507,
      "grad_norm": 0.12970863282680511,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 8787
    },
    {
      "epoch": 8.958205912334353,
      "grad_norm": 0.5074476003646851,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 8788
    },
    {
      "epoch": 8.959225280326198,
      "grad_norm": 0.12086229771375656,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 8789
    },
    {
      "epoch": 8.960244648318042,
      "grad_norm": 0.11484061181545258,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8790
    },
    {
      "epoch": 8.961264016309888,
      "grad_norm": 0.12746378779411316,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 8791
    },
    {
      "epoch": 8.962283384301733,
      "grad_norm": 0.4854188859462738,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 8792
    },
    {
      "epoch": 8.963302752293577,
      "grad_norm": 0.29115843772888184,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 8793
    },
    {
      "epoch": 8.964322120285424,
      "grad_norm": 0.12957815825939178,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8794
    },
    {
      "epoch": 8.965341488277268,
      "grad_norm": 0.13536754250526428,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 8795
    },
    {
      "epoch": 8.966360856269112,
      "grad_norm": 0.11078532040119171,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 8796
    },
    {
      "epoch": 8.967380224260959,
      "grad_norm": 0.09854267537593842,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 8797
    },
    {
      "epoch": 8.968399592252803,
      "grad_norm": 0.10599425435066223,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 8798
    },
    {
      "epoch": 8.96941896024465,
      "grad_norm": 0.11672660708427429,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8799
    },
    {
      "epoch": 8.970438328236494,
      "grad_norm": 0.055155836045742035,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8800
    },
    {
      "epoch": 8.971457696228338,
      "grad_norm": 0.16228945553302765,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 8801
    },
    {
      "epoch": 8.972477064220184,
      "grad_norm": 0.10331916809082031,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 8802
    },
    {
      "epoch": 8.973496432212029,
      "grad_norm": 0.18764828145503998,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 8803
    },
    {
      "epoch": 8.974515800203873,
      "grad_norm": 0.11027463525533676,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 8804
    },
    {
      "epoch": 8.97553516819572,
      "grad_norm": 0.10934257507324219,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 8805
    },
    {
      "epoch": 8.976554536187564,
      "grad_norm": 0.13692761957645416,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 8806
    },
    {
      "epoch": 8.977573904179408,
      "grad_norm": 0.15394431352615356,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 8807
    },
    {
      "epoch": 8.978593272171254,
      "grad_norm": 0.14287912845611572,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 8808
    },
    {
      "epoch": 8.979612640163099,
      "grad_norm": 0.06900244951248169,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 8809
    },
    {
      "epoch": 8.980632008154943,
      "grad_norm": 0.07386922091245651,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 8810
    },
    {
      "epoch": 8.98165137614679,
      "grad_norm": 0.0858655571937561,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 8811
    },
    {
      "epoch": 8.982670744138634,
      "grad_norm": 0.08624423295259476,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 8812
    },
    {
      "epoch": 8.983690112130478,
      "grad_norm": 0.12707635760307312,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 8813
    },
    {
      "epoch": 8.984709480122325,
      "grad_norm": 0.07046040892601013,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 8814
    },
    {
      "epoch": 8.985728848114169,
      "grad_norm": 0.1939568817615509,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 8815
    },
    {
      "epoch": 8.986748216106013,
      "grad_norm": 0.07333550602197647,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 8816
    },
    {
      "epoch": 8.98776758409786,
      "grad_norm": 0.07591883838176727,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 8817
    },
    {
      "epoch": 8.988786952089704,
      "grad_norm": 0.20443065464496613,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 8818
    },
    {
      "epoch": 8.989806320081549,
      "grad_norm": 0.12362838536500931,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 8819
    },
    {
      "epoch": 8.990825688073395,
      "grad_norm": 0.09663540124893188,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 8820
    },
    {
      "epoch": 8.99184505606524,
      "grad_norm": 0.14895299077033997,
      "learning_rate": 0.001,
      "loss": 0.2137,
      "step": 8821
    },
    {
      "epoch": 8.992864424057085,
      "grad_norm": 0.08419438451528549,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 8822
    },
    {
      "epoch": 8.99388379204893,
      "grad_norm": 0.07702025026082993,
      "learning_rate": 0.001,
      "loss": 0.2089,
      "step": 8823
    },
    {
      "epoch": 8.994903160040774,
      "grad_norm": 0.06905879825353622,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 8824
    },
    {
      "epoch": 8.99592252803262,
      "grad_norm": 0.09674286097288132,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 8825
    },
    {
      "epoch": 8.996941896024465,
      "grad_norm": 0.09791652113199234,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 8826
    },
    {
      "epoch": 8.99796126401631,
      "grad_norm": 0.10625018179416656,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 8827
    },
    {
      "epoch": 8.998980632008156,
      "grad_norm": 0.1028052344918251,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 8828
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.20881855487823486,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 8829
    },
    {
      "epoch": 9.0,
      "eval_-_f1-score": 0.37037037037037035,
      "eval_-_precision": 1.0,
      "eval_-_recall": 0.22727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9641015060862389,
      "eval_<_precision": 0.9676951749844689,
      "eval_<_recall": 0.9605344295991778,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8264462809917356,
      "eval_=_precision": 0.847457627118644,
      "eval_=_recall": 0.8064516129032258,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9629402756508423,
      "eval_>_precision": 0.9565922920892495,
      "eval_>_recall": 0.9693730729701953,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9594,
      "eval_loss": 0.10701874643564224,
      "eval_macro_avg_f1-score": 0.7809646082747967,
      "eval_macro_avg_precision": 0.9429362735480906,
      "eval_macro_avg_recall": 0.7409079606863315,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9515,
      "eval_samples_per_second": 772.113,
      "eval_steps_per_second": 3.088,
      "eval_weighted_avg_f1-score": 0.9588165093984998,
      "eval_weighted_avg_precision": 0.9593828018839063,
      "eval_weighted_avg_recall": 0.9594,
      "eval_weighted_avg_support": 10000.0,
      "step": 8829
    },
    {
      "epoch": 9.001019367991844,
      "grad_norm": 0.09012676030397415,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 8830
    },
    {
      "epoch": 9.00203873598369,
      "grad_norm": 0.05776193365454674,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 8831
    },
    {
      "epoch": 9.003058103975535,
      "grad_norm": 0.11190016567707062,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 8832
    },
    {
      "epoch": 9.00407747196738,
      "grad_norm": 0.08257260173559189,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 8833
    },
    {
      "epoch": 9.005096839959226,
      "grad_norm": 0.06564567983150482,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 8834
    },
    {
      "epoch": 9.00611620795107,
      "grad_norm": 0.12325680255889893,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 8835
    },
    {
      "epoch": 9.007135575942915,
      "grad_norm": 0.09058201313018799,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 8836
    },
    {
      "epoch": 9.00815494393476,
      "grad_norm": 0.12327320873737335,
      "learning_rate": 0.001,
      "loss": 0.1531,
      "step": 8837
    },
    {
      "epoch": 9.009174311926605,
      "grad_norm": 0.08850791305303574,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 8838
    },
    {
      "epoch": 9.010193679918451,
      "grad_norm": 0.14907954633235931,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 8839
    },
    {
      "epoch": 9.011213047910296,
      "grad_norm": 0.06532196700572968,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 8840
    },
    {
      "epoch": 9.01223241590214,
      "grad_norm": 0.09479615837335587,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 8841
    },
    {
      "epoch": 9.013251783893987,
      "grad_norm": 0.1001964882016182,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8842
    },
    {
      "epoch": 9.014271151885831,
      "grad_norm": 0.07150743901729584,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8843
    },
    {
      "epoch": 9.015290519877675,
      "grad_norm": 0.11940164119005203,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8844
    },
    {
      "epoch": 9.016309887869522,
      "grad_norm": 0.10896071046590805,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 8845
    },
    {
      "epoch": 9.017329255861366,
      "grad_norm": 0.10415402799844742,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 8846
    },
    {
      "epoch": 9.01834862385321,
      "grad_norm": 0.15519127249717712,
      "learning_rate": 0.001,
      "loss": 0.218,
      "step": 8847
    },
    {
      "epoch": 9.019367991845057,
      "grad_norm": 0.0935497060418129,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8848
    },
    {
      "epoch": 9.020387359836901,
      "grad_norm": 0.0866844430565834,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 8849
    },
    {
      "epoch": 9.021406727828746,
      "grad_norm": 0.11828920245170593,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 8850
    },
    {
      "epoch": 9.022426095820592,
      "grad_norm": 0.0421784333884716,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 8851
    },
    {
      "epoch": 9.023445463812436,
      "grad_norm": 0.08122648298740387,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 8852
    },
    {
      "epoch": 9.02446483180428,
      "grad_norm": 0.0834854319691658,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8853
    },
    {
      "epoch": 9.025484199796127,
      "grad_norm": 0.12041405588388443,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 8854
    },
    {
      "epoch": 9.026503567787971,
      "grad_norm": 0.08698383718729019,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 8855
    },
    {
      "epoch": 9.027522935779816,
      "grad_norm": 0.10050847381353378,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 8856
    },
    {
      "epoch": 9.028542303771662,
      "grad_norm": 0.06685598939657211,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 8857
    },
    {
      "epoch": 9.029561671763506,
      "grad_norm": 0.06892446428537369,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 8858
    },
    {
      "epoch": 9.030581039755353,
      "grad_norm": 0.06493324041366577,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 8859
    },
    {
      "epoch": 9.031600407747197,
      "grad_norm": 0.08163565397262573,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 8860
    },
    {
      "epoch": 9.032619775739041,
      "grad_norm": 0.08747485280036926,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 8861
    },
    {
      "epoch": 9.033639143730888,
      "grad_norm": 0.09195558726787567,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 8862
    },
    {
      "epoch": 9.034658511722732,
      "grad_norm": 0.058497488498687744,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 8863
    },
    {
      "epoch": 9.035677879714576,
      "grad_norm": 0.2752818167209625,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 8864
    },
    {
      "epoch": 9.036697247706423,
      "grad_norm": 0.36922067403793335,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 8865
    },
    {
      "epoch": 9.037716615698267,
      "grad_norm": 0.08548113703727722,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 8866
    },
    {
      "epoch": 9.038735983690112,
      "grad_norm": 0.14221642911434174,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 8867
    },
    {
      "epoch": 9.039755351681958,
      "grad_norm": 0.15100066363811493,
      "learning_rate": 0.001,
      "loss": 0.2115,
      "step": 8868
    },
    {
      "epoch": 9.040774719673802,
      "grad_norm": 0.10417921841144562,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 8869
    },
    {
      "epoch": 9.041794087665647,
      "grad_norm": 0.09753761440515518,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8870
    },
    {
      "epoch": 9.042813455657493,
      "grad_norm": 0.06827221810817719,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 8871
    },
    {
      "epoch": 9.043832823649337,
      "grad_norm": 0.15114635229110718,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 8872
    },
    {
      "epoch": 9.044852191641182,
      "grad_norm": 0.08187668770551682,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 8873
    },
    {
      "epoch": 9.045871559633028,
      "grad_norm": 0.09409204125404358,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8874
    },
    {
      "epoch": 9.046890927624872,
      "grad_norm": 0.06417238712310791,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 8875
    },
    {
      "epoch": 9.047910295616717,
      "grad_norm": 0.2041197568178177,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 8876
    },
    {
      "epoch": 9.048929663608563,
      "grad_norm": 0.05662893131375313,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 8877
    },
    {
      "epoch": 9.049949031600407,
      "grad_norm": 0.08268163353204727,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 8878
    },
    {
      "epoch": 9.050968399592254,
      "grad_norm": 0.0747133418917656,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 8879
    },
    {
      "epoch": 9.051987767584098,
      "grad_norm": 0.1455828696489334,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 8880
    },
    {
      "epoch": 9.053007135575942,
      "grad_norm": 0.13668783009052277,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 8881
    },
    {
      "epoch": 9.054026503567789,
      "grad_norm": 0.13487783074378967,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 8882
    },
    {
      "epoch": 9.055045871559633,
      "grad_norm": 0.11211520433425903,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 8883
    },
    {
      "epoch": 9.056065239551478,
      "grad_norm": 0.052658505737781525,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 8884
    },
    {
      "epoch": 9.057084607543324,
      "grad_norm": 0.06708119809627533,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 8885
    },
    {
      "epoch": 9.058103975535168,
      "grad_norm": 0.0808635801076889,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 8886
    },
    {
      "epoch": 9.059123343527013,
      "grad_norm": 0.0907883495092392,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 8887
    },
    {
      "epoch": 9.060142711518859,
      "grad_norm": 0.08936424553394318,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 8888
    },
    {
      "epoch": 9.061162079510703,
      "grad_norm": 0.07834463566541672,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8889
    },
    {
      "epoch": 9.062181447502548,
      "grad_norm": 0.11528865247964859,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8890
    },
    {
      "epoch": 9.063200815494394,
      "grad_norm": 0.11869923770427704,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 8891
    },
    {
      "epoch": 9.064220183486238,
      "grad_norm": 0.10091761499643326,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 8892
    },
    {
      "epoch": 9.065239551478083,
      "grad_norm": 0.08895092457532883,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 8893
    },
    {
      "epoch": 9.066258919469929,
      "grad_norm": 0.13251951336860657,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 8894
    },
    {
      "epoch": 9.067278287461773,
      "grad_norm": 0.10578156262636185,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 8895
    },
    {
      "epoch": 9.068297655453618,
      "grad_norm": 0.05833825469017029,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 8896
    },
    {
      "epoch": 9.069317023445464,
      "grad_norm": 0.0963289737701416,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 8897
    },
    {
      "epoch": 9.070336391437309,
      "grad_norm": 0.17031508684158325,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 8898
    },
    {
      "epoch": 9.071355759429155,
      "grad_norm": 0.12172746658325195,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8899
    },
    {
      "epoch": 9.072375127421,
      "grad_norm": 0.0737992599606514,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 8900
    },
    {
      "epoch": 9.073394495412844,
      "grad_norm": 0.09109924733638763,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 8901
    },
    {
      "epoch": 9.07441386340469,
      "grad_norm": 0.12243839353322983,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 8902
    },
    {
      "epoch": 9.075433231396534,
      "grad_norm": 0.08762792497873306,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 8903
    },
    {
      "epoch": 9.076452599388379,
      "grad_norm": 0.07263410836458206,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 8904
    },
    {
      "epoch": 9.077471967380225,
      "grad_norm": 0.1211056038737297,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 8905
    },
    {
      "epoch": 9.07849133537207,
      "grad_norm": 0.13399235904216766,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 8906
    },
    {
      "epoch": 9.079510703363914,
      "grad_norm": 0.12113089114427567,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 8907
    },
    {
      "epoch": 9.08053007135576,
      "grad_norm": 0.1178063154220581,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 8908
    },
    {
      "epoch": 9.081549439347604,
      "grad_norm": 0.07054144144058228,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 8909
    },
    {
      "epoch": 9.082568807339449,
      "grad_norm": 0.1287182718515396,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 8910
    },
    {
      "epoch": 9.083588175331295,
      "grad_norm": 0.16257677972316742,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8911
    },
    {
      "epoch": 9.08460754332314,
      "grad_norm": 0.16639181971549988,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 8912
    },
    {
      "epoch": 9.085626911314984,
      "grad_norm": 0.08518556505441666,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 8913
    },
    {
      "epoch": 9.08664627930683,
      "grad_norm": 0.07805780321359634,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 8914
    },
    {
      "epoch": 9.087665647298675,
      "grad_norm": 0.08277834206819534,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8915
    },
    {
      "epoch": 9.08868501529052,
      "grad_norm": 0.0912054032087326,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 8916
    },
    {
      "epoch": 9.089704383282365,
      "grad_norm": 0.15047670900821686,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 8917
    },
    {
      "epoch": 9.09072375127421,
      "grad_norm": 0.1023082584142685,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 8918
    },
    {
      "epoch": 9.091743119266056,
      "grad_norm": 0.06655500829219818,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 8919
    },
    {
      "epoch": 9.0927624872579,
      "grad_norm": 0.13034069538116455,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 8920
    },
    {
      "epoch": 9.093781855249745,
      "grad_norm": 0.10257714241743088,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 8921
    },
    {
      "epoch": 9.094801223241591,
      "grad_norm": 0.09474994987249374,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 8922
    },
    {
      "epoch": 9.095820591233435,
      "grad_norm": 0.07726350426673889,
      "learning_rate": 0.001,
      "loss": 0.1608,
      "step": 8923
    },
    {
      "epoch": 9.09683995922528,
      "grad_norm": 0.12328723073005676,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 8924
    },
    {
      "epoch": 9.097859327217126,
      "grad_norm": 0.12161298096179962,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 8925
    },
    {
      "epoch": 9.09887869520897,
      "grad_norm": 0.1007925271987915,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 8926
    },
    {
      "epoch": 9.099898063200815,
      "grad_norm": 0.0729484111070633,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 8927
    },
    {
      "epoch": 9.100917431192661,
      "grad_norm": 0.08548224717378616,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 8928
    },
    {
      "epoch": 9.101936799184505,
      "grad_norm": 0.24316588044166565,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 8929
    },
    {
      "epoch": 9.10295616717635,
      "grad_norm": 0.07465139031410217,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 8930
    },
    {
      "epoch": 9.103975535168196,
      "grad_norm": 0.07334715127944946,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 8931
    },
    {
      "epoch": 9.10499490316004,
      "grad_norm": 0.05362538620829582,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 8932
    },
    {
      "epoch": 9.106014271151885,
      "grad_norm": 0.05586845800280571,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 8933
    },
    {
      "epoch": 9.107033639143731,
      "grad_norm": 0.12632152438163757,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 8934
    },
    {
      "epoch": 9.108053007135576,
      "grad_norm": 0.11996341496706009,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 8935
    },
    {
      "epoch": 9.109072375127422,
      "grad_norm": 0.0692393034696579,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 8936
    },
    {
      "epoch": 9.110091743119266,
      "grad_norm": 0.11792058497667313,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 8937
    },
    {
      "epoch": 9.11111111111111,
      "grad_norm": 0.11291005462408066,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 8938
    },
    {
      "epoch": 9.112130479102957,
      "grad_norm": 0.04610058292746544,
      "learning_rate": 0.001,
      "loss": 0.1586,
      "step": 8939
    },
    {
      "epoch": 9.113149847094801,
      "grad_norm": 0.08697763085365295,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 8940
    },
    {
      "epoch": 9.114169215086646,
      "grad_norm": 0.12734352052211761,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 8941
    },
    {
      "epoch": 9.115188583078492,
      "grad_norm": 0.10749819129705429,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 8942
    },
    {
      "epoch": 9.116207951070336,
      "grad_norm": 0.05466331169009209,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 8943
    },
    {
      "epoch": 9.11722731906218,
      "grad_norm": 0.08469344675540924,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 8944
    },
    {
      "epoch": 9.118246687054027,
      "grad_norm": 0.09531604498624802,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 8945
    },
    {
      "epoch": 9.119266055045872,
      "grad_norm": 0.2916298806667328,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 8946
    },
    {
      "epoch": 9.120285423037716,
      "grad_norm": 0.09420700371265411,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 8947
    },
    {
      "epoch": 9.121304791029562,
      "grad_norm": 0.1151425912976265,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 8948
    },
    {
      "epoch": 9.122324159021407,
      "grad_norm": 0.04680923745036125,
      "learning_rate": 0.001,
      "loss": 0.158,
      "step": 8949
    },
    {
      "epoch": 9.123343527013251,
      "grad_norm": 0.110033318400383,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 8950
    },
    {
      "epoch": 9.124362895005097,
      "grad_norm": 0.07556872069835663,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8951
    },
    {
      "epoch": 9.125382262996942,
      "grad_norm": 0.09391090273857117,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8952
    },
    {
      "epoch": 9.126401630988786,
      "grad_norm": 0.09373308718204498,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8953
    },
    {
      "epoch": 9.127420998980632,
      "grad_norm": 0.07301604747772217,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 8954
    },
    {
      "epoch": 9.128440366972477,
      "grad_norm": 0.06992840766906738,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 8955
    },
    {
      "epoch": 9.129459734964323,
      "grad_norm": 0.11669552326202393,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 8956
    },
    {
      "epoch": 9.130479102956167,
      "grad_norm": 0.25207793712615967,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 8957
    },
    {
      "epoch": 9.131498470948012,
      "grad_norm": 0.03713387995958328,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 8958
    },
    {
      "epoch": 9.132517838939858,
      "grad_norm": 0.10843988507986069,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 8959
    },
    {
      "epoch": 9.133537206931702,
      "grad_norm": 0.11160509288311005,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 8960
    },
    {
      "epoch": 9.134556574923547,
      "grad_norm": 0.12235037237405777,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 8961
    },
    {
      "epoch": 9.135575942915393,
      "grad_norm": 0.08618662506341934,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 8962
    },
    {
      "epoch": 9.136595310907238,
      "grad_norm": 0.1059013307094574,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 8963
    },
    {
      "epoch": 9.137614678899082,
      "grad_norm": 0.27880561351776123,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 8964
    },
    {
      "epoch": 9.138634046890928,
      "grad_norm": 0.07133875787258148,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 8965
    },
    {
      "epoch": 9.139653414882773,
      "grad_norm": 0.09517241269350052,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 8966
    },
    {
      "epoch": 9.140672782874617,
      "grad_norm": 0.12079066783189774,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 8967
    },
    {
      "epoch": 9.141692150866463,
      "grad_norm": 0.052787717431783676,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 8968
    },
    {
      "epoch": 9.142711518858308,
      "grad_norm": 0.09601756185293198,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 8969
    },
    {
      "epoch": 9.143730886850152,
      "grad_norm": 0.060065533965826035,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 8970
    },
    {
      "epoch": 9.144750254841998,
      "grad_norm": 0.14428488910198212,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 8971
    },
    {
      "epoch": 9.145769622833843,
      "grad_norm": 0.0992220938205719,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 8972
    },
    {
      "epoch": 9.146788990825687,
      "grad_norm": 0.0900793969631195,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 8973
    },
    {
      "epoch": 9.147808358817533,
      "grad_norm": 0.15373536944389343,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 8974
    },
    {
      "epoch": 9.148827726809378,
      "grad_norm": 0.19182442128658295,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 8975
    },
    {
      "epoch": 9.149847094801224,
      "grad_norm": 0.2528476417064667,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 8976
    },
    {
      "epoch": 9.150866462793068,
      "grad_norm": 0.06420327723026276,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 8977
    },
    {
      "epoch": 9.151885830784913,
      "grad_norm": 0.06473757326602936,
      "learning_rate": 0.001,
      "loss": 0.1531,
      "step": 8978
    },
    {
      "epoch": 9.15290519877676,
      "grad_norm": 0.11235032230615616,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 8979
    },
    {
      "epoch": 9.153924566768604,
      "grad_norm": 0.114678755402565,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 8980
    },
    {
      "epoch": 9.154943934760448,
      "grad_norm": 0.12835703790187836,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 8981
    },
    {
      "epoch": 9.155963302752294,
      "grad_norm": 0.06423566490411758,
      "learning_rate": 0.001,
      "loss": 0.1603,
      "step": 8982
    },
    {
      "epoch": 9.156982670744139,
      "grad_norm": 0.10142491012811661,
      "learning_rate": 0.001,
      "loss": 0.2095,
      "step": 8983
    },
    {
      "epoch": 9.158002038735983,
      "grad_norm": 0.08208975195884705,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 8984
    },
    {
      "epoch": 9.15902140672783,
      "grad_norm": 0.10277596116065979,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 8985
    },
    {
      "epoch": 9.160040774719674,
      "grad_norm": 0.09009569883346558,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 8986
    },
    {
      "epoch": 9.161060142711518,
      "grad_norm": 0.08906735479831696,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 8987
    },
    {
      "epoch": 9.162079510703364,
      "grad_norm": 0.0676015093922615,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 8988
    },
    {
      "epoch": 9.163098878695209,
      "grad_norm": 0.05689717456698418,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 8989
    },
    {
      "epoch": 9.164118246687053,
      "grad_norm": 0.14607827365398407,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 8990
    },
    {
      "epoch": 9.1651376146789,
      "grad_norm": 0.1537458449602127,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 8991
    },
    {
      "epoch": 9.166156982670744,
      "grad_norm": 0.13770340383052826,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 8992
    },
    {
      "epoch": 9.16717635066259,
      "grad_norm": 0.10916876792907715,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 8993
    },
    {
      "epoch": 9.168195718654435,
      "grad_norm": 0.08881092816591263,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 8994
    },
    {
      "epoch": 9.169215086646279,
      "grad_norm": 0.06171807646751404,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 8995
    },
    {
      "epoch": 9.170234454638125,
      "grad_norm": 0.0840582326054573,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 8996
    },
    {
      "epoch": 9.17125382262997,
      "grad_norm": 0.08579902350902557,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 8997
    },
    {
      "epoch": 9.172273190621814,
      "grad_norm": 0.12313985824584961,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 8998
    },
    {
      "epoch": 9.17329255861366,
      "grad_norm": 0.21253958344459534,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 8999
    },
    {
      "epoch": 9.174311926605505,
      "grad_norm": 0.07823753356933594,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 9000
    },
    {
      "epoch": 9.175331294597349,
      "grad_norm": 0.11496823281049728,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 9001
    },
    {
      "epoch": 9.176350662589195,
      "grad_norm": 0.052625369280576706,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9002
    },
    {
      "epoch": 9.17737003058104,
      "grad_norm": 0.1350255012512207,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 9003
    },
    {
      "epoch": 9.178389398572884,
      "grad_norm": 0.07370341569185257,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 9004
    },
    {
      "epoch": 9.17940876656473,
      "grad_norm": 0.11300235241651535,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 9005
    },
    {
      "epoch": 9.180428134556575,
      "grad_norm": 0.1232304573059082,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9006
    },
    {
      "epoch": 9.18144750254842,
      "grad_norm": 0.06500908732414246,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 9007
    },
    {
      "epoch": 9.182466870540265,
      "grad_norm": 0.0671381801366806,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 9008
    },
    {
      "epoch": 9.18348623853211,
      "grad_norm": 0.1349339336156845,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 9009
    },
    {
      "epoch": 9.184505606523954,
      "grad_norm": 0.10667251795530319,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 9010
    },
    {
      "epoch": 9.1855249745158,
      "grad_norm": 0.10727062821388245,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 9011
    },
    {
      "epoch": 9.186544342507645,
      "grad_norm": 0.0909501239657402,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 9012
    },
    {
      "epoch": 9.187563710499491,
      "grad_norm": 0.102437824010849,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 9013
    },
    {
      "epoch": 9.188583078491336,
      "grad_norm": 0.10882071405649185,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 9014
    },
    {
      "epoch": 9.18960244648318,
      "grad_norm": 0.1497999131679535,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 9015
    },
    {
      "epoch": 9.190621814475026,
      "grad_norm": 0.09647388756275177,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 9016
    },
    {
      "epoch": 9.19164118246687,
      "grad_norm": 0.09223932027816772,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9017
    },
    {
      "epoch": 9.192660550458715,
      "grad_norm": 0.09639527648687363,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 9018
    },
    {
      "epoch": 9.193679918450561,
      "grad_norm": 0.1464381068944931,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 9019
    },
    {
      "epoch": 9.194699286442406,
      "grad_norm": 0.11525271832942963,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 9020
    },
    {
      "epoch": 9.19571865443425,
      "grad_norm": 0.11910253018140793,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 9021
    },
    {
      "epoch": 9.196738022426096,
      "grad_norm": 0.11132801324129105,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 9022
    },
    {
      "epoch": 9.19775739041794,
      "grad_norm": 0.18385979533195496,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 9023
    },
    {
      "epoch": 9.198776758409785,
      "grad_norm": 0.04471869021654129,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9024
    },
    {
      "epoch": 9.199796126401631,
      "grad_norm": 0.13413631916046143,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 9025
    },
    {
      "epoch": 9.200815494393476,
      "grad_norm": 0.16022367775440216,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 9026
    },
    {
      "epoch": 9.20183486238532,
      "grad_norm": 0.057549502700567245,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 9027
    },
    {
      "epoch": 9.202854230377167,
      "grad_norm": 0.09950826317071915,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9028
    },
    {
      "epoch": 9.203873598369011,
      "grad_norm": 0.05501682683825493,
      "learning_rate": 0.001,
      "loss": 0.1492,
      "step": 9029
    },
    {
      "epoch": 9.204892966360855,
      "grad_norm": 0.12911246716976166,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 9030
    },
    {
      "epoch": 9.205912334352702,
      "grad_norm": 0.08945026993751526,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9031
    },
    {
      "epoch": 9.206931702344546,
      "grad_norm": 0.06000189483165741,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 9032
    },
    {
      "epoch": 9.207951070336392,
      "grad_norm": 0.0828499048948288,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 9033
    },
    {
      "epoch": 9.208970438328237,
      "grad_norm": 0.08236763626337051,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 9034
    },
    {
      "epoch": 9.209989806320081,
      "grad_norm": 0.05377482250332832,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9035
    },
    {
      "epoch": 9.211009174311927,
      "grad_norm": 0.1390269696712494,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 9036
    },
    {
      "epoch": 9.212028542303772,
      "grad_norm": 0.09434232115745544,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9037
    },
    {
      "epoch": 9.213047910295616,
      "grad_norm": 0.09129630029201508,
      "learning_rate": 0.001,
      "loss": 0.2122,
      "step": 9038
    },
    {
      "epoch": 9.214067278287462,
      "grad_norm": 0.07300370186567307,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 9039
    },
    {
      "epoch": 9.215086646279307,
      "grad_norm": 0.10037922859191895,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9040
    },
    {
      "epoch": 9.216106014271151,
      "grad_norm": 0.1530950665473938,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 9041
    },
    {
      "epoch": 9.217125382262997,
      "grad_norm": 0.15704645216464996,
      "learning_rate": 0.001,
      "loss": 0.2188,
      "step": 9042
    },
    {
      "epoch": 9.218144750254842,
      "grad_norm": 0.20122554898262024,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9043
    },
    {
      "epoch": 9.219164118246686,
      "grad_norm": 0.10389737039804459,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 9044
    },
    {
      "epoch": 9.220183486238533,
      "grad_norm": 0.07901999354362488,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 9045
    },
    {
      "epoch": 9.221202854230377,
      "grad_norm": 0.14412559568881989,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 9046
    },
    {
      "epoch": 9.222222222222221,
      "grad_norm": 0.21009226143360138,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 9047
    },
    {
      "epoch": 9.223241590214068,
      "grad_norm": 0.1692999005317688,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 9048
    },
    {
      "epoch": 9.224260958205912,
      "grad_norm": 0.15958565473556519,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9049
    },
    {
      "epoch": 9.225280326197758,
      "grad_norm": 0.13947157561779022,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 9050
    },
    {
      "epoch": 9.226299694189603,
      "grad_norm": 0.12550503015518188,
      "learning_rate": 0.001,
      "loss": 0.2212,
      "step": 9051
    },
    {
      "epoch": 9.227319062181447,
      "grad_norm": 0.1072976142168045,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 9052
    },
    {
      "epoch": 9.228338430173293,
      "grad_norm": 0.11479627341032028,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 9053
    },
    {
      "epoch": 9.229357798165138,
      "grad_norm": 0.057540226727724075,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 9054
    },
    {
      "epoch": 9.230377166156982,
      "grad_norm": 0.09918228536844254,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9055
    },
    {
      "epoch": 9.231396534148828,
      "grad_norm": 0.1121700257062912,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 9056
    },
    {
      "epoch": 9.232415902140673,
      "grad_norm": 0.11151804029941559,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 9057
    },
    {
      "epoch": 9.233435270132517,
      "grad_norm": 0.10108590871095657,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 9058
    },
    {
      "epoch": 9.234454638124364,
      "grad_norm": 0.13271614909172058,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 9059
    },
    {
      "epoch": 9.235474006116208,
      "grad_norm": 0.07761809974908829,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 9060
    },
    {
      "epoch": 9.236493374108052,
      "grad_norm": 0.08409468829631805,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 9061
    },
    {
      "epoch": 9.237512742099899,
      "grad_norm": 0.09357241541147232,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 9062
    },
    {
      "epoch": 9.238532110091743,
      "grad_norm": 0.05286675691604614,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 9063
    },
    {
      "epoch": 9.239551478083587,
      "grad_norm": 0.12690035998821259,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 9064
    },
    {
      "epoch": 9.240570846075434,
      "grad_norm": 0.14092110097408295,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9065
    },
    {
      "epoch": 9.241590214067278,
      "grad_norm": 0.2096424549818039,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 9066
    },
    {
      "epoch": 9.242609582059123,
      "grad_norm": 0.08998260647058487,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 9067
    },
    {
      "epoch": 9.243628950050969,
      "grad_norm": 0.11505404859781265,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 9068
    },
    {
      "epoch": 9.244648318042813,
      "grad_norm": 0.06268686056137085,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9069
    },
    {
      "epoch": 9.24566768603466,
      "grad_norm": 0.04940636083483696,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 9070
    },
    {
      "epoch": 9.246687054026504,
      "grad_norm": 0.08542167395353317,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 9071
    },
    {
      "epoch": 9.247706422018348,
      "grad_norm": 0.078457310795784,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 9072
    },
    {
      "epoch": 9.248725790010194,
      "grad_norm": 0.09498216956853867,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 9073
    },
    {
      "epoch": 9.249745158002039,
      "grad_norm": 0.10098189860582352,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 9074
    },
    {
      "epoch": 9.250764525993883,
      "grad_norm": 0.11052186042070389,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 9075
    },
    {
      "epoch": 9.25178389398573,
      "grad_norm": 0.1274728924036026,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 9076
    },
    {
      "epoch": 9.252803261977574,
      "grad_norm": 0.11808652430772781,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 9077
    },
    {
      "epoch": 9.253822629969418,
      "grad_norm": 0.21255913376808167,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 9078
    },
    {
      "epoch": 9.254841997961265,
      "grad_norm": 0.08131028711795807,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 9079
    },
    {
      "epoch": 9.255861365953109,
      "grad_norm": 0.06020791083574295,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9080
    },
    {
      "epoch": 9.256880733944953,
      "grad_norm": 0.17908628284931183,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 9081
    },
    {
      "epoch": 9.2579001019368,
      "grad_norm": 0.18734045326709747,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 9082
    },
    {
      "epoch": 9.258919469928644,
      "grad_norm": 0.09713669121265411,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 9083
    },
    {
      "epoch": 9.259938837920489,
      "grad_norm": 0.09516529738903046,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 9084
    },
    {
      "epoch": 9.260958205912335,
      "grad_norm": 0.04233222082257271,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 9085
    },
    {
      "epoch": 9.26197757390418,
      "grad_norm": 0.10344954580068588,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 9086
    },
    {
      "epoch": 9.262996941896024,
      "grad_norm": 0.1142847016453743,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 9087
    },
    {
      "epoch": 9.26401630988787,
      "grad_norm": 0.1270277053117752,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 9088
    },
    {
      "epoch": 9.265035677879714,
      "grad_norm": 0.07735145837068558,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 9089
    },
    {
      "epoch": 9.26605504587156,
      "grad_norm": 0.11191628873348236,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9090
    },
    {
      "epoch": 9.267074413863405,
      "grad_norm": 0.1795356422662735,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 9091
    },
    {
      "epoch": 9.26809378185525,
      "grad_norm": 0.1375555396080017,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 9092
    },
    {
      "epoch": 9.269113149847096,
      "grad_norm": 0.08745034784078598,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 9093
    },
    {
      "epoch": 9.27013251783894,
      "grad_norm": 0.07515890151262283,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 9094
    },
    {
      "epoch": 9.271151885830784,
      "grad_norm": 0.08432665467262268,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 9095
    },
    {
      "epoch": 9.27217125382263,
      "grad_norm": 0.04750485345721245,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 9096
    },
    {
      "epoch": 9.273190621814475,
      "grad_norm": 0.12073290348052979,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 9097
    },
    {
      "epoch": 9.27420998980632,
      "grad_norm": 0.13527314364910126,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9098
    },
    {
      "epoch": 9.275229357798166,
      "grad_norm": 0.06345678120851517,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 9099
    },
    {
      "epoch": 9.27624872579001,
      "grad_norm": 0.07124746590852737,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 9100
    },
    {
      "epoch": 9.277268093781855,
      "grad_norm": 0.14526858925819397,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 9101
    },
    {
      "epoch": 9.2782874617737,
      "grad_norm": 0.07686789333820343,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 9102
    },
    {
      "epoch": 9.279306829765545,
      "grad_norm": 0.18781010806560516,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 9103
    },
    {
      "epoch": 9.28032619775739,
      "grad_norm": 0.09250982105731964,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 9104
    },
    {
      "epoch": 9.281345565749236,
      "grad_norm": 0.043728385120630264,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 9105
    },
    {
      "epoch": 9.28236493374108,
      "grad_norm": 0.15051992237567902,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 9106
    },
    {
      "epoch": 9.283384301732925,
      "grad_norm": 0.09620435535907745,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9107
    },
    {
      "epoch": 9.284403669724771,
      "grad_norm": 0.08889944851398468,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 9108
    },
    {
      "epoch": 9.285423037716615,
      "grad_norm": 0.09845314919948578,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 9109
    },
    {
      "epoch": 9.286442405708462,
      "grad_norm": 0.19610552489757538,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 9110
    },
    {
      "epoch": 9.287461773700306,
      "grad_norm": 0.09436816722154617,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 9111
    },
    {
      "epoch": 9.28848114169215,
      "grad_norm": 0.09892389923334122,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 9112
    },
    {
      "epoch": 9.289500509683997,
      "grad_norm": 0.11858779191970825,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 9113
    },
    {
      "epoch": 9.290519877675841,
      "grad_norm": 0.14959706366062164,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9114
    },
    {
      "epoch": 9.291539245667686,
      "grad_norm": 0.11956945806741714,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9115
    },
    {
      "epoch": 9.292558613659532,
      "grad_norm": 0.24136464297771454,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 9116
    },
    {
      "epoch": 9.293577981651376,
      "grad_norm": 0.06687820702791214,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9117
    },
    {
      "epoch": 9.29459734964322,
      "grad_norm": 0.1316845715045929,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9118
    },
    {
      "epoch": 9.295616717635067,
      "grad_norm": 0.09991352260112762,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 9119
    },
    {
      "epoch": 9.296636085626911,
      "grad_norm": 0.1308514028787613,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9120
    },
    {
      "epoch": 9.297655453618756,
      "grad_norm": 0.14348924160003662,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 9121
    },
    {
      "epoch": 9.298674821610602,
      "grad_norm": 0.09135764837265015,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 9122
    },
    {
      "epoch": 9.299694189602446,
      "grad_norm": 0.07215587049722672,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 9123
    },
    {
      "epoch": 9.30071355759429,
      "grad_norm": 0.1405225694179535,
      "learning_rate": 0.001,
      "loss": 0.2111,
      "step": 9124
    },
    {
      "epoch": 9.301732925586137,
      "grad_norm": 0.16938894987106323,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 9125
    },
    {
      "epoch": 9.302752293577981,
      "grad_norm": 0.041076481342315674,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 9126
    },
    {
      "epoch": 9.303771661569826,
      "grad_norm": 0.13075724244117737,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 9127
    },
    {
      "epoch": 9.304791029561672,
      "grad_norm": 0.08496735244989395,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9128
    },
    {
      "epoch": 9.305810397553516,
      "grad_norm": 0.11087916791439056,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 9129
    },
    {
      "epoch": 9.306829765545363,
      "grad_norm": 0.2139907032251358,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9130
    },
    {
      "epoch": 9.307849133537207,
      "grad_norm": 0.07554879039525986,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 9131
    },
    {
      "epoch": 9.308868501529052,
      "grad_norm": 0.10413660854101181,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 9132
    },
    {
      "epoch": 9.309887869520898,
      "grad_norm": 0.0724516436457634,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 9133
    },
    {
      "epoch": 9.310907237512742,
      "grad_norm": 0.107704758644104,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 9134
    },
    {
      "epoch": 9.311926605504587,
      "grad_norm": 0.0827740803360939,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 9135
    },
    {
      "epoch": 9.312945973496433,
      "grad_norm": 0.10601552575826645,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 9136
    },
    {
      "epoch": 9.313965341488277,
      "grad_norm": 0.09006568044424057,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 9137
    },
    {
      "epoch": 9.314984709480122,
      "grad_norm": 0.06008802726864815,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9138
    },
    {
      "epoch": 9.316004077471968,
      "grad_norm": 0.09224431216716766,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 9139
    },
    {
      "epoch": 9.317023445463812,
      "grad_norm": 0.0595245398581028,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 9140
    },
    {
      "epoch": 9.318042813455657,
      "grad_norm": 0.10237351059913635,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 9141
    },
    {
      "epoch": 9.319062181447503,
      "grad_norm": 0.11190706491470337,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 9142
    },
    {
      "epoch": 9.320081549439347,
      "grad_norm": 0.08435997366905212,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 9143
    },
    {
      "epoch": 9.321100917431192,
      "grad_norm": 0.11799778044223785,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 9144
    },
    {
      "epoch": 9.322120285423038,
      "grad_norm": 0.13933825492858887,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 9145
    },
    {
      "epoch": 9.323139653414882,
      "grad_norm": 0.24711547791957855,
      "learning_rate": 0.001,
      "loss": 0.2329,
      "step": 9146
    },
    {
      "epoch": 9.324159021406729,
      "grad_norm": 0.08382169157266617,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 9147
    },
    {
      "epoch": 9.325178389398573,
      "grad_norm": 0.10286692529916763,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 9148
    },
    {
      "epoch": 9.326197757390418,
      "grad_norm": 0.14117024838924408,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9149
    },
    {
      "epoch": 9.327217125382264,
      "grad_norm": 0.07850009948015213,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9150
    },
    {
      "epoch": 9.328236493374108,
      "grad_norm": 0.09330588579177856,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9151
    },
    {
      "epoch": 9.329255861365953,
      "grad_norm": 0.16629886627197266,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 9152
    },
    {
      "epoch": 9.330275229357799,
      "grad_norm": 0.09148947149515152,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9153
    },
    {
      "epoch": 9.331294597349643,
      "grad_norm": 0.13913622498512268,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9154
    },
    {
      "epoch": 9.332313965341488,
      "grad_norm": 0.08920006453990936,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 9155
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.11606062948703766,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 9156
    },
    {
      "epoch": 9.334352701325178,
      "grad_norm": 0.1737014502286911,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 9157
    },
    {
      "epoch": 9.335372069317023,
      "grad_norm": 0.09815090894699097,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 9158
    },
    {
      "epoch": 9.336391437308869,
      "grad_norm": 0.13638648390769958,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9159
    },
    {
      "epoch": 9.337410805300713,
      "grad_norm": 0.0944042056798935,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 9160
    },
    {
      "epoch": 9.338430173292558,
      "grad_norm": 0.1413295865058899,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9161
    },
    {
      "epoch": 9.339449541284404,
      "grad_norm": 0.13263064622879028,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 9162
    },
    {
      "epoch": 9.340468909276249,
      "grad_norm": 0.08800127357244492,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 9163
    },
    {
      "epoch": 9.341488277268093,
      "grad_norm": 0.157032310962677,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9164
    },
    {
      "epoch": 9.34250764525994,
      "grad_norm": 0.0832725539803505,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 9165
    },
    {
      "epoch": 9.343527013251784,
      "grad_norm": 0.08982779830694199,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 9166
    },
    {
      "epoch": 9.34454638124363,
      "grad_norm": 0.07632771879434586,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 9167
    },
    {
      "epoch": 9.345565749235474,
      "grad_norm": 0.0810750424861908,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9168
    },
    {
      "epoch": 9.346585117227319,
      "grad_norm": 0.07249744981527328,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 9169
    },
    {
      "epoch": 9.347604485219165,
      "grad_norm": 0.10682812333106995,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 9170
    },
    {
      "epoch": 9.34862385321101,
      "grad_norm": 0.07286572456359863,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 9171
    },
    {
      "epoch": 9.349643221202854,
      "grad_norm": 0.1511831432580948,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 9172
    },
    {
      "epoch": 9.3506625891947,
      "grad_norm": 0.050815146416425705,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9173
    },
    {
      "epoch": 9.351681957186544,
      "grad_norm": 0.06321366876363754,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 9174
    },
    {
      "epoch": 9.352701325178389,
      "grad_norm": 0.128167524933815,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 9175
    },
    {
      "epoch": 9.353720693170235,
      "grad_norm": 0.10507290065288544,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 9176
    },
    {
      "epoch": 9.35474006116208,
      "grad_norm": 0.155415341258049,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 9177
    },
    {
      "epoch": 9.355759429153924,
      "grad_norm": 0.1468387395143509,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9178
    },
    {
      "epoch": 9.35677879714577,
      "grad_norm": 0.07934652268886566,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 9179
    },
    {
      "epoch": 9.357798165137615,
      "grad_norm": 0.058419179171323776,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 9180
    },
    {
      "epoch": 9.358817533129459,
      "grad_norm": 0.14120720326900482,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 9181
    },
    {
      "epoch": 9.359836901121305,
      "grad_norm": 0.1103481724858284,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 9182
    },
    {
      "epoch": 9.36085626911315,
      "grad_norm": 0.08914604038000107,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 9183
    },
    {
      "epoch": 9.361875637104994,
      "grad_norm": 0.06011321395635605,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 9184
    },
    {
      "epoch": 9.36289500509684,
      "grad_norm": 0.04871238395571709,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9185
    },
    {
      "epoch": 9.363914373088685,
      "grad_norm": 0.1196189671754837,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9186
    },
    {
      "epoch": 9.364933741080531,
      "grad_norm": 0.17886273562908173,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 9187
    },
    {
      "epoch": 9.365953109072375,
      "grad_norm": 0.1421579271554947,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 9188
    },
    {
      "epoch": 9.36697247706422,
      "grad_norm": 0.05574566125869751,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9189
    },
    {
      "epoch": 9.367991845056066,
      "grad_norm": 0.12064267694950104,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9190
    },
    {
      "epoch": 9.36901121304791,
      "grad_norm": 0.11870098859071732,
      "learning_rate": 0.001,
      "loss": 0.2067,
      "step": 9191
    },
    {
      "epoch": 9.370030581039755,
      "grad_norm": 0.0783129408955574,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 9192
    },
    {
      "epoch": 9.371049949031601,
      "grad_norm": 0.11053310334682465,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 9193
    },
    {
      "epoch": 9.372069317023445,
      "grad_norm": 0.07661948353052139,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 9194
    },
    {
      "epoch": 9.37308868501529,
      "grad_norm": 0.08178718388080597,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 9195
    },
    {
      "epoch": 9.374108053007136,
      "grad_norm": 0.23278029263019562,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 9196
    },
    {
      "epoch": 9.37512742099898,
      "grad_norm": 0.06442833691835403,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9197
    },
    {
      "epoch": 9.376146788990825,
      "grad_norm": 0.13892708718776703,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 9198
    },
    {
      "epoch": 9.377166156982671,
      "grad_norm": 0.08784789592027664,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 9199
    },
    {
      "epoch": 9.378185524974516,
      "grad_norm": 0.0854121521115303,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 9200
    },
    {
      "epoch": 9.37920489296636,
      "grad_norm": 0.1886153668165207,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 9201
    },
    {
      "epoch": 9.380224260958206,
      "grad_norm": 0.0923454686999321,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 9202
    },
    {
      "epoch": 9.38124362895005,
      "grad_norm": 0.07294800132513046,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9203
    },
    {
      "epoch": 9.382262996941897,
      "grad_norm": 0.0805303230881691,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 9204
    },
    {
      "epoch": 9.383282364933741,
      "grad_norm": 0.25487303733825684,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9205
    },
    {
      "epoch": 9.384301732925586,
      "grad_norm": 0.12854421138763428,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 9206
    },
    {
      "epoch": 9.385321100917432,
      "grad_norm": 0.08119658380746841,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 9207
    },
    {
      "epoch": 9.386340468909276,
      "grad_norm": 0.16543059051036835,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 9208
    },
    {
      "epoch": 9.38735983690112,
      "grad_norm": 0.09495604783296585,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 9209
    },
    {
      "epoch": 9.388379204892967,
      "grad_norm": 0.10050199925899506,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 9210
    },
    {
      "epoch": 9.389398572884812,
      "grad_norm": 0.08240247517824173,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 9211
    },
    {
      "epoch": 9.390417940876656,
      "grad_norm": 0.12907777726650238,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 9212
    },
    {
      "epoch": 9.391437308868502,
      "grad_norm": 0.08077879250049591,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 9213
    },
    {
      "epoch": 9.392456676860347,
      "grad_norm": 0.07759354263544083,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9214
    },
    {
      "epoch": 9.393476044852191,
      "grad_norm": 0.14084528386592865,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 9215
    },
    {
      "epoch": 9.394495412844037,
      "grad_norm": 0.13472609221935272,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 9216
    },
    {
      "epoch": 9.395514780835882,
      "grad_norm": 0.061947017908096313,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 9217
    },
    {
      "epoch": 9.396534148827726,
      "grad_norm": 0.05984373390674591,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 9218
    },
    {
      "epoch": 9.397553516819572,
      "grad_norm": 0.11584053933620453,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 9219
    },
    {
      "epoch": 9.398572884811417,
      "grad_norm": 0.10930221527814865,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 9220
    },
    {
      "epoch": 9.399592252803261,
      "grad_norm": 0.0820339024066925,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9221
    },
    {
      "epoch": 9.400611620795107,
      "grad_norm": 0.06461070477962494,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 9222
    },
    {
      "epoch": 9.401630988786952,
      "grad_norm": 0.1039152443408966,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9223
    },
    {
      "epoch": 9.402650356778796,
      "grad_norm": 0.11325095593929291,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 9224
    },
    {
      "epoch": 9.403669724770642,
      "grad_norm": 0.16188889741897583,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 9225
    },
    {
      "epoch": 9.404689092762487,
      "grad_norm": 0.05294497683644295,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 9226
    },
    {
      "epoch": 9.405708460754333,
      "grad_norm": 0.08143056929111481,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 9227
    },
    {
      "epoch": 9.406727828746178,
      "grad_norm": 0.07161639630794525,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 9228
    },
    {
      "epoch": 9.407747196738022,
      "grad_norm": 0.16074718534946442,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 9229
    },
    {
      "epoch": 9.408766564729868,
      "grad_norm": 0.2582642138004303,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 9230
    },
    {
      "epoch": 9.409785932721713,
      "grad_norm": 0.07501274347305298,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9231
    },
    {
      "epoch": 9.410805300713557,
      "grad_norm": 0.09640263766050339,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 9232
    },
    {
      "epoch": 9.411824668705403,
      "grad_norm": 0.14343950152397156,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 9233
    },
    {
      "epoch": 9.412844036697248,
      "grad_norm": 0.11274134367704391,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 9234
    },
    {
      "epoch": 9.413863404689092,
      "grad_norm": 0.11841920763254166,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 9235
    },
    {
      "epoch": 9.414882772680938,
      "grad_norm": 0.0866047739982605,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 9236
    },
    {
      "epoch": 9.415902140672783,
      "grad_norm": 0.09821445494890213,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 9237
    },
    {
      "epoch": 9.416921508664627,
      "grad_norm": 0.19187134504318237,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 9238
    },
    {
      "epoch": 9.417940876656473,
      "grad_norm": 0.27363646030426025,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 9239
    },
    {
      "epoch": 9.418960244648318,
      "grad_norm": 0.157864049077034,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 9240
    },
    {
      "epoch": 9.419979612640162,
      "grad_norm": 0.0973978266119957,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9241
    },
    {
      "epoch": 9.420998980632008,
      "grad_norm": 0.08774860203266144,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9242
    },
    {
      "epoch": 9.422018348623853,
      "grad_norm": 0.119326151907444,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 9243
    },
    {
      "epoch": 9.423037716615699,
      "grad_norm": 0.0755968689918518,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9244
    },
    {
      "epoch": 9.424057084607544,
      "grad_norm": 0.03495582193136215,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 9245
    },
    {
      "epoch": 9.425076452599388,
      "grad_norm": 0.1127406507730484,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 9246
    },
    {
      "epoch": 9.426095820591234,
      "grad_norm": 0.1012195497751236,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9247
    },
    {
      "epoch": 9.427115188583079,
      "grad_norm": 0.15732505917549133,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 9248
    },
    {
      "epoch": 9.428134556574923,
      "grad_norm": 0.1656898409128189,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 9249
    },
    {
      "epoch": 9.42915392456677,
      "grad_norm": 0.07800569385290146,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 9250
    },
    {
      "epoch": 9.430173292558614,
      "grad_norm": 0.09013032913208008,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 9251
    },
    {
      "epoch": 9.431192660550458,
      "grad_norm": 0.09279470890760422,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 9252
    },
    {
      "epoch": 9.432212028542304,
      "grad_norm": 0.11799780279397964,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 9253
    },
    {
      "epoch": 9.433231396534149,
      "grad_norm": 0.15819184482097626,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 9254
    },
    {
      "epoch": 9.434250764525993,
      "grad_norm": 0.3084450662136078,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 9255
    },
    {
      "epoch": 9.43527013251784,
      "grad_norm": 0.05806376412510872,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 9256
    },
    {
      "epoch": 9.436289500509684,
      "grad_norm": 0.18023589253425598,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 9257
    },
    {
      "epoch": 9.437308868501528,
      "grad_norm": 0.13489988446235657,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 9258
    },
    {
      "epoch": 9.438328236493374,
      "grad_norm": 0.1168370470404625,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 9259
    },
    {
      "epoch": 9.439347604485219,
      "grad_norm": 0.10961876809597015,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9260
    },
    {
      "epoch": 9.440366972477065,
      "grad_norm": 0.168480783700943,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9261
    },
    {
      "epoch": 9.44138634046891,
      "grad_norm": 0.12947329878807068,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 9262
    },
    {
      "epoch": 9.442405708460754,
      "grad_norm": 0.061395980417728424,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 9263
    },
    {
      "epoch": 9.4434250764526,
      "grad_norm": 0.066686250269413,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 9264
    },
    {
      "epoch": 9.444444444444445,
      "grad_norm": 0.13785913586616516,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 9265
    },
    {
      "epoch": 9.445463812436289,
      "grad_norm": 0.12346861511468887,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9266
    },
    {
      "epoch": 9.446483180428135,
      "grad_norm": 0.1037922203540802,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 9267
    },
    {
      "epoch": 9.44750254841998,
      "grad_norm": 0.06611770391464233,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 9268
    },
    {
      "epoch": 9.448521916411824,
      "grad_norm": 0.16483144462108612,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 9269
    },
    {
      "epoch": 9.44954128440367,
      "grad_norm": 0.12694108486175537,
      "learning_rate": 0.001,
      "loss": 0.235,
      "step": 9270
    },
    {
      "epoch": 9.450560652395515,
      "grad_norm": 0.09882181137800217,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 9271
    },
    {
      "epoch": 9.45158002038736,
      "grad_norm": 0.08325745910406113,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 9272
    },
    {
      "epoch": 9.452599388379205,
      "grad_norm": 0.0487821064889431,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 9273
    },
    {
      "epoch": 9.45361875637105,
      "grad_norm": 0.08284317702054977,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 9274
    },
    {
      "epoch": 9.454638124362894,
      "grad_norm": 0.08153143525123596,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 9275
    },
    {
      "epoch": 9.45565749235474,
      "grad_norm": 0.0668327659368515,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 9276
    },
    {
      "epoch": 9.456676860346585,
      "grad_norm": 0.09792793542146683,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 9277
    },
    {
      "epoch": 9.45769622833843,
      "grad_norm": 0.08252429217100143,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 9278
    },
    {
      "epoch": 9.458715596330276,
      "grad_norm": 0.10047927498817444,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 9279
    },
    {
      "epoch": 9.45973496432212,
      "grad_norm": 0.15943294763565063,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 9280
    },
    {
      "epoch": 9.460754332313964,
      "grad_norm": 0.1453946828842163,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 9281
    },
    {
      "epoch": 9.46177370030581,
      "grad_norm": 0.04979807510972023,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9282
    },
    {
      "epoch": 9.462793068297655,
      "grad_norm": 0.10749499499797821,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 9283
    },
    {
      "epoch": 9.463812436289501,
      "grad_norm": 0.12445525825023651,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 9284
    },
    {
      "epoch": 9.464831804281346,
      "grad_norm": 0.0995706245303154,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 9285
    },
    {
      "epoch": 9.46585117227319,
      "grad_norm": 0.09657937288284302,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 9286
    },
    {
      "epoch": 9.466870540265036,
      "grad_norm": 0.12058712542057037,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 9287
    },
    {
      "epoch": 9.46788990825688,
      "grad_norm": 0.16789261996746063,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9288
    },
    {
      "epoch": 9.468909276248725,
      "grad_norm": 0.08514660596847534,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 9289
    },
    {
      "epoch": 9.469928644240571,
      "grad_norm": 0.083183154463768,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 9290
    },
    {
      "epoch": 9.470948012232416,
      "grad_norm": 0.046801429241895676,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 9291
    },
    {
      "epoch": 9.47196738022426,
      "grad_norm": 0.05838131904602051,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 9292
    },
    {
      "epoch": 9.472986748216107,
      "grad_norm": 0.0843006893992424,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 9293
    },
    {
      "epoch": 9.474006116207951,
      "grad_norm": 0.1064726784825325,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 9294
    },
    {
      "epoch": 9.475025484199795,
      "grad_norm": 0.12630055844783783,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 9295
    },
    {
      "epoch": 9.476044852191642,
      "grad_norm": 0.27925583720207214,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 9296
    },
    {
      "epoch": 9.477064220183486,
      "grad_norm": 0.09346843510866165,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 9297
    },
    {
      "epoch": 9.47808358817533,
      "grad_norm": 0.06060152128338814,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 9298
    },
    {
      "epoch": 9.479102956167177,
      "grad_norm": 0.1206449642777443,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 9299
    },
    {
      "epoch": 9.480122324159021,
      "grad_norm": 0.10388370603322983,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 9300
    },
    {
      "epoch": 9.481141692150867,
      "grad_norm": 0.11102329194545746,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9301
    },
    {
      "epoch": 9.482161060142712,
      "grad_norm": 0.12235642969608307,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 9302
    },
    {
      "epoch": 9.483180428134556,
      "grad_norm": 0.13106340169906616,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9303
    },
    {
      "epoch": 9.484199796126402,
      "grad_norm": 0.1866975575685501,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9304
    },
    {
      "epoch": 9.485219164118247,
      "grad_norm": 0.1412428915500641,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9305
    },
    {
      "epoch": 9.486238532110091,
      "grad_norm": 0.07770955562591553,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 9306
    },
    {
      "epoch": 9.487257900101937,
      "grad_norm": 0.14472518861293793,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 9307
    },
    {
      "epoch": 9.488277268093782,
      "grad_norm": 0.09473449736833572,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 9308
    },
    {
      "epoch": 9.489296636085626,
      "grad_norm": 0.10622553527355194,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 9309
    },
    {
      "epoch": 9.490316004077473,
      "grad_norm": 0.07389207929372787,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9310
    },
    {
      "epoch": 9.491335372069317,
      "grad_norm": 0.1387026607990265,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 9311
    },
    {
      "epoch": 9.492354740061161,
      "grad_norm": 0.18441466987133026,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 9312
    },
    {
      "epoch": 9.493374108053008,
      "grad_norm": 0.09677210450172424,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 9313
    },
    {
      "epoch": 9.494393476044852,
      "grad_norm": 0.13671435415744781,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9314
    },
    {
      "epoch": 9.495412844036696,
      "grad_norm": 0.08692856132984161,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 9315
    },
    {
      "epoch": 9.496432212028543,
      "grad_norm": 0.09419547766447067,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9316
    },
    {
      "epoch": 9.497451580020387,
      "grad_norm": 0.12257029116153717,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 9317
    },
    {
      "epoch": 9.498470948012232,
      "grad_norm": 0.0816761776804924,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 9318
    },
    {
      "epoch": 9.499490316004078,
      "grad_norm": 0.06749409437179565,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 9319
    },
    {
      "epoch": 9.500509683995922,
      "grad_norm": 0.14022302627563477,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9320
    },
    {
      "epoch": 9.501529051987767,
      "grad_norm": 0.1282644420862198,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 9321
    },
    {
      "epoch": 9.502548419979613,
      "grad_norm": 0.12903738021850586,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 9322
    },
    {
      "epoch": 9.503567787971457,
      "grad_norm": 0.11441157013177872,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 9323
    },
    {
      "epoch": 9.504587155963304,
      "grad_norm": 0.13917364180088043,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 9324
    },
    {
      "epoch": 9.505606523955148,
      "grad_norm": 0.10081198811531067,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 9325
    },
    {
      "epoch": 9.506625891946992,
      "grad_norm": 0.2843277156352997,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 9326
    },
    {
      "epoch": 9.507645259938839,
      "grad_norm": 0.11445584148168564,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 9327
    },
    {
      "epoch": 9.508664627930683,
      "grad_norm": 0.13042454421520233,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 9328
    },
    {
      "epoch": 9.509683995922527,
      "grad_norm": 0.12086137384176254,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 9329
    },
    {
      "epoch": 9.510703363914374,
      "grad_norm": 0.09608695656061172,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 9330
    },
    {
      "epoch": 9.511722731906218,
      "grad_norm": 0.12325119227170944,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 9331
    },
    {
      "epoch": 9.512742099898063,
      "grad_norm": 0.12280593812465668,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 9332
    },
    {
      "epoch": 9.513761467889909,
      "grad_norm": 0.13368281722068787,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9333
    },
    {
      "epoch": 9.514780835881753,
      "grad_norm": 0.210164874792099,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 9334
    },
    {
      "epoch": 9.515800203873598,
      "grad_norm": 0.11728015542030334,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 9335
    },
    {
      "epoch": 9.516819571865444,
      "grad_norm": 0.21208526194095612,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 9336
    },
    {
      "epoch": 9.517838939857288,
      "grad_norm": 0.10983221977949142,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 9337
    },
    {
      "epoch": 9.518858307849133,
      "grad_norm": 0.10942572355270386,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 9338
    },
    {
      "epoch": 9.519877675840979,
      "grad_norm": 0.08639852702617645,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 9339
    },
    {
      "epoch": 9.520897043832823,
      "grad_norm": 0.12757691740989685,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 9340
    },
    {
      "epoch": 9.52191641182467,
      "grad_norm": 0.11827605962753296,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9341
    },
    {
      "epoch": 9.522935779816514,
      "grad_norm": 0.0603172667324543,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9342
    },
    {
      "epoch": 9.523955147808358,
      "grad_norm": 0.09162135422229767,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 9343
    },
    {
      "epoch": 9.524974515800205,
      "grad_norm": 0.08471124619245529,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9344
    },
    {
      "epoch": 9.525993883792049,
      "grad_norm": 0.09048909693956375,
      "learning_rate": 0.001,
      "loss": 0.2058,
      "step": 9345
    },
    {
      "epoch": 9.527013251783893,
      "grad_norm": 0.17395998537540436,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9346
    },
    {
      "epoch": 9.52803261977574,
      "grad_norm": 0.09576039761304855,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9347
    },
    {
      "epoch": 9.529051987767584,
      "grad_norm": 0.11511620134115219,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 9348
    },
    {
      "epoch": 9.530071355759429,
      "grad_norm": 0.12212593853473663,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 9349
    },
    {
      "epoch": 9.531090723751275,
      "grad_norm": 0.09285728633403778,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9350
    },
    {
      "epoch": 9.53211009174312,
      "grad_norm": 0.11485560238361359,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 9351
    },
    {
      "epoch": 9.533129459734964,
      "grad_norm": 0.12283139675855637,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 9352
    },
    {
      "epoch": 9.53414882772681,
      "grad_norm": 0.21940310299396515,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 9353
    },
    {
      "epoch": 9.535168195718654,
      "grad_norm": 0.08998598158359528,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 9354
    },
    {
      "epoch": 9.536187563710499,
      "grad_norm": 0.19521464407444,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 9355
    },
    {
      "epoch": 9.537206931702345,
      "grad_norm": 0.12048223614692688,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 9356
    },
    {
      "epoch": 9.53822629969419,
      "grad_norm": 0.08856846392154694,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 9357
    },
    {
      "epoch": 9.539245667686036,
      "grad_norm": 0.09522708505392075,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 9358
    },
    {
      "epoch": 9.54026503567788,
      "grad_norm": 0.07658250629901886,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 9359
    },
    {
      "epoch": 9.541284403669724,
      "grad_norm": 0.08931010216474533,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 9360
    },
    {
      "epoch": 9.54230377166157,
      "grad_norm": 0.1297353059053421,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 9361
    },
    {
      "epoch": 9.543323139653415,
      "grad_norm": 0.18124224245548248,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 9362
    },
    {
      "epoch": 9.54434250764526,
      "grad_norm": 0.18796619772911072,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 9363
    },
    {
      "epoch": 9.545361875637106,
      "grad_norm": 0.1458500176668167,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 9364
    },
    {
      "epoch": 9.54638124362895,
      "grad_norm": 0.2227029651403427,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 9365
    },
    {
      "epoch": 9.547400611620795,
      "grad_norm": 0.1440911740064621,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 9366
    },
    {
      "epoch": 9.54841997961264,
      "grad_norm": 0.08723805844783783,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 9367
    },
    {
      "epoch": 9.549439347604485,
      "grad_norm": 0.10677283257246017,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 9368
    },
    {
      "epoch": 9.55045871559633,
      "grad_norm": 0.10291635245084763,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 9369
    },
    {
      "epoch": 9.551478083588176,
      "grad_norm": 0.13895171880722046,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 9370
    },
    {
      "epoch": 9.55249745158002,
      "grad_norm": 0.12860442698001862,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9371
    },
    {
      "epoch": 9.553516819571865,
      "grad_norm": 0.1622840017080307,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 9372
    },
    {
      "epoch": 9.554536187563711,
      "grad_norm": 0.2640627324581146,
      "learning_rate": 0.001,
      "loss": 0.2169,
      "step": 9373
    },
    {
      "epoch": 9.555555555555555,
      "grad_norm": 0.08941799402236938,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 9374
    },
    {
      "epoch": 9.5565749235474,
      "grad_norm": 0.07723946124315262,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 9375
    },
    {
      "epoch": 9.557594291539246,
      "grad_norm": 0.16181649267673492,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 9376
    },
    {
      "epoch": 9.55861365953109,
      "grad_norm": 0.2346644252538681,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 9377
    },
    {
      "epoch": 9.559633027522935,
      "grad_norm": 0.11178350448608398,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9378
    },
    {
      "epoch": 9.560652395514781,
      "grad_norm": 0.1022559106349945,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 9379
    },
    {
      "epoch": 9.561671763506626,
      "grad_norm": 0.17423902451992035,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 9380
    },
    {
      "epoch": 9.562691131498472,
      "grad_norm": 0.1388886719942093,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 9381
    },
    {
      "epoch": 9.563710499490316,
      "grad_norm": 0.08866363018751144,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9382
    },
    {
      "epoch": 9.56472986748216,
      "grad_norm": 0.1315976232290268,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9383
    },
    {
      "epoch": 9.565749235474007,
      "grad_norm": 0.12144367396831512,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 9384
    },
    {
      "epoch": 9.566768603465851,
      "grad_norm": 0.06760555505752563,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9385
    },
    {
      "epoch": 9.567787971457696,
      "grad_norm": 0.11812128126621246,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 9386
    },
    {
      "epoch": 9.568807339449542,
      "grad_norm": 0.1335935890674591,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 9387
    },
    {
      "epoch": 9.569826707441386,
      "grad_norm": 0.18668927252292633,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9388
    },
    {
      "epoch": 9.57084607543323,
      "grad_norm": 0.05516250059008598,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 9389
    },
    {
      "epoch": 9.571865443425077,
      "grad_norm": 0.15006953477859497,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 9390
    },
    {
      "epoch": 9.572884811416921,
      "grad_norm": 0.08276500552892685,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 9391
    },
    {
      "epoch": 9.573904179408766,
      "grad_norm": 0.10684877634048462,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 9392
    },
    {
      "epoch": 9.574923547400612,
      "grad_norm": 0.11225765198469162,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 9393
    },
    {
      "epoch": 9.575942915392456,
      "grad_norm": 0.07680357247591019,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9394
    },
    {
      "epoch": 9.576962283384301,
      "grad_norm": 0.10366102308034897,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 9395
    },
    {
      "epoch": 9.577981651376147,
      "grad_norm": 0.16632689535617828,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 9396
    },
    {
      "epoch": 9.579001019367992,
      "grad_norm": 0.16529810428619385,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 9397
    },
    {
      "epoch": 9.580020387359838,
      "grad_norm": 0.16808131337165833,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 9398
    },
    {
      "epoch": 9.581039755351682,
      "grad_norm": 0.1302563101053238,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 9399
    },
    {
      "epoch": 9.582059123343527,
      "grad_norm": 0.15141934156417847,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 9400
    },
    {
      "epoch": 9.583078491335373,
      "grad_norm": 0.10292767733335495,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 9401
    },
    {
      "epoch": 9.584097859327217,
      "grad_norm": 0.05760127305984497,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 9402
    },
    {
      "epoch": 9.585117227319062,
      "grad_norm": 0.1379365622997284,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 9403
    },
    {
      "epoch": 9.586136595310908,
      "grad_norm": 0.08903439342975616,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 9404
    },
    {
      "epoch": 9.587155963302752,
      "grad_norm": 0.22648392617702484,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 9405
    },
    {
      "epoch": 9.588175331294597,
      "grad_norm": 0.0840073898434639,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 9406
    },
    {
      "epoch": 9.589194699286443,
      "grad_norm": 0.08248043060302734,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9407
    },
    {
      "epoch": 9.590214067278287,
      "grad_norm": 0.1460144966840744,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 9408
    },
    {
      "epoch": 9.591233435270132,
      "grad_norm": 0.10912219434976578,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9409
    },
    {
      "epoch": 9.592252803261978,
      "grad_norm": 0.1638675481081009,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 9410
    },
    {
      "epoch": 9.593272171253822,
      "grad_norm": 0.12011915445327759,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9411
    },
    {
      "epoch": 9.594291539245667,
      "grad_norm": 0.13598059117794037,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 9412
    },
    {
      "epoch": 9.595310907237513,
      "grad_norm": 0.0830608680844307,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 9413
    },
    {
      "epoch": 9.596330275229358,
      "grad_norm": 0.16981126368045807,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 9414
    },
    {
      "epoch": 9.597349643221204,
      "grad_norm": 0.07829175889492035,
      "learning_rate": 0.001,
      "loss": 0.1626,
      "step": 9415
    },
    {
      "epoch": 9.598369011213048,
      "grad_norm": 0.14562368392944336,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 9416
    },
    {
      "epoch": 9.599388379204893,
      "grad_norm": 0.3030892312526703,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 9417
    },
    {
      "epoch": 9.600407747196739,
      "grad_norm": 0.14100636541843414,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 9418
    },
    {
      "epoch": 9.601427115188583,
      "grad_norm": 0.13128848373889923,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 9419
    },
    {
      "epoch": 9.602446483180428,
      "grad_norm": 0.13702651858329773,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 9420
    },
    {
      "epoch": 9.603465851172274,
      "grad_norm": 0.10744157433509827,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 9421
    },
    {
      "epoch": 9.604485219164118,
      "grad_norm": 0.07790565490722656,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 9422
    },
    {
      "epoch": 9.605504587155963,
      "grad_norm": 0.09970055520534515,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 9423
    },
    {
      "epoch": 9.606523955147809,
      "grad_norm": 0.11254477500915527,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9424
    },
    {
      "epoch": 9.607543323139653,
      "grad_norm": 0.10139798372983932,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9425
    },
    {
      "epoch": 9.608562691131498,
      "grad_norm": 0.10226038098335266,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 9426
    },
    {
      "epoch": 9.609582059123344,
      "grad_norm": 0.11532268673181534,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 9427
    },
    {
      "epoch": 9.610601427115188,
      "grad_norm": 0.0885472223162651,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 9428
    },
    {
      "epoch": 9.611620795107033,
      "grad_norm": 0.11560904234647751,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 9429
    },
    {
      "epoch": 9.61264016309888,
      "grad_norm": 0.10995127260684967,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 9430
    },
    {
      "epoch": 9.613659531090724,
      "grad_norm": 0.08309181034564972,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9431
    },
    {
      "epoch": 9.614678899082568,
      "grad_norm": 0.10143832117319107,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9432
    },
    {
      "epoch": 9.615698267074414,
      "grad_norm": 0.061133719980716705,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9433
    },
    {
      "epoch": 9.616717635066259,
      "grad_norm": 0.1169624850153923,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9434
    },
    {
      "epoch": 9.617737003058103,
      "grad_norm": 0.07163135707378387,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 9435
    },
    {
      "epoch": 9.61875637104995,
      "grad_norm": 0.09748958051204681,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9436
    },
    {
      "epoch": 9.619775739041794,
      "grad_norm": 0.06970392167568207,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 9437
    },
    {
      "epoch": 9.62079510703364,
      "grad_norm": 0.10132497549057007,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 9438
    },
    {
      "epoch": 9.621814475025484,
      "grad_norm": 0.15660294890403748,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 9439
    },
    {
      "epoch": 9.622833843017329,
      "grad_norm": 0.28958481550216675,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 9440
    },
    {
      "epoch": 9.623853211009175,
      "grad_norm": 0.1185184046626091,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 9441
    },
    {
      "epoch": 9.62487257900102,
      "grad_norm": 0.10224203020334244,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 9442
    },
    {
      "epoch": 9.625891946992864,
      "grad_norm": 0.1892101913690567,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9443
    },
    {
      "epoch": 9.62691131498471,
      "grad_norm": 0.13384003937244415,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 9444
    },
    {
      "epoch": 9.627930682976555,
      "grad_norm": 0.09895654767751694,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 9445
    },
    {
      "epoch": 9.628950050968399,
      "grad_norm": 0.4316342771053314,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9446
    },
    {
      "epoch": 9.629969418960245,
      "grad_norm": 0.23479913175106049,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 9447
    },
    {
      "epoch": 9.63098878695209,
      "grad_norm": 0.12297448515892029,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9448
    },
    {
      "epoch": 9.632008154943934,
      "grad_norm": 0.1437380611896515,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9449
    },
    {
      "epoch": 9.63302752293578,
      "grad_norm": 0.12095440179109573,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 9450
    },
    {
      "epoch": 9.634046890927625,
      "grad_norm": 0.1258103996515274,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9451
    },
    {
      "epoch": 9.635066258919469,
      "grad_norm": 0.1257534921169281,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 9452
    },
    {
      "epoch": 9.636085626911315,
      "grad_norm": 0.08402524888515472,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 9453
    },
    {
      "epoch": 9.63710499490316,
      "grad_norm": 0.1017787754535675,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 9454
    },
    {
      "epoch": 9.638124362895006,
      "grad_norm": 0.11412802338600159,
      "learning_rate": 0.001,
      "loss": 0.1636,
      "step": 9455
    },
    {
      "epoch": 9.63914373088685,
      "grad_norm": 0.1731010228395462,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 9456
    },
    {
      "epoch": 9.640163098878695,
      "grad_norm": 0.23220860958099365,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 9457
    },
    {
      "epoch": 9.641182466870541,
      "grad_norm": 0.07444528490304947,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 9458
    },
    {
      "epoch": 9.642201834862385,
      "grad_norm": 0.10548066347837448,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 9459
    },
    {
      "epoch": 9.64322120285423,
      "grad_norm": 0.15986062586307526,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 9460
    },
    {
      "epoch": 9.644240570846076,
      "grad_norm": 0.09446001052856445,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9461
    },
    {
      "epoch": 9.64525993883792,
      "grad_norm": 0.07314789295196533,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 9462
    },
    {
      "epoch": 9.646279306829765,
      "grad_norm": 0.16038021445274353,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 9463
    },
    {
      "epoch": 9.647298674821611,
      "grad_norm": 0.16464737057685852,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 9464
    },
    {
      "epoch": 9.648318042813456,
      "grad_norm": 0.1722966879606247,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 9465
    },
    {
      "epoch": 9.6493374108053,
      "grad_norm": 0.17391550540924072,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9466
    },
    {
      "epoch": 9.650356778797146,
      "grad_norm": 0.08569416403770447,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 9467
    },
    {
      "epoch": 9.65137614678899,
      "grad_norm": 0.17885302007198334,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9468
    },
    {
      "epoch": 9.652395514780835,
      "grad_norm": 0.07281569391489029,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 9469
    },
    {
      "epoch": 9.653414882772681,
      "grad_norm": 0.24967557191848755,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 9470
    },
    {
      "epoch": 9.654434250764526,
      "grad_norm": 0.12891381978988647,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9471
    },
    {
      "epoch": 9.655453618756372,
      "grad_norm": 0.10174062103033066,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 9472
    },
    {
      "epoch": 9.656472986748216,
      "grad_norm": 0.09452254325151443,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 9473
    },
    {
      "epoch": 9.65749235474006,
      "grad_norm": 0.1499512642621994,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 9474
    },
    {
      "epoch": 9.658511722731905,
      "grad_norm": 0.11894963681697845,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 9475
    },
    {
      "epoch": 9.659531090723751,
      "grad_norm": 0.31288161873817444,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 9476
    },
    {
      "epoch": 9.660550458715596,
      "grad_norm": 0.08056777715682983,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 9477
    },
    {
      "epoch": 9.661569826707442,
      "grad_norm": 0.10996867716312408,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 9478
    },
    {
      "epoch": 9.662589194699287,
      "grad_norm": 0.14440007507801056,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 9479
    },
    {
      "epoch": 9.663608562691131,
      "grad_norm": 0.18209651112556458,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 9480
    },
    {
      "epoch": 9.664627930682977,
      "grad_norm": 0.05917753651738167,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9481
    },
    {
      "epoch": 9.665647298674822,
      "grad_norm": 0.10033903270959854,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9482
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.13043402135372162,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9483
    },
    {
      "epoch": 9.667686034658512,
      "grad_norm": 0.09515552222728729,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 9484
    },
    {
      "epoch": 9.668705402650357,
      "grad_norm": 0.10797058045864105,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 9485
    },
    {
      "epoch": 9.669724770642201,
      "grad_norm": 0.11529556661844254,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 9486
    },
    {
      "epoch": 9.670744138634047,
      "grad_norm": 0.1216544657945633,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 9487
    },
    {
      "epoch": 9.671763506625892,
      "grad_norm": 0.06916465610265732,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 9488
    },
    {
      "epoch": 9.672782874617736,
      "grad_norm": 0.08160009980201721,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 9489
    },
    {
      "epoch": 9.673802242609582,
      "grad_norm": 0.08775791525840759,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9490
    },
    {
      "epoch": 9.674821610601427,
      "grad_norm": 0.06359068304300308,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 9491
    },
    {
      "epoch": 9.675840978593271,
      "grad_norm": 0.19323578476905823,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 9492
    },
    {
      "epoch": 9.676860346585118,
      "grad_norm": 0.10784462839365005,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9493
    },
    {
      "epoch": 9.677879714576962,
      "grad_norm": 0.07310505211353302,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 9494
    },
    {
      "epoch": 9.678899082568808,
      "grad_norm": 0.08079992979764938,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9495
    },
    {
      "epoch": 9.679918450560653,
      "grad_norm": 0.09670344740152359,
      "learning_rate": 0.001,
      "loss": 0.1547,
      "step": 9496
    },
    {
      "epoch": 9.680937818552497,
      "grad_norm": 0.09961522370576859,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 9497
    },
    {
      "epoch": 9.681957186544343,
      "grad_norm": 0.12521418929100037,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 9498
    },
    {
      "epoch": 9.682976554536188,
      "grad_norm": 0.11641349643468857,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 9499
    },
    {
      "epoch": 9.683995922528032,
      "grad_norm": 0.15893349051475525,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 9500
    },
    {
      "epoch": 9.685015290519878,
      "grad_norm": 0.1443171501159668,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 9501
    },
    {
      "epoch": 9.686034658511723,
      "grad_norm": 0.17348556220531464,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 9502
    },
    {
      "epoch": 9.687054026503567,
      "grad_norm": 0.13066589832305908,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 9503
    },
    {
      "epoch": 9.688073394495413,
      "grad_norm": 0.17845310270786285,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 9504
    },
    {
      "epoch": 9.689092762487258,
      "grad_norm": 0.22605706751346588,
      "learning_rate": 0.001,
      "loss": 0.215,
      "step": 9505
    },
    {
      "epoch": 9.690112130479102,
      "grad_norm": 0.12663576006889343,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 9506
    },
    {
      "epoch": 9.691131498470948,
      "grad_norm": 0.0843835175037384,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 9507
    },
    {
      "epoch": 9.692150866462793,
      "grad_norm": 0.09270261228084564,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 9508
    },
    {
      "epoch": 9.693170234454637,
      "grad_norm": 0.10643448680639267,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 9509
    },
    {
      "epoch": 9.694189602446484,
      "grad_norm": 0.07497978955507278,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 9510
    },
    {
      "epoch": 9.695208970438328,
      "grad_norm": 0.06468036025762558,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9511
    },
    {
      "epoch": 9.696228338430174,
      "grad_norm": 0.12091271579265594,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 9512
    },
    {
      "epoch": 9.697247706422019,
      "grad_norm": 0.0831475481390953,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 9513
    },
    {
      "epoch": 9.698267074413863,
      "grad_norm": 0.1561286300420761,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9514
    },
    {
      "epoch": 9.69928644240571,
      "grad_norm": 0.09026524424552917,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 9515
    },
    {
      "epoch": 9.700305810397554,
      "grad_norm": 0.12902499735355377,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 9516
    },
    {
      "epoch": 9.701325178389398,
      "grad_norm": 0.1288158893585205,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 9517
    },
    {
      "epoch": 9.702344546381244,
      "grad_norm": 0.16007407009601593,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 9518
    },
    {
      "epoch": 9.703363914373089,
      "grad_norm": 0.11176183074712753,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 9519
    },
    {
      "epoch": 9.704383282364933,
      "grad_norm": 0.11715631932020187,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 9520
    },
    {
      "epoch": 9.70540265035678,
      "grad_norm": 0.16300645470619202,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 9521
    },
    {
      "epoch": 9.706422018348624,
      "grad_norm": 0.11195682734251022,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 9522
    },
    {
      "epoch": 9.707441386340468,
      "grad_norm": 0.037527985870838165,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9523
    },
    {
      "epoch": 9.708460754332314,
      "grad_norm": 0.07379847019910812,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 9524
    },
    {
      "epoch": 9.709480122324159,
      "grad_norm": 0.1940547078847885,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 9525
    },
    {
      "epoch": 9.710499490316003,
      "grad_norm": 0.09581781178712845,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 9526
    },
    {
      "epoch": 9.71151885830785,
      "grad_norm": 0.1021052673459053,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 9527
    },
    {
      "epoch": 9.712538226299694,
      "grad_norm": 0.08100968599319458,
      "learning_rate": 0.001,
      "loss": 0.1537,
      "step": 9528
    },
    {
      "epoch": 9.713557594291538,
      "grad_norm": 0.17505444586277008,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 9529
    },
    {
      "epoch": 9.714576962283385,
      "grad_norm": 0.10876670479774475,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9530
    },
    {
      "epoch": 9.715596330275229,
      "grad_norm": 0.08246857672929764,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 9531
    },
    {
      "epoch": 9.716615698267073,
      "grad_norm": 0.3282221853733063,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 9532
    },
    {
      "epoch": 9.71763506625892,
      "grad_norm": 0.13250425457954407,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 9533
    },
    {
      "epoch": 9.718654434250764,
      "grad_norm": 0.07889296859502792,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 9534
    },
    {
      "epoch": 9.71967380224261,
      "grad_norm": 0.09248523414134979,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 9535
    },
    {
      "epoch": 9.720693170234455,
      "grad_norm": 0.10265001654624939,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 9536
    },
    {
      "epoch": 9.7217125382263,
      "grad_norm": 0.12074180692434311,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 9537
    },
    {
      "epoch": 9.722731906218145,
      "grad_norm": 0.17325709760189056,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9538
    },
    {
      "epoch": 9.72375127420999,
      "grad_norm": 0.16673171520233154,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 9539
    },
    {
      "epoch": 9.724770642201834,
      "grad_norm": 0.11166844516992569,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 9540
    },
    {
      "epoch": 9.72579001019368,
      "grad_norm": 0.13637758791446686,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9541
    },
    {
      "epoch": 9.726809378185525,
      "grad_norm": 0.07558285444974899,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 9542
    },
    {
      "epoch": 9.72782874617737,
      "grad_norm": 0.11664794385433197,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9543
    },
    {
      "epoch": 9.728848114169216,
      "grad_norm": 0.08726174384355545,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 9544
    },
    {
      "epoch": 9.72986748216106,
      "grad_norm": 0.08225318789482117,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 9545
    },
    {
      "epoch": 9.730886850152904,
      "grad_norm": 0.09661731868982315,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 9546
    },
    {
      "epoch": 9.73190621814475,
      "grad_norm": 0.11272437125444412,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 9547
    },
    {
      "epoch": 9.732925586136595,
      "grad_norm": 0.11860766261816025,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9548
    },
    {
      "epoch": 9.73394495412844,
      "grad_norm": 0.05938221141695976,
      "learning_rate": 0.001,
      "loss": 0.1591,
      "step": 9549
    },
    {
      "epoch": 9.734964322120286,
      "grad_norm": 0.16473297774791718,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 9550
    },
    {
      "epoch": 9.73598369011213,
      "grad_norm": 0.08163125067949295,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 9551
    },
    {
      "epoch": 9.737003058103976,
      "grad_norm": 0.129271999001503,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 9552
    },
    {
      "epoch": 9.73802242609582,
      "grad_norm": 0.13019658625125885,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9553
    },
    {
      "epoch": 9.739041794087665,
      "grad_norm": 0.09262216091156006,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9554
    },
    {
      "epoch": 9.740061162079511,
      "grad_norm": 0.1486223191022873,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 9555
    },
    {
      "epoch": 9.741080530071356,
      "grad_norm": 0.10870528221130371,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 9556
    },
    {
      "epoch": 9.7420998980632,
      "grad_norm": 0.11184073984622955,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9557
    },
    {
      "epoch": 9.743119266055047,
      "grad_norm": 0.0816386416554451,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 9558
    },
    {
      "epoch": 9.744138634046891,
      "grad_norm": 0.18649496138095856,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 9559
    },
    {
      "epoch": 9.745158002038735,
      "grad_norm": 0.0999828577041626,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9560
    },
    {
      "epoch": 9.746177370030582,
      "grad_norm": 0.08289680629968643,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9561
    },
    {
      "epoch": 9.747196738022426,
      "grad_norm": 0.07685759663581848,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9562
    },
    {
      "epoch": 9.74821610601427,
      "grad_norm": 0.1232471913099289,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9563
    },
    {
      "epoch": 9.749235474006117,
      "grad_norm": 0.10484685003757477,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 9564
    },
    {
      "epoch": 9.750254841997961,
      "grad_norm": 0.08446820080280304,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9565
    },
    {
      "epoch": 9.751274209989806,
      "grad_norm": 0.11543777585029602,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 9566
    },
    {
      "epoch": 9.752293577981652,
      "grad_norm": 0.1527835726737976,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 9567
    },
    {
      "epoch": 9.753312945973496,
      "grad_norm": 0.08922041207551956,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 9568
    },
    {
      "epoch": 9.754332313965342,
      "grad_norm": 0.08499647676944733,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 9569
    },
    {
      "epoch": 9.755351681957187,
      "grad_norm": 0.15706881880760193,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9570
    },
    {
      "epoch": 9.756371049949031,
      "grad_norm": 0.15833187103271484,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 9571
    },
    {
      "epoch": 9.757390417940877,
      "grad_norm": 0.10960577428340912,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 9572
    },
    {
      "epoch": 9.758409785932722,
      "grad_norm": 0.1867915391921997,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 9573
    },
    {
      "epoch": 9.759429153924566,
      "grad_norm": 0.11299514025449753,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9574
    },
    {
      "epoch": 9.760448521916413,
      "grad_norm": 0.10099409520626068,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 9575
    },
    {
      "epoch": 9.761467889908257,
      "grad_norm": 0.15345707535743713,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 9576
    },
    {
      "epoch": 9.762487257900101,
      "grad_norm": 0.08527308702468872,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 9577
    },
    {
      "epoch": 9.763506625891948,
      "grad_norm": 0.16513997316360474,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 9578
    },
    {
      "epoch": 9.764525993883792,
      "grad_norm": 0.05840564891695976,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9579
    },
    {
      "epoch": 9.765545361875636,
      "grad_norm": 0.08713848888874054,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9580
    },
    {
      "epoch": 9.766564729867483,
      "grad_norm": 0.11550064384937286,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9581
    },
    {
      "epoch": 9.767584097859327,
      "grad_norm": 0.1465936154127121,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 9582
    },
    {
      "epoch": 9.768603465851172,
      "grad_norm": 0.06736486405134201,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9583
    },
    {
      "epoch": 9.769622833843018,
      "grad_norm": 0.10960330069065094,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 9584
    },
    {
      "epoch": 9.770642201834862,
      "grad_norm": 0.08282539248466492,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 9585
    },
    {
      "epoch": 9.771661569826707,
      "grad_norm": 0.13685789704322815,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 9586
    },
    {
      "epoch": 9.772680937818553,
      "grad_norm": 0.18244031071662903,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 9587
    },
    {
      "epoch": 9.773700305810397,
      "grad_norm": 0.14918668568134308,
      "learning_rate": 0.001,
      "loss": 0.2164,
      "step": 9588
    },
    {
      "epoch": 9.774719673802242,
      "grad_norm": 0.11866864562034607,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 9589
    },
    {
      "epoch": 9.775739041794088,
      "grad_norm": 0.09545191377401352,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9590
    },
    {
      "epoch": 9.776758409785932,
      "grad_norm": 0.09728778898715973,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9591
    },
    {
      "epoch": 9.777777777777779,
      "grad_norm": 0.05480688437819481,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 9592
    },
    {
      "epoch": 9.778797145769623,
      "grad_norm": 0.10123386234045029,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 9593
    },
    {
      "epoch": 9.779816513761467,
      "grad_norm": 0.10818873345851898,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 9594
    },
    {
      "epoch": 9.780835881753314,
      "grad_norm": 0.10385723412036896,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 9595
    },
    {
      "epoch": 9.781855249745158,
      "grad_norm": 0.10312869399785995,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 9596
    },
    {
      "epoch": 9.782874617737003,
      "grad_norm": 0.21474561095237732,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 9597
    },
    {
      "epoch": 9.783893985728849,
      "grad_norm": 0.10097169876098633,
      "learning_rate": 0.001,
      "loss": 0.1614,
      "step": 9598
    },
    {
      "epoch": 9.784913353720693,
      "grad_norm": 0.09673197567462921,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 9599
    },
    {
      "epoch": 9.785932721712538,
      "grad_norm": 0.09110280871391296,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9600
    },
    {
      "epoch": 9.786952089704384,
      "grad_norm": 0.1389293223619461,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 9601
    },
    {
      "epoch": 9.787971457696228,
      "grad_norm": 0.11609421670436859,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 9602
    },
    {
      "epoch": 9.788990825688073,
      "grad_norm": 0.09437431395053864,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 9603
    },
    {
      "epoch": 9.790010193679919,
      "grad_norm": 0.05978747829794884,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9604
    },
    {
      "epoch": 9.791029561671763,
      "grad_norm": 0.182257741689682,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 9605
    },
    {
      "epoch": 9.792048929663608,
      "grad_norm": 0.09025837481021881,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9606
    },
    {
      "epoch": 9.793068297655454,
      "grad_norm": 0.07461970299482346,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 9607
    },
    {
      "epoch": 9.794087665647298,
      "grad_norm": 0.1657560020685196,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 9608
    },
    {
      "epoch": 9.795107033639145,
      "grad_norm": 0.08202289044857025,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 9609
    },
    {
      "epoch": 9.796126401630989,
      "grad_norm": 0.15554186701774597,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 9610
    },
    {
      "epoch": 9.797145769622833,
      "grad_norm": 0.18561725318431854,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 9611
    },
    {
      "epoch": 9.79816513761468,
      "grad_norm": 0.07728231698274612,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9612
    },
    {
      "epoch": 9.799184505606524,
      "grad_norm": 0.055215075612068176,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 9613
    },
    {
      "epoch": 9.800203873598369,
      "grad_norm": 0.10836268216371536,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 9614
    },
    {
      "epoch": 9.801223241590215,
      "grad_norm": 0.07567403465509415,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 9615
    },
    {
      "epoch": 9.80224260958206,
      "grad_norm": 0.12186112999916077,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 9616
    },
    {
      "epoch": 9.803261977573904,
      "grad_norm": 0.11862517893314362,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9617
    },
    {
      "epoch": 9.80428134556575,
      "grad_norm": 0.12124667316675186,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 9618
    },
    {
      "epoch": 9.805300713557594,
      "grad_norm": 0.09903708100318909,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 9619
    },
    {
      "epoch": 9.806320081549439,
      "grad_norm": 0.07064181566238403,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 9620
    },
    {
      "epoch": 9.807339449541285,
      "grad_norm": 0.174966499209404,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 9621
    },
    {
      "epoch": 9.80835881753313,
      "grad_norm": 0.25437402725219727,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9622
    },
    {
      "epoch": 9.809378185524974,
      "grad_norm": 0.13047362864017487,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 9623
    },
    {
      "epoch": 9.81039755351682,
      "grad_norm": 0.15493722259998322,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9624
    },
    {
      "epoch": 9.811416921508664,
      "grad_norm": 0.07127583026885986,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 9625
    },
    {
      "epoch": 9.81243628950051,
      "grad_norm": 0.10290586203336716,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 9626
    },
    {
      "epoch": 9.813455657492355,
      "grad_norm": 0.10724885016679764,
      "learning_rate": 0.001,
      "loss": 0.2043,
      "step": 9627
    },
    {
      "epoch": 9.8144750254842,
      "grad_norm": 0.0806652382016182,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 9628
    },
    {
      "epoch": 9.815494393476044,
      "grad_norm": 0.11387469619512558,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 9629
    },
    {
      "epoch": 9.81651376146789,
      "grad_norm": 0.14856505393981934,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9630
    },
    {
      "epoch": 9.817533129459735,
      "grad_norm": 0.156922847032547,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 9631
    },
    {
      "epoch": 9.81855249745158,
      "grad_norm": 0.1403985321521759,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 9632
    },
    {
      "epoch": 9.819571865443425,
      "grad_norm": 0.07628336548805237,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 9633
    },
    {
      "epoch": 9.82059123343527,
      "grad_norm": 0.09031757712364197,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 9634
    },
    {
      "epoch": 9.821610601427116,
      "grad_norm": 0.12478085607290268,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 9635
    },
    {
      "epoch": 9.82262996941896,
      "grad_norm": 0.0766386017203331,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 9636
    },
    {
      "epoch": 9.823649337410805,
      "grad_norm": 0.141275092959404,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 9637
    },
    {
      "epoch": 9.824668705402651,
      "grad_norm": 0.10217464715242386,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 9638
    },
    {
      "epoch": 9.825688073394495,
      "grad_norm": 0.11141341179609299,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 9639
    },
    {
      "epoch": 9.82670744138634,
      "grad_norm": 0.11692709475755692,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 9640
    },
    {
      "epoch": 9.827726809378186,
      "grad_norm": 0.1312941461801529,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 9641
    },
    {
      "epoch": 9.82874617737003,
      "grad_norm": 0.056774500757455826,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9642
    },
    {
      "epoch": 9.829765545361875,
      "grad_norm": 0.08275112509727478,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 9643
    },
    {
      "epoch": 9.830784913353721,
      "grad_norm": 0.07855812460184097,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 9644
    },
    {
      "epoch": 9.831804281345565,
      "grad_norm": 0.06802070140838623,
      "learning_rate": 0.001,
      "loss": 0.1477,
      "step": 9645
    },
    {
      "epoch": 9.83282364933741,
      "grad_norm": 0.08418704569339752,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9646
    },
    {
      "epoch": 9.833843017329256,
      "grad_norm": 0.07494684308767319,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 9647
    },
    {
      "epoch": 9.8348623853211,
      "grad_norm": 0.07818766683340073,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 9648
    },
    {
      "epoch": 9.835881753312947,
      "grad_norm": 0.07214896380901337,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 9649
    },
    {
      "epoch": 9.836901121304791,
      "grad_norm": 0.12890510261058807,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9650
    },
    {
      "epoch": 9.837920489296636,
      "grad_norm": 0.0865086168050766,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 9651
    },
    {
      "epoch": 9.838939857288482,
      "grad_norm": 0.06704894453287125,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 9652
    },
    {
      "epoch": 9.839959225280326,
      "grad_norm": 0.07452122122049332,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 9653
    },
    {
      "epoch": 9.84097859327217,
      "grad_norm": 0.0840189978480339,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 9654
    },
    {
      "epoch": 9.841997961264017,
      "grad_norm": 0.07957261055707932,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 9655
    },
    {
      "epoch": 9.843017329255861,
      "grad_norm": 0.06684768944978714,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9656
    },
    {
      "epoch": 9.844036697247706,
      "grad_norm": 0.087345652282238,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9657
    },
    {
      "epoch": 9.845056065239552,
      "grad_norm": 0.1231752410531044,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 9658
    },
    {
      "epoch": 9.846075433231396,
      "grad_norm": 0.10296366363763809,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 9659
    },
    {
      "epoch": 9.84709480122324,
      "grad_norm": 0.0922759398818016,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 9660
    },
    {
      "epoch": 9.848114169215087,
      "grad_norm": 0.07337109744548798,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 9661
    },
    {
      "epoch": 9.849133537206932,
      "grad_norm": 0.0764324888586998,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 9662
    },
    {
      "epoch": 9.850152905198776,
      "grad_norm": 0.10195521265268326,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9663
    },
    {
      "epoch": 9.851172273190622,
      "grad_norm": 0.12608419358730316,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9664
    },
    {
      "epoch": 9.852191641182467,
      "grad_norm": 0.10964161157608032,
      "learning_rate": 0.001,
      "loss": 0.2173,
      "step": 9665
    },
    {
      "epoch": 9.853211009174313,
      "grad_norm": 0.13734129071235657,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 9666
    },
    {
      "epoch": 9.854230377166157,
      "grad_norm": 0.13663023710250854,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 9667
    },
    {
      "epoch": 9.855249745158002,
      "grad_norm": 0.15441441535949707,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 9668
    },
    {
      "epoch": 9.856269113149848,
      "grad_norm": 0.1118519976735115,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 9669
    },
    {
      "epoch": 9.857288481141692,
      "grad_norm": 0.18267972767353058,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 9670
    },
    {
      "epoch": 9.858307849133537,
      "grad_norm": 0.1454782336950302,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 9671
    },
    {
      "epoch": 9.859327217125383,
      "grad_norm": 0.07655695080757141,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 9672
    },
    {
      "epoch": 9.860346585117227,
      "grad_norm": 0.07678843289613724,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 9673
    },
    {
      "epoch": 9.861365953109072,
      "grad_norm": 0.0747767984867096,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 9674
    },
    {
      "epoch": 9.862385321100918,
      "grad_norm": 0.13264906406402588,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 9675
    },
    {
      "epoch": 9.863404689092762,
      "grad_norm": 0.10129364579916,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 9676
    },
    {
      "epoch": 9.864424057084607,
      "grad_norm": 0.10703852027654648,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 9677
    },
    {
      "epoch": 9.865443425076453,
      "grad_norm": 0.06759455800056458,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 9678
    },
    {
      "epoch": 9.866462793068298,
      "grad_norm": 0.05193355306982994,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 9679
    },
    {
      "epoch": 9.867482161060142,
      "grad_norm": 0.07022551447153091,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 9680
    },
    {
      "epoch": 9.868501529051988,
      "grad_norm": 0.07446272671222687,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 9681
    },
    {
      "epoch": 9.869520897043833,
      "grad_norm": 0.09434451907873154,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9682
    },
    {
      "epoch": 9.870540265035677,
      "grad_norm": 0.05464114993810654,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9683
    },
    {
      "epoch": 9.871559633027523,
      "grad_norm": 0.0816221684217453,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 9684
    },
    {
      "epoch": 9.872579001019368,
      "grad_norm": 0.10596370697021484,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9685
    },
    {
      "epoch": 9.873598369011212,
      "grad_norm": 0.058424923568964005,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 9686
    },
    {
      "epoch": 9.874617737003058,
      "grad_norm": 0.06947778910398483,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 9687
    },
    {
      "epoch": 9.875637104994903,
      "grad_norm": 0.14604783058166504,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 9688
    },
    {
      "epoch": 9.876656472986749,
      "grad_norm": 0.10180231928825378,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9689
    },
    {
      "epoch": 9.877675840978593,
      "grad_norm": 0.1823725402355194,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 9690
    },
    {
      "epoch": 9.878695208970438,
      "grad_norm": 0.07636028528213501,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9691
    },
    {
      "epoch": 9.879714576962284,
      "grad_norm": 0.13900123536586761,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9692
    },
    {
      "epoch": 9.880733944954128,
      "grad_norm": 0.13042835891246796,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 9693
    },
    {
      "epoch": 9.881753312945973,
      "grad_norm": 0.07068290561437607,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 9694
    },
    {
      "epoch": 9.88277268093782,
      "grad_norm": 0.13678187131881714,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 9695
    },
    {
      "epoch": 9.883792048929664,
      "grad_norm": 0.08279190957546234,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9696
    },
    {
      "epoch": 9.884811416921508,
      "grad_norm": 0.11830789595842361,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 9697
    },
    {
      "epoch": 9.885830784913354,
      "grad_norm": 0.11793653666973114,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 9698
    },
    {
      "epoch": 9.886850152905199,
      "grad_norm": 0.10243452340364456,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 9699
    },
    {
      "epoch": 9.887869520897043,
      "grad_norm": 0.11075147241353989,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 9700
    },
    {
      "epoch": 9.88888888888889,
      "grad_norm": 0.1132238507270813,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 9701
    },
    {
      "epoch": 9.889908256880734,
      "grad_norm": 0.11414558440446854,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9702
    },
    {
      "epoch": 9.890927624872578,
      "grad_norm": 0.08525609970092773,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9703
    },
    {
      "epoch": 9.891946992864424,
      "grad_norm": 0.23311494290828705,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 9704
    },
    {
      "epoch": 9.892966360856269,
      "grad_norm": 0.0982423648238182,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 9705
    },
    {
      "epoch": 9.893985728848115,
      "grad_norm": 0.13036403059959412,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 9706
    },
    {
      "epoch": 9.89500509683996,
      "grad_norm": 0.0735221803188324,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 9707
    },
    {
      "epoch": 9.896024464831804,
      "grad_norm": 0.14016133546829224,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 9708
    },
    {
      "epoch": 9.89704383282365,
      "grad_norm": 0.06145566329360008,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 9709
    },
    {
      "epoch": 9.898063200815495,
      "grad_norm": 0.14600923657417297,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 9710
    },
    {
      "epoch": 9.899082568807339,
      "grad_norm": 0.08191368728876114,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 9711
    },
    {
      "epoch": 9.900101936799185,
      "grad_norm": 0.1039719209074974,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 9712
    },
    {
      "epoch": 9.90112130479103,
      "grad_norm": 0.09876759350299835,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 9713
    },
    {
      "epoch": 9.902140672782874,
      "grad_norm": 0.0997231975197792,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 9714
    },
    {
      "epoch": 9.90316004077472,
      "grad_norm": 0.08217011392116547,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 9715
    },
    {
      "epoch": 9.904179408766565,
      "grad_norm": 0.07315845042467117,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 9716
    },
    {
      "epoch": 9.905198776758409,
      "grad_norm": 0.12916313111782074,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9717
    },
    {
      "epoch": 9.906218144750255,
      "grad_norm": 0.08190987259149551,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9718
    },
    {
      "epoch": 9.9072375127421,
      "grad_norm": 0.11154549568891525,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9719
    },
    {
      "epoch": 9.908256880733944,
      "grad_norm": 0.10804567486047745,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 9720
    },
    {
      "epoch": 9.90927624872579,
      "grad_norm": 0.08706627786159515,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9721
    },
    {
      "epoch": 9.910295616717635,
      "grad_norm": 0.1212986633181572,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 9722
    },
    {
      "epoch": 9.911314984709481,
      "grad_norm": 0.11764521896839142,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9723
    },
    {
      "epoch": 9.912334352701325,
      "grad_norm": 0.06878380477428436,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9724
    },
    {
      "epoch": 9.91335372069317,
      "grad_norm": 0.18363992869853973,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9725
    },
    {
      "epoch": 9.914373088685016,
      "grad_norm": 0.06360084563493729,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 9726
    },
    {
      "epoch": 9.91539245667686,
      "grad_norm": 0.10516471415758133,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 9727
    },
    {
      "epoch": 9.916411824668705,
      "grad_norm": 0.12106290459632874,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 9728
    },
    {
      "epoch": 9.917431192660551,
      "grad_norm": 0.10696376115083694,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 9729
    },
    {
      "epoch": 9.918450560652396,
      "grad_norm": 0.07469919323921204,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 9730
    },
    {
      "epoch": 9.91946992864424,
      "grad_norm": 0.14196771383285522,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 9731
    },
    {
      "epoch": 9.920489296636086,
      "grad_norm": 0.1800515353679657,
      "learning_rate": 0.001,
      "loss": 0.2158,
      "step": 9732
    },
    {
      "epoch": 9.92150866462793,
      "grad_norm": 0.10571904480457306,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 9733
    },
    {
      "epoch": 9.922528032619775,
      "grad_norm": 0.15613538026809692,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 9734
    },
    {
      "epoch": 9.923547400611621,
      "grad_norm": 0.1535215824842453,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 9735
    },
    {
      "epoch": 9.924566768603466,
      "grad_norm": 0.17948395013809204,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 9736
    },
    {
      "epoch": 9.92558613659531,
      "grad_norm": 0.2048131376504898,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 9737
    },
    {
      "epoch": 9.926605504587156,
      "grad_norm": 0.13632318377494812,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 9738
    },
    {
      "epoch": 9.927624872579,
      "grad_norm": 0.20129385590553284,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 9739
    },
    {
      "epoch": 9.928644240570845,
      "grad_norm": 0.19704516232013702,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 9740
    },
    {
      "epoch": 9.929663608562691,
      "grad_norm": 0.11862068623304367,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9741
    },
    {
      "epoch": 9.930682976554536,
      "grad_norm": 0.11654944717884064,
      "learning_rate": 0.001,
      "loss": 0.2104,
      "step": 9742
    },
    {
      "epoch": 9.93170234454638,
      "grad_norm": 0.23620595037937164,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 9743
    },
    {
      "epoch": 9.932721712538227,
      "grad_norm": 0.09768529236316681,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 9744
    },
    {
      "epoch": 9.933741080530071,
      "grad_norm": 0.1355317085981369,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 9745
    },
    {
      "epoch": 9.934760448521917,
      "grad_norm": 0.08624472469091415,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9746
    },
    {
      "epoch": 9.935779816513762,
      "grad_norm": 0.10662586241960526,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 9747
    },
    {
      "epoch": 9.936799184505606,
      "grad_norm": 0.16258291900157928,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 9748
    },
    {
      "epoch": 9.937818552497452,
      "grad_norm": 0.08216318488121033,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 9749
    },
    {
      "epoch": 9.938837920489297,
      "grad_norm": 0.139165461063385,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 9750
    },
    {
      "epoch": 9.939857288481141,
      "grad_norm": 0.06193477287888527,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9751
    },
    {
      "epoch": 9.940876656472987,
      "grad_norm": 0.13357652723789215,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 9752
    },
    {
      "epoch": 9.941896024464832,
      "grad_norm": 0.10322298109531403,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9753
    },
    {
      "epoch": 9.942915392456676,
      "grad_norm": 0.07850479334592819,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 9754
    },
    {
      "epoch": 9.943934760448522,
      "grad_norm": 0.10839533805847168,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 9755
    },
    {
      "epoch": 9.944954128440367,
      "grad_norm": 0.10078822821378708,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9756
    },
    {
      "epoch": 9.945973496432211,
      "grad_norm": 0.09595294296741486,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9757
    },
    {
      "epoch": 9.946992864424058,
      "grad_norm": 0.1528860330581665,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 9758
    },
    {
      "epoch": 9.948012232415902,
      "grad_norm": 0.131222203373909,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 9759
    },
    {
      "epoch": 9.949031600407746,
      "grad_norm": 0.15109211206436157,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9760
    },
    {
      "epoch": 9.950050968399593,
      "grad_norm": 0.0930112972855568,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 9761
    },
    {
      "epoch": 9.951070336391437,
      "grad_norm": 0.06992502510547638,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 9762
    },
    {
      "epoch": 9.952089704383283,
      "grad_norm": 0.07963241636753082,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9763
    },
    {
      "epoch": 9.953109072375128,
      "grad_norm": 0.07312491536140442,
      "learning_rate": 0.001,
      "loss": 0.1614,
      "step": 9764
    },
    {
      "epoch": 9.954128440366972,
      "grad_norm": 0.07355067878961563,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9765
    },
    {
      "epoch": 9.955147808358818,
      "grad_norm": 0.06818930804729462,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 9766
    },
    {
      "epoch": 9.956167176350663,
      "grad_norm": 0.09199149161577225,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 9767
    },
    {
      "epoch": 9.957186544342507,
      "grad_norm": 0.11406395584344864,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 9768
    },
    {
      "epoch": 9.958205912334353,
      "grad_norm": 0.12209353595972061,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9769
    },
    {
      "epoch": 9.959225280326198,
      "grad_norm": 0.09949544072151184,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 9770
    },
    {
      "epoch": 9.960244648318042,
      "grad_norm": 0.1262662559747696,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 9771
    },
    {
      "epoch": 9.961264016309888,
      "grad_norm": 0.17126522958278656,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 9772
    },
    {
      "epoch": 9.962283384301733,
      "grad_norm": 0.11895231902599335,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 9773
    },
    {
      "epoch": 9.963302752293577,
      "grad_norm": 0.09231952577829361,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 9774
    },
    {
      "epoch": 9.964322120285424,
      "grad_norm": 0.1603526622056961,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 9775
    },
    {
      "epoch": 9.965341488277268,
      "grad_norm": 0.14362363517284393,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 9776
    },
    {
      "epoch": 9.966360856269112,
      "grad_norm": 0.12654101848602295,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 9777
    },
    {
      "epoch": 9.967380224260959,
      "grad_norm": 0.07684780657291412,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 9778
    },
    {
      "epoch": 9.968399592252803,
      "grad_norm": 0.06993123888969421,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 9779
    },
    {
      "epoch": 9.96941896024465,
      "grad_norm": 0.11715345829725266,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 9780
    },
    {
      "epoch": 9.970438328236494,
      "grad_norm": 0.09764348715543747,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 9781
    },
    {
      "epoch": 9.971457696228338,
      "grad_norm": 0.10490167886018753,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9782
    },
    {
      "epoch": 9.972477064220184,
      "grad_norm": 0.09214366227388382,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9783
    },
    {
      "epoch": 9.973496432212029,
      "grad_norm": 0.10910090804100037,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9784
    },
    {
      "epoch": 9.974515800203873,
      "grad_norm": 0.16544502973556519,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 9785
    },
    {
      "epoch": 9.97553516819572,
      "grad_norm": 0.10770680755376816,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 9786
    },
    {
      "epoch": 9.976554536187564,
      "grad_norm": 0.10991859436035156,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 9787
    },
    {
      "epoch": 9.977573904179408,
      "grad_norm": 0.1744595319032669,
      "learning_rate": 0.001,
      "loss": 0.2163,
      "step": 9788
    },
    {
      "epoch": 9.978593272171254,
      "grad_norm": 0.09269103407859802,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 9789
    },
    {
      "epoch": 9.979612640163099,
      "grad_norm": 0.10317492485046387,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 9790
    },
    {
      "epoch": 9.980632008154943,
      "grad_norm": 0.09495340287685394,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 9791
    },
    {
      "epoch": 9.98165137614679,
      "grad_norm": 0.12205100804567337,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 9792
    },
    {
      "epoch": 9.982670744138634,
      "grad_norm": 0.044311296194791794,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 9793
    },
    {
      "epoch": 9.983690112130478,
      "grad_norm": 0.14244264364242554,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 9794
    },
    {
      "epoch": 9.984709480122325,
      "grad_norm": 0.1012321263551712,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9795
    },
    {
      "epoch": 9.985728848114169,
      "grad_norm": 0.08447009325027466,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 9796
    },
    {
      "epoch": 9.986748216106013,
      "grad_norm": 0.10852428525686264,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 9797
    },
    {
      "epoch": 9.98776758409786,
      "grad_norm": 0.10822353512048721,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9798
    },
    {
      "epoch": 9.988786952089704,
      "grad_norm": 0.06901544332504272,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 9799
    },
    {
      "epoch": 9.989806320081549,
      "grad_norm": 0.08705898374319077,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 9800
    },
    {
      "epoch": 9.990825688073395,
      "grad_norm": 0.11605744808912277,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 9801
    },
    {
      "epoch": 9.99184505606524,
      "grad_norm": 0.12103258073329926,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 9802
    },
    {
      "epoch": 9.992864424057085,
      "grad_norm": 0.11210107803344727,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 9803
    },
    {
      "epoch": 9.99388379204893,
      "grad_norm": 0.12080947309732437,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 9804
    },
    {
      "epoch": 9.994903160040774,
      "grad_norm": 0.08851228654384613,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 9805
    },
    {
      "epoch": 9.99592252803262,
      "grad_norm": 0.13677622377872467,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 9806
    },
    {
      "epoch": 9.996941896024465,
      "grad_norm": 0.1310146301984787,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 9807
    },
    {
      "epoch": 9.99796126401631,
      "grad_norm": 0.1082904040813446,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 9808
    },
    {
      "epoch": 9.998980632008156,
      "grad_norm": 0.08047102391719818,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9809
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.10915803164243698,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 9810
    },
    {
      "epoch": 10.0,
      "eval_-_f1-score": 0.25806451612903225,
      "eval_-_precision": 0.4444444444444444,
      "eval_-_recall": 0.18181818181818182,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9622602598473912,
      "eval_<_precision": 0.9654458928201946,
      "eval_<_recall": 0.9590955806783145,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8340425531914893,
      "eval_=_precision": 0.8828828828828829,
      "eval_=_recall": 0.7903225806451613,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9633710845832058,
      "eval_>_precision": 0.9564424635332253,
      "eval_>_recall": 0.9704008221993834,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9587,
      "eval_loss": 0.10771015286445618,
      "eval_macro_avg_f1-score": 0.7544346034377796,
      "eval_macro_avg_precision": 0.8123039209201868,
      "eval_macro_avg_recall": 0.7254092913352601,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 13.0011,
      "eval_samples_per_second": 769.165,
      "eval_steps_per_second": 3.077,
      "eval_weighted_avg_f1-score": 0.9580716463201181,
      "eval_weighted_avg_precision": 0.957871958639212,
      "eval_weighted_avg_recall": 0.9587,
      "eval_weighted_avg_support": 10000.0,
      "step": 9810
    },
    {
      "epoch": 10.001019367991844,
      "grad_norm": 0.07873997092247009,
      "learning_rate": 0.001,
      "loss": 0.1625,
      "step": 9811
    },
    {
      "epoch": 10.00203873598369,
      "grad_norm": 0.10214953869581223,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 9812
    },
    {
      "epoch": 10.003058103975535,
      "grad_norm": 0.07478263974189758,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 9813
    },
    {
      "epoch": 10.00407747196738,
      "grad_norm": 0.05657903477549553,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 9814
    },
    {
      "epoch": 10.005096839959226,
      "grad_norm": 0.11248724162578583,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 9815
    },
    {
      "epoch": 10.00611620795107,
      "grad_norm": 0.046330343931913376,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 9816
    },
    {
      "epoch": 10.007135575942915,
      "grad_norm": 0.06600341200828552,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 9817
    },
    {
      "epoch": 10.00815494393476,
      "grad_norm": 0.06436499208211899,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9818
    },
    {
      "epoch": 10.009174311926605,
      "grad_norm": 0.07888606190681458,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 9819
    },
    {
      "epoch": 10.010193679918451,
      "grad_norm": 0.1752285659313202,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 9820
    },
    {
      "epoch": 10.011213047910296,
      "grad_norm": 0.11125322431325912,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9821
    },
    {
      "epoch": 10.01223241590214,
      "grad_norm": 0.0793604701757431,
      "learning_rate": 0.001,
      "loss": 0.1641,
      "step": 9822
    },
    {
      "epoch": 10.013251783893987,
      "grad_norm": 0.053201090544462204,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 9823
    },
    {
      "epoch": 10.014271151885831,
      "grad_norm": 0.056147366762161255,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 9824
    },
    {
      "epoch": 10.015290519877675,
      "grad_norm": 0.12340458482503891,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 9825
    },
    {
      "epoch": 10.016309887869522,
      "grad_norm": 0.0605207197368145,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 9826
    },
    {
      "epoch": 10.017329255861366,
      "grad_norm": 0.06747013330459595,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 9827
    },
    {
      "epoch": 10.01834862385321,
      "grad_norm": 0.0625339150428772,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 9828
    },
    {
      "epoch": 10.019367991845057,
      "grad_norm": 0.09190402925014496,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 9829
    },
    {
      "epoch": 10.020387359836901,
      "grad_norm": 0.09230879694223404,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 9830
    },
    {
      "epoch": 10.021406727828746,
      "grad_norm": 0.0691031962633133,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 9831
    },
    {
      "epoch": 10.022426095820592,
      "grad_norm": 0.04514186084270477,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 9832
    },
    {
      "epoch": 10.023445463812436,
      "grad_norm": 0.07231014221906662,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 9833
    },
    {
      "epoch": 10.02446483180428,
      "grad_norm": 0.1598845273256302,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 9834
    },
    {
      "epoch": 10.025484199796127,
      "grad_norm": 0.05383896455168724,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 9835
    },
    {
      "epoch": 10.026503567787971,
      "grad_norm": 0.11033561825752258,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 9836
    },
    {
      "epoch": 10.027522935779816,
      "grad_norm": 0.14441338181495667,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 9837
    },
    {
      "epoch": 10.028542303771662,
      "grad_norm": 0.048127349466085434,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 9838
    },
    {
      "epoch": 10.029561671763506,
      "grad_norm": 0.08431877940893173,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9839
    },
    {
      "epoch": 10.030581039755353,
      "grad_norm": 0.08222723752260208,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 9840
    },
    {
      "epoch": 10.031600407747197,
      "grad_norm": 0.11783239245414734,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 9841
    },
    {
      "epoch": 10.032619775739041,
      "grad_norm": 0.10985912382602692,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 9842
    },
    {
      "epoch": 10.033639143730888,
      "grad_norm": 0.18493805825710297,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 9843
    },
    {
      "epoch": 10.034658511722732,
      "grad_norm": 0.0377713106572628,
      "learning_rate": 0.001,
      "loss": 0.1542,
      "step": 9844
    },
    {
      "epoch": 10.035677879714576,
      "grad_norm": 0.12738476693630219,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 9845
    },
    {
      "epoch": 10.036697247706423,
      "grad_norm": 0.10647588968276978,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9846
    },
    {
      "epoch": 10.037716615698267,
      "grad_norm": 0.14121967554092407,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9847
    },
    {
      "epoch": 10.038735983690112,
      "grad_norm": 0.1215573325753212,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 9848
    },
    {
      "epoch": 10.039755351681958,
      "grad_norm": 0.08309347927570343,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 9849
    },
    {
      "epoch": 10.040774719673802,
      "grad_norm": 0.09563286602497101,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 9850
    },
    {
      "epoch": 10.041794087665647,
      "grad_norm": 0.07450466603040695,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9851
    },
    {
      "epoch": 10.042813455657493,
      "grad_norm": 0.12017741799354553,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 9852
    },
    {
      "epoch": 10.043832823649337,
      "grad_norm": 0.1238233894109726,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 9853
    },
    {
      "epoch": 10.044852191641182,
      "grad_norm": 0.10203245282173157,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 9854
    },
    {
      "epoch": 10.045871559633028,
      "grad_norm": 0.10887806862592697,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 9855
    },
    {
      "epoch": 10.046890927624872,
      "grad_norm": 0.10716834664344788,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 9856
    },
    {
      "epoch": 10.047910295616717,
      "grad_norm": 0.07628950476646423,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 9857
    },
    {
      "epoch": 10.048929663608563,
      "grad_norm": 0.14282268285751343,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9858
    },
    {
      "epoch": 10.049949031600407,
      "grad_norm": 0.19036872684955597,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 9859
    },
    {
      "epoch": 10.050968399592254,
      "grad_norm": 0.08173785358667374,
      "learning_rate": 0.001,
      "loss": 0.1641,
      "step": 9860
    },
    {
      "epoch": 10.051987767584098,
      "grad_norm": 0.12291301786899567,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 9861
    },
    {
      "epoch": 10.053007135575942,
      "grad_norm": 0.10643790662288666,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 9862
    },
    {
      "epoch": 10.054026503567789,
      "grad_norm": 0.09003616869449615,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 9863
    },
    {
      "epoch": 10.055045871559633,
      "grad_norm": 0.0927765816450119,
      "learning_rate": 0.001,
      "loss": 0.2051,
      "step": 9864
    },
    {
      "epoch": 10.056065239551478,
      "grad_norm": 0.09898016601800919,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 9865
    },
    {
      "epoch": 10.057084607543324,
      "grad_norm": 0.06853777170181274,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 9866
    },
    {
      "epoch": 10.058103975535168,
      "grad_norm": 0.2086627185344696,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 9867
    },
    {
      "epoch": 10.059123343527013,
      "grad_norm": 0.07695730030536652,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 9868
    },
    {
      "epoch": 10.060142711518859,
      "grad_norm": 0.067331962287426,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 9869
    },
    {
      "epoch": 10.061162079510703,
      "grad_norm": 0.0637960284948349,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 9870
    },
    {
      "epoch": 10.062181447502548,
      "grad_norm": 0.04189048334956169,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9871
    },
    {
      "epoch": 10.063200815494394,
      "grad_norm": 0.07671245187520981,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 9872
    },
    {
      "epoch": 10.064220183486238,
      "grad_norm": 0.05496300384402275,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 9873
    },
    {
      "epoch": 10.065239551478083,
      "grad_norm": 0.11074531078338623,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 9874
    },
    {
      "epoch": 10.066258919469929,
      "grad_norm": 0.05858316645026207,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9875
    },
    {
      "epoch": 10.067278287461773,
      "grad_norm": 0.13385792076587677,
      "learning_rate": 0.001,
      "loss": 0.2065,
      "step": 9876
    },
    {
      "epoch": 10.068297655453618,
      "grad_norm": 0.08605390787124634,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 9877
    },
    {
      "epoch": 10.069317023445464,
      "grad_norm": 0.07691232115030289,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 9878
    },
    {
      "epoch": 10.070336391437309,
      "grad_norm": 0.04629544913768768,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 9879
    },
    {
      "epoch": 10.071355759429155,
      "grad_norm": 0.12138156592845917,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 9880
    },
    {
      "epoch": 10.072375127421,
      "grad_norm": 0.07108321040868759,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 9881
    },
    {
      "epoch": 10.073394495412844,
      "grad_norm": 0.17105208337306976,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 9882
    },
    {
      "epoch": 10.07441386340469,
      "grad_norm": 0.12365321069955826,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9883
    },
    {
      "epoch": 10.075433231396534,
      "grad_norm": 0.0904676765203476,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 9884
    },
    {
      "epoch": 10.076452599388379,
      "grad_norm": 0.1022242084145546,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 9885
    },
    {
      "epoch": 10.077471967380225,
      "grad_norm": 0.06413016468286514,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9886
    },
    {
      "epoch": 10.07849133537207,
      "grad_norm": 0.06457430124282837,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9887
    },
    {
      "epoch": 10.079510703363914,
      "grad_norm": 0.03901852294802666,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 9888
    },
    {
      "epoch": 10.08053007135576,
      "grad_norm": 0.07113174349069595,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 9889
    },
    {
      "epoch": 10.081549439347604,
      "grad_norm": 0.04760979488492012,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 9890
    },
    {
      "epoch": 10.082568807339449,
      "grad_norm": 0.09090404212474823,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9891
    },
    {
      "epoch": 10.083588175331295,
      "grad_norm": 0.06701089441776276,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 9892
    },
    {
      "epoch": 10.08460754332314,
      "grad_norm": 0.11404021829366684,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 9893
    },
    {
      "epoch": 10.085626911314984,
      "grad_norm": 0.07092324644327164,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 9894
    },
    {
      "epoch": 10.08664627930683,
      "grad_norm": 0.06474252045154572,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 9895
    },
    {
      "epoch": 10.087665647298675,
      "grad_norm": 0.10036079585552216,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 9896
    },
    {
      "epoch": 10.08868501529052,
      "grad_norm": 0.048832967877388,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 9897
    },
    {
      "epoch": 10.089704383282365,
      "grad_norm": 0.18559841811656952,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 9898
    },
    {
      "epoch": 10.09072375127421,
      "grad_norm": 0.11660580337047577,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 9899
    },
    {
      "epoch": 10.091743119266056,
      "grad_norm": 0.07144447416067123,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 9900
    },
    {
      "epoch": 10.0927624872579,
      "grad_norm": 0.09650871157646179,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9901
    },
    {
      "epoch": 10.093781855249745,
      "grad_norm": 0.08937005698680878,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9902
    },
    {
      "epoch": 10.094801223241591,
      "grad_norm": 0.09202823787927628,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 9903
    },
    {
      "epoch": 10.095820591233435,
      "grad_norm": 0.16843971610069275,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 9904
    },
    {
      "epoch": 10.09683995922528,
      "grad_norm": 0.08150946348905563,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 9905
    },
    {
      "epoch": 10.097859327217126,
      "grad_norm": 0.08234233409166336,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 9906
    },
    {
      "epoch": 10.09887869520897,
      "grad_norm": 0.049133576452732086,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 9907
    },
    {
      "epoch": 10.099898063200815,
      "grad_norm": 0.09243310242891312,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 9908
    },
    {
      "epoch": 10.100917431192661,
      "grad_norm": 0.06482014805078506,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 9909
    },
    {
      "epoch": 10.101936799184505,
      "grad_norm": 0.06265345960855484,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9910
    },
    {
      "epoch": 10.10295616717635,
      "grad_norm": 0.07885444909334183,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 9911
    },
    {
      "epoch": 10.103975535168196,
      "grad_norm": 0.07324974983930588,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 9912
    },
    {
      "epoch": 10.10499490316004,
      "grad_norm": 0.08509010821580887,
      "learning_rate": 0.001,
      "loss": 0.1639,
      "step": 9913
    },
    {
      "epoch": 10.106014271151885,
      "grad_norm": 0.04091622307896614,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 9914
    },
    {
      "epoch": 10.107033639143731,
      "grad_norm": 0.07884944975376129,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 9915
    },
    {
      "epoch": 10.108053007135576,
      "grad_norm": 0.07660412043333054,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 9916
    },
    {
      "epoch": 10.109072375127422,
      "grad_norm": 0.047292012721300125,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 9917
    },
    {
      "epoch": 10.110091743119266,
      "grad_norm": 0.09781264513731003,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 9918
    },
    {
      "epoch": 10.11111111111111,
      "grad_norm": 0.08562982827425003,
      "learning_rate": 0.001,
      "loss": 0.1582,
      "step": 9919
    },
    {
      "epoch": 10.112130479102957,
      "grad_norm": 0.09889230132102966,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 9920
    },
    {
      "epoch": 10.113149847094801,
      "grad_norm": 0.08552110940217972,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9921
    },
    {
      "epoch": 10.114169215086646,
      "grad_norm": 0.13776670396327972,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 9922
    },
    {
      "epoch": 10.115188583078492,
      "grad_norm": 0.12284195423126221,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 9923
    },
    {
      "epoch": 10.116207951070336,
      "grad_norm": 0.06615128368139267,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 9924
    },
    {
      "epoch": 10.11722731906218,
      "grad_norm": 0.07535675168037415,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9925
    },
    {
      "epoch": 10.118246687054027,
      "grad_norm": 0.0813646912574768,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 9926
    },
    {
      "epoch": 10.119266055045872,
      "grad_norm": 0.06403063237667084,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9927
    },
    {
      "epoch": 10.120285423037716,
      "grad_norm": 0.1747264266014099,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 9928
    },
    {
      "epoch": 10.121304791029562,
      "grad_norm": 0.19394159317016602,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 9929
    },
    {
      "epoch": 10.122324159021407,
      "grad_norm": 0.11218912154436111,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 9930
    },
    {
      "epoch": 10.123343527013251,
      "grad_norm": 0.0722467303276062,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 9931
    },
    {
      "epoch": 10.124362895005097,
      "grad_norm": 0.0974026769399643,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 9932
    },
    {
      "epoch": 10.125382262996942,
      "grad_norm": 0.08525329828262329,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 9933
    },
    {
      "epoch": 10.126401630988786,
      "grad_norm": 0.08109436929225922,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 9934
    },
    {
      "epoch": 10.127420998980632,
      "grad_norm": 0.15664181113243103,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 9935
    },
    {
      "epoch": 10.128440366972477,
      "grad_norm": 0.13450734317302704,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9936
    },
    {
      "epoch": 10.129459734964323,
      "grad_norm": 0.15084785223007202,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 9937
    },
    {
      "epoch": 10.130479102956167,
      "grad_norm": 0.14446483552455902,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 9938
    },
    {
      "epoch": 10.131498470948012,
      "grad_norm": 0.19639770686626434,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 9939
    },
    {
      "epoch": 10.132517838939858,
      "grad_norm": 0.09635624289512634,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 9940
    },
    {
      "epoch": 10.133537206931702,
      "grad_norm": 0.13956281542778015,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 9941
    },
    {
      "epoch": 10.134556574923547,
      "grad_norm": 0.09334629029035568,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9942
    },
    {
      "epoch": 10.135575942915393,
      "grad_norm": 0.11318057775497437,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9943
    },
    {
      "epoch": 10.136595310907238,
      "grad_norm": 0.07718152552843094,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 9944
    },
    {
      "epoch": 10.137614678899082,
      "grad_norm": 0.13462530076503754,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 9945
    },
    {
      "epoch": 10.138634046890928,
      "grad_norm": 0.08864429593086243,
      "learning_rate": 0.001,
      "loss": 0.1616,
      "step": 9946
    },
    {
      "epoch": 10.139653414882773,
      "grad_norm": 0.04522760212421417,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 9947
    },
    {
      "epoch": 10.140672782874617,
      "grad_norm": 0.0751999244093895,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 9948
    },
    {
      "epoch": 10.141692150866463,
      "grad_norm": 0.14640936255455017,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 9949
    },
    {
      "epoch": 10.142711518858308,
      "grad_norm": 0.04426860809326172,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 9950
    },
    {
      "epoch": 10.143730886850152,
      "grad_norm": 0.14126496016979218,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 9951
    },
    {
      "epoch": 10.144750254841998,
      "grad_norm": 0.08730942755937576,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 9952
    },
    {
      "epoch": 10.145769622833843,
      "grad_norm": 0.11804962158203125,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 9953
    },
    {
      "epoch": 10.146788990825687,
      "grad_norm": 0.06637393683195114,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 9954
    },
    {
      "epoch": 10.147808358817533,
      "grad_norm": 0.0765955001115799,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 9955
    },
    {
      "epoch": 10.148827726809378,
      "grad_norm": 0.3531082570552826,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 9956
    },
    {
      "epoch": 10.149847094801224,
      "grad_norm": 0.16185735166072845,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 9957
    },
    {
      "epoch": 10.150866462793068,
      "grad_norm": 0.07454962283372879,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 9958
    },
    {
      "epoch": 10.151885830784913,
      "grad_norm": 0.12525799870491028,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 9959
    },
    {
      "epoch": 10.15290519877676,
      "grad_norm": 0.07893447577953339,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 9960
    },
    {
      "epoch": 10.153924566768604,
      "grad_norm": 0.07502127438783646,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 9961
    },
    {
      "epoch": 10.154943934760448,
      "grad_norm": 0.05318763479590416,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 9962
    },
    {
      "epoch": 10.155963302752294,
      "grad_norm": 0.049321968108415604,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 9963
    },
    {
      "epoch": 10.156982670744139,
      "grad_norm": 0.17997808754444122,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 9964
    },
    {
      "epoch": 10.158002038735983,
      "grad_norm": 0.1999702751636505,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 9965
    },
    {
      "epoch": 10.15902140672783,
      "grad_norm": 0.07343924045562744,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 9966
    },
    {
      "epoch": 10.160040774719674,
      "grad_norm": 0.08192803710699081,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 9967
    },
    {
      "epoch": 10.161060142711518,
      "grad_norm": 0.16583803296089172,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 9968
    },
    {
      "epoch": 10.162079510703364,
      "grad_norm": 0.08606893569231033,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 9969
    },
    {
      "epoch": 10.163098878695209,
      "grad_norm": 0.09422159940004349,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 9970
    },
    {
      "epoch": 10.164118246687053,
      "grad_norm": 0.13239683210849762,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 9971
    },
    {
      "epoch": 10.1651376146789,
      "grad_norm": 0.07518358528614044,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 9972
    },
    {
      "epoch": 10.166156982670744,
      "grad_norm": 0.11564744263887405,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 9973
    },
    {
      "epoch": 10.16717635066259,
      "grad_norm": 0.07623382657766342,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 9974
    },
    {
      "epoch": 10.168195718654435,
      "grad_norm": 0.059622872620821,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 9975
    },
    {
      "epoch": 10.169215086646279,
      "grad_norm": 0.08856475353240967,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 9976
    },
    {
      "epoch": 10.170234454638125,
      "grad_norm": 0.057207342237234116,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 9977
    },
    {
      "epoch": 10.17125382262997,
      "grad_norm": 0.11780653148889542,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 9978
    },
    {
      "epoch": 10.172273190621814,
      "grad_norm": 0.09794332087039948,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 9979
    },
    {
      "epoch": 10.17329255861366,
      "grad_norm": 0.08077216148376465,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 9980
    },
    {
      "epoch": 10.174311926605505,
      "grad_norm": 0.11839967221021652,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 9981
    },
    {
      "epoch": 10.175331294597349,
      "grad_norm": 0.12200423330068588,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 9982
    },
    {
      "epoch": 10.176350662589195,
      "grad_norm": 0.15757153928279877,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 9983
    },
    {
      "epoch": 10.17737003058104,
      "grad_norm": 0.13759173452854156,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 9984
    },
    {
      "epoch": 10.178389398572884,
      "grad_norm": 0.06386153399944305,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 9985
    },
    {
      "epoch": 10.17940876656473,
      "grad_norm": 0.06608816981315613,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 9986
    },
    {
      "epoch": 10.180428134556575,
      "grad_norm": 0.18792374432086945,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 9987
    },
    {
      "epoch": 10.18144750254842,
      "grad_norm": 0.08239124715328217,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 9988
    },
    {
      "epoch": 10.182466870540265,
      "grad_norm": 0.11960819363594055,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 9989
    },
    {
      "epoch": 10.18348623853211,
      "grad_norm": 0.07947450131177902,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 9990
    },
    {
      "epoch": 10.184505606523954,
      "grad_norm": 0.10620929300785065,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 9991
    },
    {
      "epoch": 10.1855249745158,
      "grad_norm": 0.06956534832715988,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 9992
    },
    {
      "epoch": 10.186544342507645,
      "grad_norm": 0.08718711137771606,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 9993
    },
    {
      "epoch": 10.187563710499491,
      "grad_norm": 0.11414194107055664,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 9994
    },
    {
      "epoch": 10.188583078491336,
      "grad_norm": 0.08759544044733047,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 9995
    },
    {
      "epoch": 10.18960244648318,
      "grad_norm": 0.0591864250600338,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 9996
    },
    {
      "epoch": 10.190621814475026,
      "grad_norm": 0.1269921064376831,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 9997
    },
    {
      "epoch": 10.19164118246687,
      "grad_norm": 0.13454824686050415,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 9998
    },
    {
      "epoch": 10.192660550458715,
      "grad_norm": 0.07650125026702881,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 9999
    },
    {
      "epoch": 10.193679918450561,
      "grad_norm": 0.0951700508594513,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 10000
    },
    {
      "epoch": 10.194699286442406,
      "grad_norm": 0.048273246735334396,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10001
    },
    {
      "epoch": 10.19571865443425,
      "grad_norm": 0.10192012041807175,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 10002
    },
    {
      "epoch": 10.196738022426096,
      "grad_norm": 0.10641887038946152,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 10003
    },
    {
      "epoch": 10.19775739041794,
      "grad_norm": 0.12171400338411331,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 10004
    },
    {
      "epoch": 10.198776758409785,
      "grad_norm": 0.13830523192882538,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 10005
    },
    {
      "epoch": 10.199796126401631,
      "grad_norm": 0.12495891749858856,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 10006
    },
    {
      "epoch": 10.200815494393476,
      "grad_norm": 0.06606817245483398,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10007
    },
    {
      "epoch": 10.20183486238532,
      "grad_norm": 0.10137409716844559,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 10008
    },
    {
      "epoch": 10.202854230377167,
      "grad_norm": 0.08898293972015381,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 10009
    },
    {
      "epoch": 10.203873598369011,
      "grad_norm": 0.12503443658351898,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 10010
    },
    {
      "epoch": 10.204892966360855,
      "grad_norm": 0.09252401441335678,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 10011
    },
    {
      "epoch": 10.205912334352702,
      "grad_norm": 0.07260958850383759,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 10012
    },
    {
      "epoch": 10.206931702344546,
      "grad_norm": 0.09929842501878738,
      "learning_rate": 0.001,
      "loss": 0.16,
      "step": 10013
    },
    {
      "epoch": 10.207951070336392,
      "grad_norm": 0.09366533160209656,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10014
    },
    {
      "epoch": 10.208970438328237,
      "grad_norm": 0.09529662877321243,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10015
    },
    {
      "epoch": 10.209989806320081,
      "grad_norm": 0.11228662729263306,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 10016
    },
    {
      "epoch": 10.211009174311927,
      "grad_norm": 0.13001154363155365,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10017
    },
    {
      "epoch": 10.212028542303772,
      "grad_norm": 0.046857189387083054,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 10018
    },
    {
      "epoch": 10.213047910295616,
      "grad_norm": 0.16002218425273895,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 10019
    },
    {
      "epoch": 10.214067278287462,
      "grad_norm": 0.43189162015914917,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 10020
    },
    {
      "epoch": 10.215086646279307,
      "grad_norm": 0.0800197646021843,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 10021
    },
    {
      "epoch": 10.216106014271151,
      "grad_norm": 0.1625700145959854,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 10022
    },
    {
      "epoch": 10.217125382262997,
      "grad_norm": 0.08859523385763168,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 10023
    },
    {
      "epoch": 10.218144750254842,
      "grad_norm": 0.04154137149453163,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 10024
    },
    {
      "epoch": 10.219164118246686,
      "grad_norm": 0.09111757576465607,
      "learning_rate": 0.001,
      "loss": 0.1543,
      "step": 10025
    },
    {
      "epoch": 10.220183486238533,
      "grad_norm": 0.11116406321525574,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 10026
    },
    {
      "epoch": 10.221202854230377,
      "grad_norm": 0.07296881824731827,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 10027
    },
    {
      "epoch": 10.222222222222221,
      "grad_norm": 0.0888117104768753,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 10028
    },
    {
      "epoch": 10.223241590214068,
      "grad_norm": 0.07793796062469482,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 10029
    },
    {
      "epoch": 10.224260958205912,
      "grad_norm": 0.07340741902589798,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10030
    },
    {
      "epoch": 10.225280326197758,
      "grad_norm": 0.1488715559244156,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 10031
    },
    {
      "epoch": 10.226299694189603,
      "grad_norm": 0.10567237436771393,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10032
    },
    {
      "epoch": 10.227319062181447,
      "grad_norm": 0.07732928544282913,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 10033
    },
    {
      "epoch": 10.228338430173293,
      "grad_norm": 0.09885866194963455,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 10034
    },
    {
      "epoch": 10.229357798165138,
      "grad_norm": 0.08726127445697784,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 10035
    },
    {
      "epoch": 10.230377166156982,
      "grad_norm": 0.14091047644615173,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 10036
    },
    {
      "epoch": 10.231396534148828,
      "grad_norm": 0.041955672204494476,
      "learning_rate": 0.001,
      "loss": 0.1567,
      "step": 10037
    },
    {
      "epoch": 10.232415902140673,
      "grad_norm": 0.10686478763818741,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 10038
    },
    {
      "epoch": 10.233435270132517,
      "grad_norm": 0.06855792552232742,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10039
    },
    {
      "epoch": 10.234454638124364,
      "grad_norm": 0.15240313112735748,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 10040
    },
    {
      "epoch": 10.235474006116208,
      "grad_norm": 0.09262219071388245,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 10041
    },
    {
      "epoch": 10.236493374108052,
      "grad_norm": 0.14645497500896454,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 10042
    },
    {
      "epoch": 10.237512742099899,
      "grad_norm": 0.05735614523291588,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10043
    },
    {
      "epoch": 10.238532110091743,
      "grad_norm": 0.14088116586208344,
      "learning_rate": 0.001,
      "loss": 0.2064,
      "step": 10044
    },
    {
      "epoch": 10.239551478083587,
      "grad_norm": 0.06180167570710182,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 10045
    },
    {
      "epoch": 10.240570846075434,
      "grad_norm": 0.11414884775876999,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 10046
    },
    {
      "epoch": 10.241590214067278,
      "grad_norm": 0.15603242814540863,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 10047
    },
    {
      "epoch": 10.242609582059123,
      "grad_norm": 0.13265761733055115,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 10048
    },
    {
      "epoch": 10.243628950050969,
      "grad_norm": 0.06262781471014023,
      "learning_rate": 0.001,
      "loss": 0.1602,
      "step": 10049
    },
    {
      "epoch": 10.244648318042813,
      "grad_norm": 0.08415387570858002,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 10050
    },
    {
      "epoch": 10.24566768603466,
      "grad_norm": 0.04756033420562744,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 10051
    },
    {
      "epoch": 10.246687054026504,
      "grad_norm": 0.09723437577486038,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 10052
    },
    {
      "epoch": 10.247706422018348,
      "grad_norm": 0.13198032975196838,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 10053
    },
    {
      "epoch": 10.248725790010194,
      "grad_norm": 0.11389242857694626,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 10054
    },
    {
      "epoch": 10.249745158002039,
      "grad_norm": 0.06177298352122307,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 10055
    },
    {
      "epoch": 10.250764525993883,
      "grad_norm": 0.06904390454292297,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10056
    },
    {
      "epoch": 10.25178389398573,
      "grad_norm": 0.1067105308175087,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 10057
    },
    {
      "epoch": 10.252803261977574,
      "grad_norm": 0.10141882300376892,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 10058
    },
    {
      "epoch": 10.253822629969418,
      "grad_norm": 0.08537865430116653,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 10059
    },
    {
      "epoch": 10.254841997961265,
      "grad_norm": 0.0536995455622673,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 10060
    },
    {
      "epoch": 10.255861365953109,
      "grad_norm": 0.08774817734956741,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 10061
    },
    {
      "epoch": 10.256880733944953,
      "grad_norm": 0.13588091731071472,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 10062
    },
    {
      "epoch": 10.2579001019368,
      "grad_norm": 0.13067640364170074,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 10063
    },
    {
      "epoch": 10.258919469928644,
      "grad_norm": 0.06570926308631897,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10064
    },
    {
      "epoch": 10.259938837920489,
      "grad_norm": 0.10881099849939346,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 10065
    },
    {
      "epoch": 10.260958205912335,
      "grad_norm": 0.07810644060373306,
      "learning_rate": 0.001,
      "loss": 0.1587,
      "step": 10066
    },
    {
      "epoch": 10.26197757390418,
      "grad_norm": 0.13295266032218933,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 10067
    },
    {
      "epoch": 10.262996941896024,
      "grad_norm": 0.18782681226730347,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 10068
    },
    {
      "epoch": 10.26401630988787,
      "grad_norm": 0.21304525434970856,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 10069
    },
    {
      "epoch": 10.265035677879714,
      "grad_norm": 0.050827693194150925,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 10070
    },
    {
      "epoch": 10.26605504587156,
      "grad_norm": 0.07803919911384583,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 10071
    },
    {
      "epoch": 10.267074413863405,
      "grad_norm": 0.043864332139492035,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 10072
    },
    {
      "epoch": 10.26809378185525,
      "grad_norm": 0.04706241935491562,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 10073
    },
    {
      "epoch": 10.269113149847096,
      "grad_norm": 0.1286505162715912,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 10074
    },
    {
      "epoch": 10.27013251783894,
      "grad_norm": 0.07755862176418304,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 10075
    },
    {
      "epoch": 10.271151885830784,
      "grad_norm": 0.1651512235403061,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 10076
    },
    {
      "epoch": 10.27217125382263,
      "grad_norm": 0.05393461510539055,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 10077
    },
    {
      "epoch": 10.273190621814475,
      "grad_norm": 0.17176826298236847,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 10078
    },
    {
      "epoch": 10.27420998980632,
      "grad_norm": 0.09751302748918533,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 10079
    },
    {
      "epoch": 10.275229357798166,
      "grad_norm": 0.04654555395245552,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 10080
    },
    {
      "epoch": 10.27624872579001,
      "grad_norm": 0.04906554892659187,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10081
    },
    {
      "epoch": 10.277268093781855,
      "grad_norm": 0.11401442438364029,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 10082
    },
    {
      "epoch": 10.2782874617737,
      "grad_norm": 0.04921118542551994,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 10083
    },
    {
      "epoch": 10.279306829765545,
      "grad_norm": 0.08387886732816696,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 10084
    },
    {
      "epoch": 10.28032619775739,
      "grad_norm": 0.14303821325302124,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 10085
    },
    {
      "epoch": 10.281345565749236,
      "grad_norm": 0.08180931955575943,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 10086
    },
    {
      "epoch": 10.28236493374108,
      "grad_norm": 0.042602553963661194,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 10087
    },
    {
      "epoch": 10.283384301732925,
      "grad_norm": 0.20959344506263733,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 10088
    },
    {
      "epoch": 10.284403669724771,
      "grad_norm": 0.12102282792329788,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 10089
    },
    {
      "epoch": 10.285423037716615,
      "grad_norm": 0.10040803253650665,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 10090
    },
    {
      "epoch": 10.286442405708462,
      "grad_norm": 0.05763718858361244,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 10091
    },
    {
      "epoch": 10.287461773700306,
      "grad_norm": 0.0991934984922409,
      "learning_rate": 0.001,
      "loss": 0.1591,
      "step": 10092
    },
    {
      "epoch": 10.28848114169215,
      "grad_norm": 0.06257636845111847,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10093
    },
    {
      "epoch": 10.289500509683997,
      "grad_norm": 0.11489621549844742,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 10094
    },
    {
      "epoch": 10.290519877675841,
      "grad_norm": 0.12895338237285614,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10095
    },
    {
      "epoch": 10.291539245667686,
      "grad_norm": 0.08141539990901947,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 10096
    },
    {
      "epoch": 10.292558613659532,
      "grad_norm": 0.07117320597171783,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 10097
    },
    {
      "epoch": 10.293577981651376,
      "grad_norm": 0.1613595187664032,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 10098
    },
    {
      "epoch": 10.29459734964322,
      "grad_norm": 0.059560373425483704,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 10099
    },
    {
      "epoch": 10.295616717635067,
      "grad_norm": 0.1911855936050415,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 10100
    },
    {
      "epoch": 10.296636085626911,
      "grad_norm": 0.08943354338407516,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 10101
    },
    {
      "epoch": 10.297655453618756,
      "grad_norm": 0.04787695035338402,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 10102
    },
    {
      "epoch": 10.298674821610602,
      "grad_norm": 0.094806969165802,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 10103
    },
    {
      "epoch": 10.299694189602446,
      "grad_norm": 0.06916617602109909,
      "learning_rate": 0.001,
      "loss": 0.1538,
      "step": 10104
    },
    {
      "epoch": 10.30071355759429,
      "grad_norm": 0.18586307764053345,
      "learning_rate": 0.001,
      "loss": 0.2012,
      "step": 10105
    },
    {
      "epoch": 10.301732925586137,
      "grad_norm": 0.08457877486944199,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10106
    },
    {
      "epoch": 10.302752293577981,
      "grad_norm": 0.12507764995098114,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 10107
    },
    {
      "epoch": 10.303771661569826,
      "grad_norm": 0.083075150847435,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 10108
    },
    {
      "epoch": 10.304791029561672,
      "grad_norm": 0.07903440296649933,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 10109
    },
    {
      "epoch": 10.305810397553516,
      "grad_norm": 0.1455858051776886,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 10110
    },
    {
      "epoch": 10.306829765545363,
      "grad_norm": 0.06810470670461655,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 10111
    },
    {
      "epoch": 10.307849133537207,
      "grad_norm": 0.253462016582489,
      "learning_rate": 0.001,
      "loss": 0.2172,
      "step": 10112
    },
    {
      "epoch": 10.308868501529052,
      "grad_norm": 0.2538411617279053,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 10113
    },
    {
      "epoch": 10.309887869520898,
      "grad_norm": 0.11332947760820389,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 10114
    },
    {
      "epoch": 10.310907237512742,
      "grad_norm": 0.1509436070919037,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 10115
    },
    {
      "epoch": 10.311926605504587,
      "grad_norm": 0.11461596935987473,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10116
    },
    {
      "epoch": 10.312945973496433,
      "grad_norm": 0.14368842542171478,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 10117
    },
    {
      "epoch": 10.313965341488277,
      "grad_norm": 0.18662989139556885,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 10118
    },
    {
      "epoch": 10.314984709480122,
      "grad_norm": 0.08216095715761185,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 10119
    },
    {
      "epoch": 10.316004077471968,
      "grad_norm": 0.05868295580148697,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 10120
    },
    {
      "epoch": 10.317023445463812,
      "grad_norm": 0.16794775426387787,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 10121
    },
    {
      "epoch": 10.318042813455657,
      "grad_norm": 0.08704832941293716,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 10122
    },
    {
      "epoch": 10.319062181447503,
      "grad_norm": 0.06083923205733299,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 10123
    },
    {
      "epoch": 10.320081549439347,
      "grad_norm": 0.12185583263635635,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10124
    },
    {
      "epoch": 10.321100917431192,
      "grad_norm": 0.0782497301697731,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 10125
    },
    {
      "epoch": 10.322120285423038,
      "grad_norm": 0.1093769446015358,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 10126
    },
    {
      "epoch": 10.323139653414882,
      "grad_norm": 0.1068074181675911,
      "learning_rate": 0.001,
      "loss": 0.1581,
      "step": 10127
    },
    {
      "epoch": 10.324159021406729,
      "grad_norm": 0.10198874771595001,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 10128
    },
    {
      "epoch": 10.325178389398573,
      "grad_norm": 0.11661051958799362,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 10129
    },
    {
      "epoch": 10.326197757390418,
      "grad_norm": 0.3456483781337738,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 10130
    },
    {
      "epoch": 10.327217125382264,
      "grad_norm": 0.11580636352300644,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 10131
    },
    {
      "epoch": 10.328236493374108,
      "grad_norm": 0.2198501080274582,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10132
    },
    {
      "epoch": 10.329255861365953,
      "grad_norm": 0.12032326310873032,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10133
    },
    {
      "epoch": 10.330275229357799,
      "grad_norm": 0.25661733746528625,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 10134
    },
    {
      "epoch": 10.331294597349643,
      "grad_norm": 0.1809319704771042,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 10135
    },
    {
      "epoch": 10.332313965341488,
      "grad_norm": 0.21502792835235596,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10136
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.09150107204914093,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10137
    },
    {
      "epoch": 10.334352701325178,
      "grad_norm": 0.07958540320396423,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 10138
    },
    {
      "epoch": 10.335372069317023,
      "grad_norm": 0.10218121856451035,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10139
    },
    {
      "epoch": 10.336391437308869,
      "grad_norm": 0.20075269043445587,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 10140
    },
    {
      "epoch": 10.337410805300713,
      "grad_norm": 0.17211665213108063,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 10141
    },
    {
      "epoch": 10.338430173292558,
      "grad_norm": 0.07605906575918198,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 10142
    },
    {
      "epoch": 10.339449541284404,
      "grad_norm": 0.1704462468624115,
      "learning_rate": 0.001,
      "loss": 0.2094,
      "step": 10143
    },
    {
      "epoch": 10.340468909276249,
      "grad_norm": 0.23355865478515625,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 10144
    },
    {
      "epoch": 10.341488277268093,
      "grad_norm": 0.07030030339956284,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 10145
    },
    {
      "epoch": 10.34250764525994,
      "grad_norm": 0.22729717195034027,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 10146
    },
    {
      "epoch": 10.343527013251784,
      "grad_norm": 0.13649652898311615,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 10147
    },
    {
      "epoch": 10.34454638124363,
      "grad_norm": 0.13505470752716064,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 10148
    },
    {
      "epoch": 10.345565749235474,
      "grad_norm": 0.0920209214091301,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 10149
    },
    {
      "epoch": 10.346585117227319,
      "grad_norm": 0.08630941063165665,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 10150
    },
    {
      "epoch": 10.347604485219165,
      "grad_norm": 0.1510920524597168,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 10151
    },
    {
      "epoch": 10.34862385321101,
      "grad_norm": 0.08992544561624527,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 10152
    },
    {
      "epoch": 10.349643221202854,
      "grad_norm": 0.05751461163163185,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 10153
    },
    {
      "epoch": 10.3506625891947,
      "grad_norm": 0.0927128717303276,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 10154
    },
    {
      "epoch": 10.351681957186544,
      "grad_norm": 0.128665953874588,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 10155
    },
    {
      "epoch": 10.352701325178389,
      "grad_norm": 0.06950679421424866,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10156
    },
    {
      "epoch": 10.353720693170235,
      "grad_norm": 0.12056899070739746,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 10157
    },
    {
      "epoch": 10.35474006116208,
      "grad_norm": 0.11738733947277069,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10158
    },
    {
      "epoch": 10.355759429153924,
      "grad_norm": 0.13619861006736755,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 10159
    },
    {
      "epoch": 10.35677879714577,
      "grad_norm": 0.09624291956424713,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 10160
    },
    {
      "epoch": 10.357798165137615,
      "grad_norm": 0.06479144841432571,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 10161
    },
    {
      "epoch": 10.358817533129459,
      "grad_norm": 0.06255395710468292,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 10162
    },
    {
      "epoch": 10.359836901121305,
      "grad_norm": 0.0706176683306694,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 10163
    },
    {
      "epoch": 10.36085626911315,
      "grad_norm": 0.029567768797278404,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 10164
    },
    {
      "epoch": 10.361875637104994,
      "grad_norm": 0.08111982047557831,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 10165
    },
    {
      "epoch": 10.36289500509684,
      "grad_norm": 0.05708028003573418,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 10166
    },
    {
      "epoch": 10.363914373088685,
      "grad_norm": 0.1305226981639862,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 10167
    },
    {
      "epoch": 10.364933741080531,
      "grad_norm": 0.09457826614379883,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 10168
    },
    {
      "epoch": 10.365953109072375,
      "grad_norm": 0.05851558968424797,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10169
    },
    {
      "epoch": 10.36697247706422,
      "grad_norm": 0.14550559222698212,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 10170
    },
    {
      "epoch": 10.367991845056066,
      "grad_norm": 0.13115788996219635,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 10171
    },
    {
      "epoch": 10.36901121304791,
      "grad_norm": 0.05819633603096008,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 10172
    },
    {
      "epoch": 10.370030581039755,
      "grad_norm": 0.07786475867033005,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 10173
    },
    {
      "epoch": 10.371049949031601,
      "grad_norm": 0.07514560222625732,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 10174
    },
    {
      "epoch": 10.372069317023445,
      "grad_norm": 0.13480053842067719,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10175
    },
    {
      "epoch": 10.37308868501529,
      "grad_norm": 0.1415567547082901,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 10176
    },
    {
      "epoch": 10.374108053007136,
      "grad_norm": 0.10568661987781525,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 10177
    },
    {
      "epoch": 10.37512742099898,
      "grad_norm": 0.06422700732946396,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 10178
    },
    {
      "epoch": 10.376146788990825,
      "grad_norm": 0.12889380753040314,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 10179
    },
    {
      "epoch": 10.377166156982671,
      "grad_norm": 0.10019147396087646,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 10180
    },
    {
      "epoch": 10.378185524974516,
      "grad_norm": 0.10127326101064682,
      "learning_rate": 0.001,
      "loss": 0.1583,
      "step": 10181
    },
    {
      "epoch": 10.37920489296636,
      "grad_norm": 0.07529092580080032,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 10182
    },
    {
      "epoch": 10.380224260958206,
      "grad_norm": 0.10157214850187302,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 10183
    },
    {
      "epoch": 10.38124362895005,
      "grad_norm": 0.17358116805553436,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 10184
    },
    {
      "epoch": 10.382262996941897,
      "grad_norm": 0.11459226161241531,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 10185
    },
    {
      "epoch": 10.383282364933741,
      "grad_norm": 0.1190524622797966,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 10186
    },
    {
      "epoch": 10.384301732925586,
      "grad_norm": 0.10418388992547989,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 10187
    },
    {
      "epoch": 10.385321100917432,
      "grad_norm": 0.05308370664715767,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 10188
    },
    {
      "epoch": 10.386340468909276,
      "grad_norm": 0.13637150824069977,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 10189
    },
    {
      "epoch": 10.38735983690112,
      "grad_norm": 0.09600062668323517,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10190
    },
    {
      "epoch": 10.388379204892967,
      "grad_norm": 0.05223338305950165,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 10191
    },
    {
      "epoch": 10.389398572884812,
      "grad_norm": 0.11617675423622131,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 10192
    },
    {
      "epoch": 10.390417940876656,
      "grad_norm": 0.12865076959133148,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 10193
    },
    {
      "epoch": 10.391437308868502,
      "grad_norm": 0.14371657371520996,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 10194
    },
    {
      "epoch": 10.392456676860347,
      "grad_norm": 0.1485910564661026,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10195
    },
    {
      "epoch": 10.393476044852191,
      "grad_norm": 0.15272516012191772,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 10196
    },
    {
      "epoch": 10.394495412844037,
      "grad_norm": 0.10752485692501068,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 10197
    },
    {
      "epoch": 10.395514780835882,
      "grad_norm": 0.11776021122932434,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10198
    },
    {
      "epoch": 10.396534148827726,
      "grad_norm": 0.13721416890621185,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 10199
    },
    {
      "epoch": 10.397553516819572,
      "grad_norm": 0.07645508646965027,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 10200
    },
    {
      "epoch": 10.398572884811417,
      "grad_norm": 0.39546772837638855,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 10201
    },
    {
      "epoch": 10.399592252803261,
      "grad_norm": 0.18201959133148193,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10202
    },
    {
      "epoch": 10.400611620795107,
      "grad_norm": 0.09317146241664886,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10203
    },
    {
      "epoch": 10.401630988786952,
      "grad_norm": 0.10593875497579575,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10204
    },
    {
      "epoch": 10.402650356778796,
      "grad_norm": 0.10065312683582306,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 10205
    },
    {
      "epoch": 10.403669724770642,
      "grad_norm": 0.14721576869487762,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10206
    },
    {
      "epoch": 10.404689092762487,
      "grad_norm": 0.09934301674365997,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10207
    },
    {
      "epoch": 10.405708460754333,
      "grad_norm": 0.260569304227829,
      "learning_rate": 0.001,
      "loss": 0.2166,
      "step": 10208
    },
    {
      "epoch": 10.406727828746178,
      "grad_norm": 0.1547081023454666,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 10209
    },
    {
      "epoch": 10.407747196738022,
      "grad_norm": 0.1578318327665329,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 10210
    },
    {
      "epoch": 10.408766564729868,
      "grad_norm": 0.17724943161010742,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10211
    },
    {
      "epoch": 10.409785932721713,
      "grad_norm": 0.134790301322937,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 10212
    },
    {
      "epoch": 10.410805300713557,
      "grad_norm": 0.11087442189455032,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10213
    },
    {
      "epoch": 10.411824668705403,
      "grad_norm": 0.09929583966732025,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 10214
    },
    {
      "epoch": 10.412844036697248,
      "grad_norm": 0.10089557617902756,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 10215
    },
    {
      "epoch": 10.413863404689092,
      "grad_norm": 0.10221802443265915,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 10216
    },
    {
      "epoch": 10.414882772680938,
      "grad_norm": 0.08162779361009598,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 10217
    },
    {
      "epoch": 10.415902140672783,
      "grad_norm": 0.12451797723770142,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 10218
    },
    {
      "epoch": 10.416921508664627,
      "grad_norm": 0.14437735080718994,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 10219
    },
    {
      "epoch": 10.417940876656473,
      "grad_norm": 0.07952502369880676,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 10220
    },
    {
      "epoch": 10.418960244648318,
      "grad_norm": 0.09641999006271362,
      "learning_rate": 0.001,
      "loss": 0.1592,
      "step": 10221
    },
    {
      "epoch": 10.419979612640162,
      "grad_norm": 0.13088656961917877,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 10222
    },
    {
      "epoch": 10.420998980632008,
      "grad_norm": 0.0792359784245491,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 10223
    },
    {
      "epoch": 10.422018348623853,
      "grad_norm": 0.15506063401699066,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 10224
    },
    {
      "epoch": 10.423037716615699,
      "grad_norm": 0.08444517850875854,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 10225
    },
    {
      "epoch": 10.424057084607544,
      "grad_norm": 0.08072441071271896,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10226
    },
    {
      "epoch": 10.425076452599388,
      "grad_norm": 0.18178397417068481,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 10227
    },
    {
      "epoch": 10.426095820591234,
      "grad_norm": 0.1571262627840042,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 10228
    },
    {
      "epoch": 10.427115188583079,
      "grad_norm": 0.11134155094623566,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 10229
    },
    {
      "epoch": 10.428134556574923,
      "grad_norm": 0.1288820207118988,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10230
    },
    {
      "epoch": 10.42915392456677,
      "grad_norm": 0.16593222320079803,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 10231
    },
    {
      "epoch": 10.430173292558614,
      "grad_norm": 0.11381129175424576,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10232
    },
    {
      "epoch": 10.431192660550458,
      "grad_norm": 0.09136320650577545,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10233
    },
    {
      "epoch": 10.432212028542304,
      "grad_norm": 0.07376385480165482,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 10234
    },
    {
      "epoch": 10.433231396534149,
      "grad_norm": 0.1716873198747635,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 10235
    },
    {
      "epoch": 10.434250764525993,
      "grad_norm": 0.11675870418548584,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10236
    },
    {
      "epoch": 10.43527013251784,
      "grad_norm": 0.10262234508991241,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 10237
    },
    {
      "epoch": 10.436289500509684,
      "grad_norm": 0.09600052237510681,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 10238
    },
    {
      "epoch": 10.437308868501528,
      "grad_norm": 0.21272531151771545,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 10239
    },
    {
      "epoch": 10.438328236493374,
      "grad_norm": 0.09684513509273529,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 10240
    },
    {
      "epoch": 10.439347604485219,
      "grad_norm": 0.11181902885437012,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 10241
    },
    {
      "epoch": 10.440366972477065,
      "grad_norm": 0.07697680592536926,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 10242
    },
    {
      "epoch": 10.44138634046891,
      "grad_norm": 0.27175387740135193,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 10243
    },
    {
      "epoch": 10.442405708460754,
      "grad_norm": 0.0697849690914154,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 10244
    },
    {
      "epoch": 10.4434250764526,
      "grad_norm": 0.06754210591316223,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 10245
    },
    {
      "epoch": 10.444444444444445,
      "grad_norm": 0.16548630595207214,
      "learning_rate": 0.001,
      "loss": 0.2048,
      "step": 10246
    },
    {
      "epoch": 10.445463812436289,
      "grad_norm": 0.12965302169322968,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 10247
    },
    {
      "epoch": 10.446483180428135,
      "grad_norm": 0.06983882188796997,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 10248
    },
    {
      "epoch": 10.44750254841998,
      "grad_norm": 0.09130915254354477,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 10249
    },
    {
      "epoch": 10.448521916411824,
      "grad_norm": 0.1283692568540573,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 10250
    },
    {
      "epoch": 10.44954128440367,
      "grad_norm": 0.09183290600776672,
      "learning_rate": 0.001,
      "loss": 0.209,
      "step": 10251
    },
    {
      "epoch": 10.450560652395515,
      "grad_norm": 0.06939098238945007,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10252
    },
    {
      "epoch": 10.45158002038736,
      "grad_norm": 0.04712196812033653,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 10253
    },
    {
      "epoch": 10.452599388379205,
      "grad_norm": 0.12911637127399445,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10254
    },
    {
      "epoch": 10.45361875637105,
      "grad_norm": 0.05829056352376938,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 10255
    },
    {
      "epoch": 10.454638124362894,
      "grad_norm": 0.11187107115983963,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 10256
    },
    {
      "epoch": 10.45565749235474,
      "grad_norm": 0.6194843053817749,
      "learning_rate": 0.001,
      "loss": 0.2216,
      "step": 10257
    },
    {
      "epoch": 10.456676860346585,
      "grad_norm": 0.14337371289730072,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 10258
    },
    {
      "epoch": 10.45769622833843,
      "grad_norm": 0.09875824302434921,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 10259
    },
    {
      "epoch": 10.458715596330276,
      "grad_norm": 0.12147228419780731,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10260
    },
    {
      "epoch": 10.45973496432212,
      "grad_norm": 0.15297751128673553,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 10261
    },
    {
      "epoch": 10.460754332313964,
      "grad_norm": 0.08838510513305664,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10262
    },
    {
      "epoch": 10.46177370030581,
      "grad_norm": 0.1465204358100891,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10263
    },
    {
      "epoch": 10.462793068297655,
      "grad_norm": 0.09497204422950745,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 10264
    },
    {
      "epoch": 10.463812436289501,
      "grad_norm": 0.06399394571781158,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 10265
    },
    {
      "epoch": 10.464831804281346,
      "grad_norm": 0.12870295345783234,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 10266
    },
    {
      "epoch": 10.46585117227319,
      "grad_norm": 0.16941606998443604,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10267
    },
    {
      "epoch": 10.466870540265036,
      "grad_norm": 0.11407981067895889,
      "learning_rate": 0.001,
      "loss": 0.2269,
      "step": 10268
    },
    {
      "epoch": 10.46788990825688,
      "grad_norm": 0.06221422180533409,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 10269
    },
    {
      "epoch": 10.468909276248725,
      "grad_norm": 0.05671173706650734,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 10270
    },
    {
      "epoch": 10.469928644240571,
      "grad_norm": 0.12154336273670197,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 10271
    },
    {
      "epoch": 10.470948012232416,
      "grad_norm": 0.18787704408168793,
      "learning_rate": 0.001,
      "loss": 0.2181,
      "step": 10272
    },
    {
      "epoch": 10.47196738022426,
      "grad_norm": 0.046303462237119675,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10273
    },
    {
      "epoch": 10.472986748216107,
      "grad_norm": 0.07096263021230698,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 10274
    },
    {
      "epoch": 10.474006116207951,
      "grad_norm": 0.16116297245025635,
      "learning_rate": 0.001,
      "loss": 0.2184,
      "step": 10275
    },
    {
      "epoch": 10.475025484199795,
      "grad_norm": 0.22130481898784637,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10276
    },
    {
      "epoch": 10.476044852191642,
      "grad_norm": 0.13563761115074158,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 10277
    },
    {
      "epoch": 10.477064220183486,
      "grad_norm": 0.18230301141738892,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 10278
    },
    {
      "epoch": 10.47808358817533,
      "grad_norm": 0.08881423622369766,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10279
    },
    {
      "epoch": 10.479102956167177,
      "grad_norm": 0.07681381702423096,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 10280
    },
    {
      "epoch": 10.480122324159021,
      "grad_norm": 0.08332743495702744,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 10281
    },
    {
      "epoch": 10.481141692150867,
      "grad_norm": 0.08625105023384094,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10282
    },
    {
      "epoch": 10.482161060142712,
      "grad_norm": 0.09306565672159195,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 10283
    },
    {
      "epoch": 10.483180428134556,
      "grad_norm": 0.12397997081279755,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10284
    },
    {
      "epoch": 10.484199796126402,
      "grad_norm": 0.08726689964532852,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 10285
    },
    {
      "epoch": 10.485219164118247,
      "grad_norm": 0.1521337479352951,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 10286
    },
    {
      "epoch": 10.486238532110091,
      "grad_norm": 0.10597015172243118,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 10287
    },
    {
      "epoch": 10.487257900101937,
      "grad_norm": 0.10238512605428696,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 10288
    },
    {
      "epoch": 10.488277268093782,
      "grad_norm": 0.08284574747085571,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 10289
    },
    {
      "epoch": 10.489296636085626,
      "grad_norm": 0.06631144881248474,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 10290
    },
    {
      "epoch": 10.490316004077473,
      "grad_norm": 0.08980607986450195,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10291
    },
    {
      "epoch": 10.491335372069317,
      "grad_norm": 0.13373643159866333,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 10292
    },
    {
      "epoch": 10.492354740061161,
      "grad_norm": 0.0880485326051712,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10293
    },
    {
      "epoch": 10.493374108053008,
      "grad_norm": 0.09476692974567413,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 10294
    },
    {
      "epoch": 10.494393476044852,
      "grad_norm": 0.08814942836761475,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 10295
    },
    {
      "epoch": 10.495412844036696,
      "grad_norm": 0.10557470470666885,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10296
    },
    {
      "epoch": 10.496432212028543,
      "grad_norm": 0.11302895843982697,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 10297
    },
    {
      "epoch": 10.497451580020387,
      "grad_norm": 0.11917594820261002,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 10298
    },
    {
      "epoch": 10.498470948012232,
      "grad_norm": 0.14224794507026672,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 10299
    },
    {
      "epoch": 10.499490316004078,
      "grad_norm": 0.11379111558198929,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 10300
    },
    {
      "epoch": 10.500509683995922,
      "grad_norm": 0.11477003991603851,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10301
    },
    {
      "epoch": 10.501529051987767,
      "grad_norm": 0.0944574624300003,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 10302
    },
    {
      "epoch": 10.502548419979613,
      "grad_norm": 0.11078587919473648,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10303
    },
    {
      "epoch": 10.503567787971457,
      "grad_norm": 0.09201418608427048,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10304
    },
    {
      "epoch": 10.504587155963304,
      "grad_norm": 0.09484371542930603,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 10305
    },
    {
      "epoch": 10.505606523955148,
      "grad_norm": 0.09625069051980972,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 10306
    },
    {
      "epoch": 10.506625891946992,
      "grad_norm": 0.059554774314165115,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 10307
    },
    {
      "epoch": 10.507645259938839,
      "grad_norm": 0.11633870005607605,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 10308
    },
    {
      "epoch": 10.508664627930683,
      "grad_norm": 0.0675891637802124,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 10309
    },
    {
      "epoch": 10.509683995922527,
      "grad_norm": 0.11416386812925339,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 10310
    },
    {
      "epoch": 10.510703363914374,
      "grad_norm": 0.1646702140569687,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 10311
    },
    {
      "epoch": 10.511722731906218,
      "grad_norm": 0.07999784499406815,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 10312
    },
    {
      "epoch": 10.512742099898063,
      "grad_norm": 0.11145706474781036,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10313
    },
    {
      "epoch": 10.513761467889909,
      "grad_norm": 0.041840560734272,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 10314
    },
    {
      "epoch": 10.514780835881753,
      "grad_norm": 0.16462573409080505,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 10315
    },
    {
      "epoch": 10.515800203873598,
      "grad_norm": 0.08378814160823822,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10316
    },
    {
      "epoch": 10.516819571865444,
      "grad_norm": 0.09077335149049759,
      "learning_rate": 0.001,
      "loss": 0.162,
      "step": 10317
    },
    {
      "epoch": 10.517838939857288,
      "grad_norm": 0.06946330517530441,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 10318
    },
    {
      "epoch": 10.518858307849133,
      "grad_norm": 0.11696641147136688,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 10319
    },
    {
      "epoch": 10.519877675840979,
      "grad_norm": 0.11728711426258087,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10320
    },
    {
      "epoch": 10.520897043832823,
      "grad_norm": 0.10579540580511093,
      "learning_rate": 0.001,
      "loss": 0.2101,
      "step": 10321
    },
    {
      "epoch": 10.52191641182467,
      "grad_norm": 0.12576542794704437,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10322
    },
    {
      "epoch": 10.522935779816514,
      "grad_norm": 0.07985679060220718,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10323
    },
    {
      "epoch": 10.523955147808358,
      "grad_norm": 0.08007016032934189,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 10324
    },
    {
      "epoch": 10.524974515800205,
      "grad_norm": 0.14084884524345398,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 10325
    },
    {
      "epoch": 10.525993883792049,
      "grad_norm": 0.11112136393785477,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 10326
    },
    {
      "epoch": 10.527013251783893,
      "grad_norm": 0.2277591973543167,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10327
    },
    {
      "epoch": 10.52803261977574,
      "grad_norm": 0.06575676053762436,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 10328
    },
    {
      "epoch": 10.529051987767584,
      "grad_norm": 0.1826007217168808,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 10329
    },
    {
      "epoch": 10.530071355759429,
      "grad_norm": 0.14039810001850128,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10330
    },
    {
      "epoch": 10.531090723751275,
      "grad_norm": 0.07863276451826096,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10331
    },
    {
      "epoch": 10.53211009174312,
      "grad_norm": 0.074888214468956,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 10332
    },
    {
      "epoch": 10.533129459734964,
      "grad_norm": 0.10584228485822678,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 10333
    },
    {
      "epoch": 10.53414882772681,
      "grad_norm": 0.08132722973823547,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10334
    },
    {
      "epoch": 10.535168195718654,
      "grad_norm": 0.2274860143661499,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 10335
    },
    {
      "epoch": 10.536187563710499,
      "grad_norm": 0.08769742399454117,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 10336
    },
    {
      "epoch": 10.537206931702345,
      "grad_norm": 0.08971841633319855,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 10337
    },
    {
      "epoch": 10.53822629969419,
      "grad_norm": 0.09632411599159241,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 10338
    },
    {
      "epoch": 10.539245667686036,
      "grad_norm": 0.07541034370660782,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10339
    },
    {
      "epoch": 10.54026503567788,
      "grad_norm": 0.05272179841995239,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10340
    },
    {
      "epoch": 10.541284403669724,
      "grad_norm": 0.09111573547124863,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 10341
    },
    {
      "epoch": 10.54230377166157,
      "grad_norm": 0.08944300562143326,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10342
    },
    {
      "epoch": 10.543323139653415,
      "grad_norm": 0.1253131479024887,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 10343
    },
    {
      "epoch": 10.54434250764526,
      "grad_norm": 0.0953250303864479,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 10344
    },
    {
      "epoch": 10.545361875637106,
      "grad_norm": 0.09126722812652588,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 10345
    },
    {
      "epoch": 10.54638124362895,
      "grad_norm": 0.11052504181861877,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 10346
    },
    {
      "epoch": 10.547400611620795,
      "grad_norm": 0.052226826548576355,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 10347
    },
    {
      "epoch": 10.54841997961264,
      "grad_norm": 0.1034567654132843,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 10348
    },
    {
      "epoch": 10.549439347604485,
      "grad_norm": 0.19304774701595306,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 10349
    },
    {
      "epoch": 10.55045871559633,
      "grad_norm": 0.12615197896957397,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 10350
    },
    {
      "epoch": 10.551478083588176,
      "grad_norm": 0.09383460879325867,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 10351
    },
    {
      "epoch": 10.55249745158002,
      "grad_norm": 0.045579828321933746,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10352
    },
    {
      "epoch": 10.553516819571865,
      "grad_norm": 0.08410173654556274,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 10353
    },
    {
      "epoch": 10.554536187563711,
      "grad_norm": 0.06982851028442383,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 10354
    },
    {
      "epoch": 10.555555555555555,
      "grad_norm": 0.2029089331626892,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 10355
    },
    {
      "epoch": 10.5565749235474,
      "grad_norm": 0.10835083574056625,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10356
    },
    {
      "epoch": 10.557594291539246,
      "grad_norm": 0.11151492595672607,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 10357
    },
    {
      "epoch": 10.55861365953109,
      "grad_norm": 0.14589878916740417,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 10358
    },
    {
      "epoch": 10.559633027522935,
      "grad_norm": 0.11145328730344772,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10359
    },
    {
      "epoch": 10.560652395514781,
      "grad_norm": 0.10766849666833878,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 10360
    },
    {
      "epoch": 10.561671763506626,
      "grad_norm": 0.09362780302762985,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 10361
    },
    {
      "epoch": 10.562691131498472,
      "grad_norm": 0.0918504074215889,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 10362
    },
    {
      "epoch": 10.563710499490316,
      "grad_norm": 0.6896849274635315,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10363
    },
    {
      "epoch": 10.56472986748216,
      "grad_norm": 0.20424029231071472,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 10364
    },
    {
      "epoch": 10.565749235474007,
      "grad_norm": 0.10682938247919083,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10365
    },
    {
      "epoch": 10.566768603465851,
      "grad_norm": 0.09406153112649918,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10366
    },
    {
      "epoch": 10.567787971457696,
      "grad_norm": 0.12004959583282471,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 10367
    },
    {
      "epoch": 10.568807339449542,
      "grad_norm": 0.2729664444923401,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 10368
    },
    {
      "epoch": 10.569826707441386,
      "grad_norm": 0.20277497172355652,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 10369
    },
    {
      "epoch": 10.57084607543323,
      "grad_norm": 0.19201093912124634,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 10370
    },
    {
      "epoch": 10.571865443425077,
      "grad_norm": 0.08115621656179428,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 10371
    },
    {
      "epoch": 10.572884811416921,
      "grad_norm": 0.12402454018592834,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 10372
    },
    {
      "epoch": 10.573904179408766,
      "grad_norm": 0.14257606863975525,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 10373
    },
    {
      "epoch": 10.574923547400612,
      "grad_norm": 0.090415358543396,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 10374
    },
    {
      "epoch": 10.575942915392456,
      "grad_norm": 0.17862264811992645,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 10375
    },
    {
      "epoch": 10.576962283384301,
      "grad_norm": 0.12776143848896027,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 10376
    },
    {
      "epoch": 10.577981651376147,
      "grad_norm": 0.23224227130413055,
      "learning_rate": 0.001,
      "loss": 0.2103,
      "step": 10377
    },
    {
      "epoch": 10.579001019367992,
      "grad_norm": 0.1317400485277176,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 10378
    },
    {
      "epoch": 10.580020387359838,
      "grad_norm": 0.14922861754894257,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 10379
    },
    {
      "epoch": 10.581039755351682,
      "grad_norm": 0.06721440702676773,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 10380
    },
    {
      "epoch": 10.582059123343527,
      "grad_norm": 0.09030243754386902,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 10381
    },
    {
      "epoch": 10.583078491335373,
      "grad_norm": 0.13642992079257965,
      "learning_rate": 0.001,
      "loss": 0.2081,
      "step": 10382
    },
    {
      "epoch": 10.584097859327217,
      "grad_norm": 0.12088825553655624,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 10383
    },
    {
      "epoch": 10.585117227319062,
      "grad_norm": 0.07248393446207047,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 10384
    },
    {
      "epoch": 10.586136595310908,
      "grad_norm": 0.047061748802661896,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10385
    },
    {
      "epoch": 10.587155963302752,
      "grad_norm": 0.11334147304296494,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 10386
    },
    {
      "epoch": 10.588175331294597,
      "grad_norm": 0.0941954180598259,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10387
    },
    {
      "epoch": 10.589194699286443,
      "grad_norm": 0.16298116743564606,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 10388
    },
    {
      "epoch": 10.590214067278287,
      "grad_norm": 0.08570555597543716,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10389
    },
    {
      "epoch": 10.591233435270132,
      "grad_norm": 0.09465339779853821,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 10390
    },
    {
      "epoch": 10.592252803261978,
      "grad_norm": 0.0919763445854187,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 10391
    },
    {
      "epoch": 10.593272171253822,
      "grad_norm": 0.09745033830404282,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 10392
    },
    {
      "epoch": 10.594291539245667,
      "grad_norm": 0.0966118648648262,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10393
    },
    {
      "epoch": 10.595310907237513,
      "grad_norm": 0.06898751109838486,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 10394
    },
    {
      "epoch": 10.596330275229358,
      "grad_norm": 0.05868907645344734,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 10395
    },
    {
      "epoch": 10.597349643221204,
      "grad_norm": 0.17854368686676025,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 10396
    },
    {
      "epoch": 10.598369011213048,
      "grad_norm": 0.1946132481098175,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 10397
    },
    {
      "epoch": 10.599388379204893,
      "grad_norm": 0.13451437652111053,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 10398
    },
    {
      "epoch": 10.600407747196739,
      "grad_norm": 0.11538410931825638,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 10399
    },
    {
      "epoch": 10.601427115188583,
      "grad_norm": 0.0848807767033577,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 10400
    },
    {
      "epoch": 10.602446483180428,
      "grad_norm": 0.10738548636436462,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10401
    },
    {
      "epoch": 10.603465851172274,
      "grad_norm": 0.08866634964942932,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10402
    },
    {
      "epoch": 10.604485219164118,
      "grad_norm": 0.10776524990797043,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 10403
    },
    {
      "epoch": 10.605504587155963,
      "grad_norm": 0.10382167994976044,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 10404
    },
    {
      "epoch": 10.606523955147809,
      "grad_norm": 0.13574418425559998,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 10405
    },
    {
      "epoch": 10.607543323139653,
      "grad_norm": 0.07111693173646927,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 10406
    },
    {
      "epoch": 10.608562691131498,
      "grad_norm": 0.17468544840812683,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 10407
    },
    {
      "epoch": 10.609582059123344,
      "grad_norm": 0.12365792691707611,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 10408
    },
    {
      "epoch": 10.610601427115188,
      "grad_norm": 0.05527622252702713,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 10409
    },
    {
      "epoch": 10.611620795107033,
      "grad_norm": 0.07095016539096832,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 10410
    },
    {
      "epoch": 10.61264016309888,
      "grad_norm": 0.14373837411403656,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 10411
    },
    {
      "epoch": 10.613659531090724,
      "grad_norm": 0.14265835285186768,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 10412
    },
    {
      "epoch": 10.614678899082568,
      "grad_norm": 0.06913257390260696,
      "learning_rate": 0.001,
      "loss": 0.1636,
      "step": 10413
    },
    {
      "epoch": 10.615698267074414,
      "grad_norm": 0.15187335014343262,
      "learning_rate": 0.001,
      "loss": 0.2124,
      "step": 10414
    },
    {
      "epoch": 10.616717635066259,
      "grad_norm": 0.15674491226673126,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 10415
    },
    {
      "epoch": 10.617737003058103,
      "grad_norm": 0.048347357660532,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 10416
    },
    {
      "epoch": 10.61875637104995,
      "grad_norm": 0.07458219677209854,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 10417
    },
    {
      "epoch": 10.619775739041794,
      "grad_norm": 0.11553263664245605,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 10418
    },
    {
      "epoch": 10.62079510703364,
      "grad_norm": 0.16661766171455383,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 10419
    },
    {
      "epoch": 10.621814475025484,
      "grad_norm": 0.07757946848869324,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 10420
    },
    {
      "epoch": 10.622833843017329,
      "grad_norm": 0.07019398361444473,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 10421
    },
    {
      "epoch": 10.623853211009175,
      "grad_norm": 0.09370100498199463,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10422
    },
    {
      "epoch": 10.62487257900102,
      "grad_norm": 0.09978354722261429,
      "learning_rate": 0.001,
      "loss": 0.2098,
      "step": 10423
    },
    {
      "epoch": 10.625891946992864,
      "grad_norm": 0.08223583549261093,
      "learning_rate": 0.001,
      "loss": 0.1595,
      "step": 10424
    },
    {
      "epoch": 10.62691131498471,
      "grad_norm": 0.14410802721977234,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 10425
    },
    {
      "epoch": 10.627930682976555,
      "grad_norm": 0.09889610856771469,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10426
    },
    {
      "epoch": 10.628950050968399,
      "grad_norm": 0.11582707613706589,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 10427
    },
    {
      "epoch": 10.629969418960245,
      "grad_norm": 0.1401609480381012,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 10428
    },
    {
      "epoch": 10.63098878695209,
      "grad_norm": 0.12007046490907669,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 10429
    },
    {
      "epoch": 10.632008154943934,
      "grad_norm": 0.18626463413238525,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10430
    },
    {
      "epoch": 10.63302752293578,
      "grad_norm": 0.11387243121862411,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10431
    },
    {
      "epoch": 10.634046890927625,
      "grad_norm": 0.07422559708356857,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 10432
    },
    {
      "epoch": 10.635066258919469,
      "grad_norm": 0.0650710016489029,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 10433
    },
    {
      "epoch": 10.636085626911315,
      "grad_norm": 0.0957489088177681,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 10434
    },
    {
      "epoch": 10.63710499490316,
      "grad_norm": 0.07138261944055557,
      "learning_rate": 0.001,
      "loss": 0.162,
      "step": 10435
    },
    {
      "epoch": 10.638124362895006,
      "grad_norm": 0.0807214081287384,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 10436
    },
    {
      "epoch": 10.63914373088685,
      "grad_norm": 0.07513733953237534,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10437
    },
    {
      "epoch": 10.640163098878695,
      "grad_norm": 0.07640594244003296,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 10438
    },
    {
      "epoch": 10.641182466870541,
      "grad_norm": 0.0625954121351242,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 10439
    },
    {
      "epoch": 10.642201834862385,
      "grad_norm": 0.06458525359630585,
      "learning_rate": 0.001,
      "loss": 0.1573,
      "step": 10440
    },
    {
      "epoch": 10.64322120285423,
      "grad_norm": 0.0597013384103775,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 10441
    },
    {
      "epoch": 10.644240570846076,
      "grad_norm": 0.06982917338609695,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10442
    },
    {
      "epoch": 10.64525993883792,
      "grad_norm": 0.13646835088729858,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 10443
    },
    {
      "epoch": 10.646279306829765,
      "grad_norm": 0.12921658158302307,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 10444
    },
    {
      "epoch": 10.647298674821611,
      "grad_norm": 0.07885724306106567,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 10445
    },
    {
      "epoch": 10.648318042813456,
      "grad_norm": 0.1532282531261444,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10446
    },
    {
      "epoch": 10.6493374108053,
      "grad_norm": 0.12956002354621887,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 10447
    },
    {
      "epoch": 10.650356778797146,
      "grad_norm": 0.07889706641435623,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 10448
    },
    {
      "epoch": 10.65137614678899,
      "grad_norm": 0.07693538814783096,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 10449
    },
    {
      "epoch": 10.652395514780835,
      "grad_norm": 0.05511656403541565,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 10450
    },
    {
      "epoch": 10.653414882772681,
      "grad_norm": 0.055413249880075455,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 10451
    },
    {
      "epoch": 10.654434250764526,
      "grad_norm": 0.076804980635643,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 10452
    },
    {
      "epoch": 10.655453618756372,
      "grad_norm": 0.13982507586479187,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10453
    },
    {
      "epoch": 10.656472986748216,
      "grad_norm": 0.1418626606464386,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 10454
    },
    {
      "epoch": 10.65749235474006,
      "grad_norm": 0.10480665415525436,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 10455
    },
    {
      "epoch": 10.658511722731905,
      "grad_norm": 0.058306094259023666,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 10456
    },
    {
      "epoch": 10.659531090723751,
      "grad_norm": 0.08228285610675812,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 10457
    },
    {
      "epoch": 10.660550458715596,
      "grad_norm": 0.14903753995895386,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 10458
    },
    {
      "epoch": 10.661569826707442,
      "grad_norm": 0.16412422060966492,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 10459
    },
    {
      "epoch": 10.662589194699287,
      "grad_norm": 0.09468530118465424,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 10460
    },
    {
      "epoch": 10.663608562691131,
      "grad_norm": 0.09896234422922134,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 10461
    },
    {
      "epoch": 10.664627930682977,
      "grad_norm": 0.13020481169223785,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 10462
    },
    {
      "epoch": 10.665647298674822,
      "grad_norm": 0.10670359432697296,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 10463
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.07727228850126266,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10464
    },
    {
      "epoch": 10.667686034658512,
      "grad_norm": 0.15408502519130707,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 10465
    },
    {
      "epoch": 10.668705402650357,
      "grad_norm": 0.19187752902507782,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 10466
    },
    {
      "epoch": 10.669724770642201,
      "grad_norm": 0.14114879071712494,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 10467
    },
    {
      "epoch": 10.670744138634047,
      "grad_norm": 0.0862414538860321,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 10468
    },
    {
      "epoch": 10.671763506625892,
      "grad_norm": 0.16860570013523102,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 10469
    },
    {
      "epoch": 10.672782874617736,
      "grad_norm": 0.10791000723838806,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 10470
    },
    {
      "epoch": 10.673802242609582,
      "grad_norm": 0.07416176795959473,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10471
    },
    {
      "epoch": 10.674821610601427,
      "grad_norm": 0.10571826249361038,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10472
    },
    {
      "epoch": 10.675840978593271,
      "grad_norm": 0.06953801959753036,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 10473
    },
    {
      "epoch": 10.676860346585118,
      "grad_norm": 0.21849945187568665,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 10474
    },
    {
      "epoch": 10.677879714576962,
      "grad_norm": 0.11939865350723267,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 10475
    },
    {
      "epoch": 10.678899082568808,
      "grad_norm": 0.08211861550807953,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 10476
    },
    {
      "epoch": 10.679918450560653,
      "grad_norm": 0.11987288296222687,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10477
    },
    {
      "epoch": 10.680937818552497,
      "grad_norm": 0.11704175919294357,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 10478
    },
    {
      "epoch": 10.681957186544343,
      "grad_norm": 0.20682278275489807,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10479
    },
    {
      "epoch": 10.682976554536188,
      "grad_norm": 0.13778670132160187,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 10480
    },
    {
      "epoch": 10.683995922528032,
      "grad_norm": 0.09716210514307022,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10481
    },
    {
      "epoch": 10.685015290519878,
      "grad_norm": 0.08588549494743347,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 10482
    },
    {
      "epoch": 10.686034658511723,
      "grad_norm": 0.13966165482997894,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 10483
    },
    {
      "epoch": 10.687054026503567,
      "grad_norm": 0.15792641043663025,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 10484
    },
    {
      "epoch": 10.688073394495413,
      "grad_norm": 0.17036886513233185,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 10485
    },
    {
      "epoch": 10.689092762487258,
      "grad_norm": 0.07143843173980713,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 10486
    },
    {
      "epoch": 10.690112130479102,
      "grad_norm": 0.1213483139872551,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 10487
    },
    {
      "epoch": 10.691131498470948,
      "grad_norm": 0.09035346657037735,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10488
    },
    {
      "epoch": 10.692150866462793,
      "grad_norm": 0.12075035274028778,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 10489
    },
    {
      "epoch": 10.693170234454637,
      "grad_norm": 0.16397413611412048,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 10490
    },
    {
      "epoch": 10.694189602446484,
      "grad_norm": 0.1639329046010971,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 10491
    },
    {
      "epoch": 10.695208970438328,
      "grad_norm": 0.13882005214691162,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 10492
    },
    {
      "epoch": 10.696228338430174,
      "grad_norm": 0.19191625714302063,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 10493
    },
    {
      "epoch": 10.697247706422019,
      "grad_norm": 0.08828579634428024,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 10494
    },
    {
      "epoch": 10.698267074413863,
      "grad_norm": 0.13140417635440826,
      "learning_rate": 0.001,
      "loss": 0.205,
      "step": 10495
    },
    {
      "epoch": 10.69928644240571,
      "grad_norm": 0.13805203139781952,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 10496
    },
    {
      "epoch": 10.700305810397554,
      "grad_norm": 0.04903046414256096,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 10497
    },
    {
      "epoch": 10.701325178389398,
      "grad_norm": 0.11914624273777008,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 10498
    },
    {
      "epoch": 10.702344546381244,
      "grad_norm": 0.06924129277467728,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 10499
    },
    {
      "epoch": 10.703363914373089,
      "grad_norm": 0.09118688851594925,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 10500
    },
    {
      "epoch": 10.704383282364933,
      "grad_norm": 0.08192787319421768,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 10501
    },
    {
      "epoch": 10.70540265035678,
      "grad_norm": 0.10930619388818741,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10502
    },
    {
      "epoch": 10.706422018348624,
      "grad_norm": 0.08267863094806671,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10503
    },
    {
      "epoch": 10.707441386340468,
      "grad_norm": 0.11654117703437805,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 10504
    },
    {
      "epoch": 10.708460754332314,
      "grad_norm": 0.13468919694423676,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 10505
    },
    {
      "epoch": 10.709480122324159,
      "grad_norm": 0.13015753030776978,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10506
    },
    {
      "epoch": 10.710499490316003,
      "grad_norm": 0.26241523027420044,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 10507
    },
    {
      "epoch": 10.71151885830785,
      "grad_norm": 0.15306732058525085,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 10508
    },
    {
      "epoch": 10.712538226299694,
      "grad_norm": 0.08779902756214142,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 10509
    },
    {
      "epoch": 10.713557594291538,
      "grad_norm": 0.08150870352983475,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10510
    },
    {
      "epoch": 10.714576962283385,
      "grad_norm": 0.15472041070461273,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 10511
    },
    {
      "epoch": 10.715596330275229,
      "grad_norm": 0.09358915686607361,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10512
    },
    {
      "epoch": 10.716615698267073,
      "grad_norm": 0.06736497581005096,
      "learning_rate": 0.001,
      "loss": 0.1631,
      "step": 10513
    },
    {
      "epoch": 10.71763506625892,
      "grad_norm": 0.06561820209026337,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 10514
    },
    {
      "epoch": 10.718654434250764,
      "grad_norm": 0.07612878829240799,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 10515
    },
    {
      "epoch": 10.71967380224261,
      "grad_norm": 0.18063901364803314,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 10516
    },
    {
      "epoch": 10.720693170234455,
      "grad_norm": 0.08546068519353867,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 10517
    },
    {
      "epoch": 10.7217125382263,
      "grad_norm": 0.10029667615890503,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10518
    },
    {
      "epoch": 10.722731906218145,
      "grad_norm": 0.1412409096956253,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10519
    },
    {
      "epoch": 10.72375127420999,
      "grad_norm": 0.15890732407569885,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 10520
    },
    {
      "epoch": 10.724770642201834,
      "grad_norm": 0.18078957498073578,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 10521
    },
    {
      "epoch": 10.72579001019368,
      "grad_norm": 0.08589431643486023,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 10522
    },
    {
      "epoch": 10.726809378185525,
      "grad_norm": 0.14996835589408875,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 10523
    },
    {
      "epoch": 10.72782874617737,
      "grad_norm": 0.13083353638648987,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 10524
    },
    {
      "epoch": 10.728848114169216,
      "grad_norm": 0.12036940455436707,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10525
    },
    {
      "epoch": 10.72986748216106,
      "grad_norm": 0.08023829013109207,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 10526
    },
    {
      "epoch": 10.730886850152904,
      "grad_norm": 0.09965187311172485,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 10527
    },
    {
      "epoch": 10.73190621814475,
      "grad_norm": 0.09295299649238586,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10528
    },
    {
      "epoch": 10.732925586136595,
      "grad_norm": 0.10940933972597122,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 10529
    },
    {
      "epoch": 10.73394495412844,
      "grad_norm": 0.08209283649921417,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 10530
    },
    {
      "epoch": 10.734964322120286,
      "grad_norm": 0.27167320251464844,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 10531
    },
    {
      "epoch": 10.73598369011213,
      "grad_norm": 0.10411849617958069,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 10532
    },
    {
      "epoch": 10.737003058103976,
      "grad_norm": 0.11018335819244385,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10533
    },
    {
      "epoch": 10.73802242609582,
      "grad_norm": 0.11108525097370148,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 10534
    },
    {
      "epoch": 10.739041794087665,
      "grad_norm": 0.08056969940662384,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 10535
    },
    {
      "epoch": 10.740061162079511,
      "grad_norm": 0.061456866562366486,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 10536
    },
    {
      "epoch": 10.741080530071356,
      "grad_norm": 0.10710146278142929,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10537
    },
    {
      "epoch": 10.7420998980632,
      "grad_norm": 0.09436647593975067,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10538
    },
    {
      "epoch": 10.743119266055047,
      "grad_norm": 0.07198172807693481,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10539
    },
    {
      "epoch": 10.744138634046891,
      "grad_norm": 0.0643228217959404,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 10540
    },
    {
      "epoch": 10.745158002038735,
      "grad_norm": 0.07998533546924591,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 10541
    },
    {
      "epoch": 10.746177370030582,
      "grad_norm": 0.06869149953126907,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10542
    },
    {
      "epoch": 10.747196738022426,
      "grad_norm": 0.09624908119440079,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 10543
    },
    {
      "epoch": 10.74821610601427,
      "grad_norm": 0.0945737361907959,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 10544
    },
    {
      "epoch": 10.749235474006117,
      "grad_norm": 0.13155657052993774,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10545
    },
    {
      "epoch": 10.750254841997961,
      "grad_norm": 0.08448096364736557,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 10546
    },
    {
      "epoch": 10.751274209989806,
      "grad_norm": 0.05668323487043381,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 10547
    },
    {
      "epoch": 10.752293577981652,
      "grad_norm": 0.07646015286445618,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10548
    },
    {
      "epoch": 10.753312945973496,
      "grad_norm": 0.06791985780000687,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10549
    },
    {
      "epoch": 10.754332313965342,
      "grad_norm": 0.055515144020318985,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 10550
    },
    {
      "epoch": 10.755351681957187,
      "grad_norm": 0.06481742858886719,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 10551
    },
    {
      "epoch": 10.756371049949031,
      "grad_norm": 0.07176744192838669,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10552
    },
    {
      "epoch": 10.757390417940877,
      "grad_norm": 0.05869976058602333,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10553
    },
    {
      "epoch": 10.758409785932722,
      "grad_norm": 0.07618233561515808,
      "learning_rate": 0.001,
      "loss": 0.162,
      "step": 10554
    },
    {
      "epoch": 10.759429153924566,
      "grad_norm": 0.14623863995075226,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10555
    },
    {
      "epoch": 10.760448521916413,
      "grad_norm": 0.07021628320217133,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 10556
    },
    {
      "epoch": 10.761467889908257,
      "grad_norm": 0.10364757478237152,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 10557
    },
    {
      "epoch": 10.762487257900101,
      "grad_norm": 0.1396941840648651,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10558
    },
    {
      "epoch": 10.763506625891948,
      "grad_norm": 0.08923698961734772,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 10559
    },
    {
      "epoch": 10.764525993883792,
      "grad_norm": 0.09395094215869904,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 10560
    },
    {
      "epoch": 10.765545361875636,
      "grad_norm": 0.0950232520699501,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 10561
    },
    {
      "epoch": 10.766564729867483,
      "grad_norm": 0.10221921652555466,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 10562
    },
    {
      "epoch": 10.767584097859327,
      "grad_norm": 0.05965077504515648,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 10563
    },
    {
      "epoch": 10.768603465851172,
      "grad_norm": 0.07096923887729645,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10564
    },
    {
      "epoch": 10.769622833843018,
      "grad_norm": 0.15210922062397003,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 10565
    },
    {
      "epoch": 10.770642201834862,
      "grad_norm": 0.07218848168849945,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10566
    },
    {
      "epoch": 10.771661569826707,
      "grad_norm": 0.07161283493041992,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10567
    },
    {
      "epoch": 10.772680937818553,
      "grad_norm": 0.14127561450004578,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 10568
    },
    {
      "epoch": 10.773700305810397,
      "grad_norm": 0.08500630408525467,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 10569
    },
    {
      "epoch": 10.774719673802242,
      "grad_norm": 0.10218924283981323,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 10570
    },
    {
      "epoch": 10.775739041794088,
      "grad_norm": 0.09100590646266937,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 10571
    },
    {
      "epoch": 10.776758409785932,
      "grad_norm": 0.11286888271570206,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10572
    },
    {
      "epoch": 10.777777777777779,
      "grad_norm": 0.10911589860916138,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 10573
    },
    {
      "epoch": 10.778797145769623,
      "grad_norm": 0.21526093780994415,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 10574
    },
    {
      "epoch": 10.779816513761467,
      "grad_norm": 0.06297667324542999,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10575
    },
    {
      "epoch": 10.780835881753314,
      "grad_norm": 0.12147296965122223,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10576
    },
    {
      "epoch": 10.781855249745158,
      "grad_norm": 0.09136762470006943,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 10577
    },
    {
      "epoch": 10.782874617737003,
      "grad_norm": 0.07539607584476471,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10578
    },
    {
      "epoch": 10.783893985728849,
      "grad_norm": 0.13806039094924927,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10579
    },
    {
      "epoch": 10.784913353720693,
      "grad_norm": 0.10904530435800552,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 10580
    },
    {
      "epoch": 10.785932721712538,
      "grad_norm": 0.2690211832523346,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10581
    },
    {
      "epoch": 10.786952089704384,
      "grad_norm": 0.0708572268486023,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 10582
    },
    {
      "epoch": 10.787971457696228,
      "grad_norm": 0.09369085729122162,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 10583
    },
    {
      "epoch": 10.788990825688073,
      "grad_norm": 0.1208830401301384,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 10584
    },
    {
      "epoch": 10.790010193679919,
      "grad_norm": 0.09899535030126572,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 10585
    },
    {
      "epoch": 10.791029561671763,
      "grad_norm": 0.08967097103595734,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10586
    },
    {
      "epoch": 10.792048929663608,
      "grad_norm": 0.08751200884580612,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 10587
    },
    {
      "epoch": 10.793068297655454,
      "grad_norm": 0.04114970937371254,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10588
    },
    {
      "epoch": 10.794087665647298,
      "grad_norm": 0.19763121008872986,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 10589
    },
    {
      "epoch": 10.795107033639145,
      "grad_norm": 0.12430215626955032,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 10590
    },
    {
      "epoch": 10.796126401630989,
      "grad_norm": 0.13953982293605804,
      "learning_rate": 0.001,
      "loss": 0.207,
      "step": 10591
    },
    {
      "epoch": 10.797145769622833,
      "grad_norm": 0.10430894047021866,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 10592
    },
    {
      "epoch": 10.79816513761468,
      "grad_norm": 0.07930772006511688,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 10593
    },
    {
      "epoch": 10.799184505606524,
      "grad_norm": 0.09460966289043427,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 10594
    },
    {
      "epoch": 10.800203873598369,
      "grad_norm": 0.07680113613605499,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 10595
    },
    {
      "epoch": 10.801223241590215,
      "grad_norm": 0.10451216250658035,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10596
    },
    {
      "epoch": 10.80224260958206,
      "grad_norm": 0.09234902262687683,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 10597
    },
    {
      "epoch": 10.803261977573904,
      "grad_norm": 0.05158599093556404,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 10598
    },
    {
      "epoch": 10.80428134556575,
      "grad_norm": 0.1172742024064064,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 10599
    },
    {
      "epoch": 10.805300713557594,
      "grad_norm": 0.117670938372612,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10600
    },
    {
      "epoch": 10.806320081549439,
      "grad_norm": 0.11257832497358322,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 10601
    },
    {
      "epoch": 10.807339449541285,
      "grad_norm": 0.09178278595209122,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 10602
    },
    {
      "epoch": 10.80835881753313,
      "grad_norm": 0.1324775665998459,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 10603
    },
    {
      "epoch": 10.809378185524974,
      "grad_norm": 0.0661468580365181,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 10604
    },
    {
      "epoch": 10.81039755351682,
      "grad_norm": 0.09858466684818268,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 10605
    },
    {
      "epoch": 10.811416921508664,
      "grad_norm": 0.08269134163856506,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 10606
    },
    {
      "epoch": 10.81243628950051,
      "grad_norm": 0.1233762875199318,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 10607
    },
    {
      "epoch": 10.813455657492355,
      "grad_norm": 0.13823853433132172,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10608
    },
    {
      "epoch": 10.8144750254842,
      "grad_norm": 0.08037514984607697,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 10609
    },
    {
      "epoch": 10.815494393476044,
      "grad_norm": 0.1008458063006401,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10610
    },
    {
      "epoch": 10.81651376146789,
      "grad_norm": 0.19502556324005127,
      "learning_rate": 0.001,
      "loss": 0.2019,
      "step": 10611
    },
    {
      "epoch": 10.817533129459735,
      "grad_norm": 0.08578795939683914,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 10612
    },
    {
      "epoch": 10.81855249745158,
      "grad_norm": 0.12948796153068542,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10613
    },
    {
      "epoch": 10.819571865443425,
      "grad_norm": 0.09285426139831543,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 10614
    },
    {
      "epoch": 10.82059123343527,
      "grad_norm": 0.10082513093948364,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 10615
    },
    {
      "epoch": 10.821610601427116,
      "grad_norm": 0.20684105157852173,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 10616
    },
    {
      "epoch": 10.82262996941896,
      "grad_norm": 0.07513447105884552,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 10617
    },
    {
      "epoch": 10.823649337410805,
      "grad_norm": 0.10145904123783112,
      "learning_rate": 0.001,
      "loss": 0.2144,
      "step": 10618
    },
    {
      "epoch": 10.824668705402651,
      "grad_norm": 0.1011335477232933,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 10619
    },
    {
      "epoch": 10.825688073394495,
      "grad_norm": 0.1609310805797577,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 10620
    },
    {
      "epoch": 10.82670744138634,
      "grad_norm": 0.09979727119207382,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 10621
    },
    {
      "epoch": 10.827726809378186,
      "grad_norm": 0.07656837999820709,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 10622
    },
    {
      "epoch": 10.82874617737003,
      "grad_norm": 0.08370675891637802,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 10623
    },
    {
      "epoch": 10.829765545361875,
      "grad_norm": 0.06519290059804916,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 10624
    },
    {
      "epoch": 10.830784913353721,
      "grad_norm": 0.23605281114578247,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 10625
    },
    {
      "epoch": 10.831804281345565,
      "grad_norm": 0.11720047146081924,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 10626
    },
    {
      "epoch": 10.83282364933741,
      "grad_norm": 0.09146188199520111,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 10627
    },
    {
      "epoch": 10.833843017329256,
      "grad_norm": 0.0738704726099968,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 10628
    },
    {
      "epoch": 10.8348623853211,
      "grad_norm": 0.051429424434900284,
      "learning_rate": 0.001,
      "loss": 0.1553,
      "step": 10629
    },
    {
      "epoch": 10.835881753312947,
      "grad_norm": 0.04535169154405594,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 10630
    },
    {
      "epoch": 10.836901121304791,
      "grad_norm": 0.1325795203447342,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10631
    },
    {
      "epoch": 10.837920489296636,
      "grad_norm": 0.09956870973110199,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 10632
    },
    {
      "epoch": 10.838939857288482,
      "grad_norm": 0.06896983832120895,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 10633
    },
    {
      "epoch": 10.839959225280326,
      "grad_norm": 0.11773943156003952,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 10634
    },
    {
      "epoch": 10.84097859327217,
      "grad_norm": 0.07944181561470032,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 10635
    },
    {
      "epoch": 10.841997961264017,
      "grad_norm": 0.12269508838653564,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 10636
    },
    {
      "epoch": 10.843017329255861,
      "grad_norm": 0.12442164868116379,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 10637
    },
    {
      "epoch": 10.844036697247706,
      "grad_norm": 0.10933741182088852,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 10638
    },
    {
      "epoch": 10.845056065239552,
      "grad_norm": 0.09951795637607574,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 10639
    },
    {
      "epoch": 10.846075433231396,
      "grad_norm": 0.07909440994262695,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 10640
    },
    {
      "epoch": 10.84709480122324,
      "grad_norm": 0.05949026718735695,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 10641
    },
    {
      "epoch": 10.848114169215087,
      "grad_norm": 0.07881983369588852,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 10642
    },
    {
      "epoch": 10.849133537206932,
      "grad_norm": 0.13333457708358765,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 10643
    },
    {
      "epoch": 10.850152905198776,
      "grad_norm": 0.055791907012462616,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 10644
    },
    {
      "epoch": 10.851172273190622,
      "grad_norm": 0.07530131936073303,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10645
    },
    {
      "epoch": 10.852191641182467,
      "grad_norm": 0.167769655585289,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 10646
    },
    {
      "epoch": 10.853211009174313,
      "grad_norm": 0.08187643438577652,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 10647
    },
    {
      "epoch": 10.854230377166157,
      "grad_norm": 0.09432072192430496,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 10648
    },
    {
      "epoch": 10.855249745158002,
      "grad_norm": 0.1263621598482132,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 10649
    },
    {
      "epoch": 10.856269113149848,
      "grad_norm": 0.07823945581912994,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 10650
    },
    {
      "epoch": 10.857288481141692,
      "grad_norm": 0.08368535339832306,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 10651
    },
    {
      "epoch": 10.858307849133537,
      "grad_norm": 0.09550511837005615,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 10652
    },
    {
      "epoch": 10.859327217125383,
      "grad_norm": 0.12247597426176071,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10653
    },
    {
      "epoch": 10.860346585117227,
      "grad_norm": 0.09271790087223053,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 10654
    },
    {
      "epoch": 10.861365953109072,
      "grad_norm": 0.11957509815692902,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 10655
    },
    {
      "epoch": 10.862385321100918,
      "grad_norm": 0.12144838273525238,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 10656
    },
    {
      "epoch": 10.863404689092762,
      "grad_norm": 0.14522725343704224,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 10657
    },
    {
      "epoch": 10.864424057084607,
      "grad_norm": 0.07942818850278854,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 10658
    },
    {
      "epoch": 10.865443425076453,
      "grad_norm": 0.04678421840071678,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 10659
    },
    {
      "epoch": 10.866462793068298,
      "grad_norm": 0.06438330560922623,
      "learning_rate": 0.001,
      "loss": 0.1547,
      "step": 10660
    },
    {
      "epoch": 10.867482161060142,
      "grad_norm": 0.06256919354200363,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 10661
    },
    {
      "epoch": 10.868501529051988,
      "grad_norm": 0.10708200186491013,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 10662
    },
    {
      "epoch": 10.869520897043833,
      "grad_norm": 0.11418213695287704,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10663
    },
    {
      "epoch": 10.870540265035677,
      "grad_norm": 0.04967547580599785,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 10664
    },
    {
      "epoch": 10.871559633027523,
      "grad_norm": 0.12111588567495346,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 10665
    },
    {
      "epoch": 10.872579001019368,
      "grad_norm": 0.11423790454864502,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 10666
    },
    {
      "epoch": 10.873598369011212,
      "grad_norm": 0.13326045870780945,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 10667
    },
    {
      "epoch": 10.874617737003058,
      "grad_norm": 0.13104595243930817,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 10668
    },
    {
      "epoch": 10.875637104994903,
      "grad_norm": 0.10884135216474533,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10669
    },
    {
      "epoch": 10.876656472986749,
      "grad_norm": 0.0797843262553215,
      "learning_rate": 0.001,
      "loss": 0.2037,
      "step": 10670
    },
    {
      "epoch": 10.877675840978593,
      "grad_norm": 0.1922876089811325,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 10671
    },
    {
      "epoch": 10.878695208970438,
      "grad_norm": 0.19703471660614014,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 10672
    },
    {
      "epoch": 10.879714576962284,
      "grad_norm": 0.08854983001947403,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 10673
    },
    {
      "epoch": 10.880733944954128,
      "grad_norm": 0.07012814283370972,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 10674
    },
    {
      "epoch": 10.881753312945973,
      "grad_norm": 0.08434544503688812,
      "learning_rate": 0.001,
      "loss": 0.2112,
      "step": 10675
    },
    {
      "epoch": 10.88277268093782,
      "grad_norm": 0.14107435941696167,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 10676
    },
    {
      "epoch": 10.883792048929664,
      "grad_norm": 0.1350468546152115,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 10677
    },
    {
      "epoch": 10.884811416921508,
      "grad_norm": 0.10951962321996689,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 10678
    },
    {
      "epoch": 10.885830784913354,
      "grad_norm": 0.11375351250171661,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 10679
    },
    {
      "epoch": 10.886850152905199,
      "grad_norm": 0.12831203639507294,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 10680
    },
    {
      "epoch": 10.887869520897043,
      "grad_norm": 0.07021462172269821,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 10681
    },
    {
      "epoch": 10.88888888888889,
      "grad_norm": 0.05923369899392128,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 10682
    },
    {
      "epoch": 10.889908256880734,
      "grad_norm": 0.1615617424249649,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 10683
    },
    {
      "epoch": 10.890927624872578,
      "grad_norm": 0.10554727911949158,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 10684
    },
    {
      "epoch": 10.891946992864424,
      "grad_norm": 0.1113261803984642,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 10685
    },
    {
      "epoch": 10.892966360856269,
      "grad_norm": 0.07959114015102386,
      "learning_rate": 0.001,
      "loss": 0.165,
      "step": 10686
    },
    {
      "epoch": 10.893985728848115,
      "grad_norm": 0.06624714285135269,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 10687
    },
    {
      "epoch": 10.89500509683996,
      "grad_norm": 0.09823264926671982,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 10688
    },
    {
      "epoch": 10.896024464831804,
      "grad_norm": 0.13334167003631592,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 10689
    },
    {
      "epoch": 10.89704383282365,
      "grad_norm": 0.11763972789049149,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 10690
    },
    {
      "epoch": 10.898063200815495,
      "grad_norm": 0.12420979142189026,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 10691
    },
    {
      "epoch": 10.899082568807339,
      "grad_norm": 0.09907736629247665,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 10692
    },
    {
      "epoch": 10.900101936799185,
      "grad_norm": 0.1078685075044632,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 10693
    },
    {
      "epoch": 10.90112130479103,
      "grad_norm": 0.07289548218250275,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 10694
    },
    {
      "epoch": 10.902140672782874,
      "grad_norm": 0.08674953877925873,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10695
    },
    {
      "epoch": 10.90316004077472,
      "grad_norm": 0.08415128290653229,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10696
    },
    {
      "epoch": 10.904179408766565,
      "grad_norm": 0.06199503690004349,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 10697
    },
    {
      "epoch": 10.905198776758409,
      "grad_norm": 0.09776818752288818,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 10698
    },
    {
      "epoch": 10.906218144750255,
      "grad_norm": 0.2139771580696106,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 10699
    },
    {
      "epoch": 10.9072375127421,
      "grad_norm": 0.06671053916215897,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 10700
    },
    {
      "epoch": 10.908256880733944,
      "grad_norm": 0.0876806452870369,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10701
    },
    {
      "epoch": 10.90927624872579,
      "grad_norm": 0.1314631849527359,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 10702
    },
    {
      "epoch": 10.910295616717635,
      "grad_norm": 0.13567684590816498,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 10703
    },
    {
      "epoch": 10.911314984709481,
      "grad_norm": 0.06284990161657333,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 10704
    },
    {
      "epoch": 10.912334352701325,
      "grad_norm": 0.07975422590970993,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10705
    },
    {
      "epoch": 10.91335372069317,
      "grad_norm": 0.13109494745731354,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 10706
    },
    {
      "epoch": 10.914373088685016,
      "grad_norm": 0.10757957398891449,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 10707
    },
    {
      "epoch": 10.91539245667686,
      "grad_norm": 0.09487643837928772,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 10708
    },
    {
      "epoch": 10.916411824668705,
      "grad_norm": 0.06009618937969208,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10709
    },
    {
      "epoch": 10.917431192660551,
      "grad_norm": 0.10856614261865616,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 10710
    },
    {
      "epoch": 10.918450560652396,
      "grad_norm": 0.11410755664110184,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 10711
    },
    {
      "epoch": 10.91946992864424,
      "grad_norm": 0.08045002818107605,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 10712
    },
    {
      "epoch": 10.920489296636086,
      "grad_norm": 0.07472635060548782,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 10713
    },
    {
      "epoch": 10.92150866462793,
      "grad_norm": 0.10788565874099731,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 10714
    },
    {
      "epoch": 10.922528032619775,
      "grad_norm": 0.1138799861073494,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10715
    },
    {
      "epoch": 10.923547400611621,
      "grad_norm": 0.09852112084627151,
      "learning_rate": 0.001,
      "loss": 0.1605,
      "step": 10716
    },
    {
      "epoch": 10.924566768603466,
      "grad_norm": 0.09580805152654648,
      "learning_rate": 0.001,
      "loss": 0.2128,
      "step": 10717
    },
    {
      "epoch": 10.92558613659531,
      "grad_norm": 0.04561939463019371,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 10718
    },
    {
      "epoch": 10.926605504587156,
      "grad_norm": 0.11459582298994064,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10719
    },
    {
      "epoch": 10.927624872579,
      "grad_norm": 0.14489756524562836,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 10720
    },
    {
      "epoch": 10.928644240570845,
      "grad_norm": 0.18963848054409027,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 10721
    },
    {
      "epoch": 10.929663608562691,
      "grad_norm": 0.06756039708852768,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 10722
    },
    {
      "epoch": 10.930682976554536,
      "grad_norm": 0.08860808610916138,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 10723
    },
    {
      "epoch": 10.93170234454638,
      "grad_norm": 0.09987837076187134,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 10724
    },
    {
      "epoch": 10.932721712538227,
      "grad_norm": 0.13786444067955017,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10725
    },
    {
      "epoch": 10.933741080530071,
      "grad_norm": 0.6817690134048462,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 10726
    },
    {
      "epoch": 10.934760448521917,
      "grad_norm": 0.10626785457134247,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10727
    },
    {
      "epoch": 10.935779816513762,
      "grad_norm": 0.21079592406749725,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 10728
    },
    {
      "epoch": 10.936799184505606,
      "grad_norm": 0.06630061566829681,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 10729
    },
    {
      "epoch": 10.937818552497452,
      "grad_norm": 0.10384474694728851,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 10730
    },
    {
      "epoch": 10.938837920489297,
      "grad_norm": 0.11387943476438522,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10731
    },
    {
      "epoch": 10.939857288481141,
      "grad_norm": 0.11611124128103256,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10732
    },
    {
      "epoch": 10.940876656472987,
      "grad_norm": 0.11903849989175797,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 10733
    },
    {
      "epoch": 10.941896024464832,
      "grad_norm": 0.11119552701711655,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10734
    },
    {
      "epoch": 10.942915392456676,
      "grad_norm": 0.1058734878897667,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 10735
    },
    {
      "epoch": 10.943934760448522,
      "grad_norm": 0.17464280128479004,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 10736
    },
    {
      "epoch": 10.944954128440367,
      "grad_norm": 0.15122145414352417,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10737
    },
    {
      "epoch": 10.945973496432211,
      "grad_norm": 0.10067477822303772,
      "learning_rate": 0.001,
      "loss": 0.2383,
      "step": 10738
    },
    {
      "epoch": 10.946992864424058,
      "grad_norm": 0.07466878741979599,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 10739
    },
    {
      "epoch": 10.948012232415902,
      "grad_norm": 0.10173102468252182,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10740
    },
    {
      "epoch": 10.949031600407746,
      "grad_norm": 0.16945479810237885,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 10741
    },
    {
      "epoch": 10.950050968399593,
      "grad_norm": 0.10194461047649384,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 10742
    },
    {
      "epoch": 10.951070336391437,
      "grad_norm": 0.05729658901691437,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 10743
    },
    {
      "epoch": 10.952089704383283,
      "grad_norm": 0.10279160737991333,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 10744
    },
    {
      "epoch": 10.953109072375128,
      "grad_norm": 0.14571814239025116,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 10745
    },
    {
      "epoch": 10.954128440366972,
      "grad_norm": 0.3970595896244049,
      "learning_rate": 0.001,
      "loss": 0.2078,
      "step": 10746
    },
    {
      "epoch": 10.955147808358818,
      "grad_norm": 0.2373131513595581,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 10747
    },
    {
      "epoch": 10.956167176350663,
      "grad_norm": 0.05788809061050415,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10748
    },
    {
      "epoch": 10.957186544342507,
      "grad_norm": 0.0993875190615654,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 10749
    },
    {
      "epoch": 10.958205912334353,
      "grad_norm": 0.11359244585037231,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 10750
    },
    {
      "epoch": 10.959225280326198,
      "grad_norm": 0.08356839418411255,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 10751
    },
    {
      "epoch": 10.960244648318042,
      "grad_norm": 0.13368448615074158,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 10752
    },
    {
      "epoch": 10.961264016309888,
      "grad_norm": 0.08254285156726837,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 10753
    },
    {
      "epoch": 10.962283384301733,
      "grad_norm": 0.15542156994342804,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 10754
    },
    {
      "epoch": 10.963302752293577,
      "grad_norm": 0.1413945108652115,
      "learning_rate": 0.001,
      "loss": 0.2091,
      "step": 10755
    },
    {
      "epoch": 10.964322120285424,
      "grad_norm": 0.14326907694339752,
      "learning_rate": 0.001,
      "loss": 0.2074,
      "step": 10756
    },
    {
      "epoch": 10.965341488277268,
      "grad_norm": 0.09626986086368561,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 10757
    },
    {
      "epoch": 10.966360856269112,
      "grad_norm": 0.06705169379711151,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 10758
    },
    {
      "epoch": 10.967380224260959,
      "grad_norm": 0.04858798906207085,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10759
    },
    {
      "epoch": 10.968399592252803,
      "grad_norm": 0.15822023153305054,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 10760
    },
    {
      "epoch": 10.96941896024465,
      "grad_norm": 0.20062893629074097,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 10761
    },
    {
      "epoch": 10.970438328236494,
      "grad_norm": 0.07741520553827286,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 10762
    },
    {
      "epoch": 10.971457696228338,
      "grad_norm": 0.11215236037969589,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10763
    },
    {
      "epoch": 10.972477064220184,
      "grad_norm": 0.06773964315652847,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10764
    },
    {
      "epoch": 10.973496432212029,
      "grad_norm": 0.12300074845552444,
      "learning_rate": 0.001,
      "loss": 0.2039,
      "step": 10765
    },
    {
      "epoch": 10.974515800203873,
      "grad_norm": 0.4982467591762543,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10766
    },
    {
      "epoch": 10.97553516819572,
      "grad_norm": 0.10707174986600876,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10767
    },
    {
      "epoch": 10.976554536187564,
      "grad_norm": 0.056900911033153534,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 10768
    },
    {
      "epoch": 10.977573904179408,
      "grad_norm": 0.31808263063430786,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 10769
    },
    {
      "epoch": 10.978593272171254,
      "grad_norm": 0.13222944736480713,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 10770
    },
    {
      "epoch": 10.979612640163099,
      "grad_norm": 0.06399884074926376,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 10771
    },
    {
      "epoch": 10.980632008154943,
      "grad_norm": 0.07197576761245728,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10772
    },
    {
      "epoch": 10.98165137614679,
      "grad_norm": 0.060739558190107346,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10773
    },
    {
      "epoch": 10.982670744138634,
      "grad_norm": 0.05457788705825806,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 10774
    },
    {
      "epoch": 10.983690112130478,
      "grad_norm": 0.06031901389360428,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 10775
    },
    {
      "epoch": 10.984709480122325,
      "grad_norm": 0.3183620870113373,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 10776
    },
    {
      "epoch": 10.985728848114169,
      "grad_norm": 0.09144096076488495,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 10777
    },
    {
      "epoch": 10.986748216106013,
      "grad_norm": 0.0931142121553421,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10778
    },
    {
      "epoch": 10.98776758409786,
      "grad_norm": 0.10716024041175842,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 10779
    },
    {
      "epoch": 10.988786952089704,
      "grad_norm": 0.0836082249879837,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 10780
    },
    {
      "epoch": 10.989806320081549,
      "grad_norm": 0.08617973327636719,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 10781
    },
    {
      "epoch": 10.990825688073395,
      "grad_norm": 0.08460582792758942,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 10782
    },
    {
      "epoch": 10.99184505606524,
      "grad_norm": 0.1483592838048935,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 10783
    },
    {
      "epoch": 10.992864424057085,
      "grad_norm": 0.09415604919195175,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10784
    },
    {
      "epoch": 10.99388379204893,
      "grad_norm": 0.2675297260284424,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 10785
    },
    {
      "epoch": 10.994903160040774,
      "grad_norm": 0.11917140334844589,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 10786
    },
    {
      "epoch": 10.99592252803262,
      "grad_norm": 0.0984221026301384,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 10787
    },
    {
      "epoch": 10.996941896024465,
      "grad_norm": 0.10851048678159714,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 10788
    },
    {
      "epoch": 10.99796126401631,
      "grad_norm": 0.08670764416456223,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 10789
    },
    {
      "epoch": 10.998980632008156,
      "grad_norm": 0.11314327269792557,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 10790
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.0809057280421257,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 10791
    },
    {
      "epoch": 11.0,
      "eval_-_f1-score": 0.25806451612903225,
      "eval_-_precision": 0.4444444444444444,
      "eval_-_recall": 0.18181818181818182,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9639963073135707,
      "eval_<_precision": 0.9621212121212122,
      "eval_<_recall": 0.9658787255909558,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8316008316008316,
      "eval_=_precision": 0.8583690987124464,
      "eval_=_recall": 0.8064516129032258,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9641646986343567,
      "eval_>_precision": 0.9632745178498153,
      "eval_>_recall": 0.9650565262076053,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9598,
      "eval_loss": 0.10843750089406967,
      "eval_macro_avg_f1-score": 0.7544565884194478,
      "eval_macro_avg_precision": 0.8070523182819795,
      "eval_macro_avg_recall": 0.729801261629992,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 13.0566,
      "eval_samples_per_second": 765.898,
      "eval_steps_per_second": 3.064,
      "eval_weighted_avg_f1-score": 0.9592417719528512,
      "eval_weighted_avg_precision": 0.9589703540567515,
      "eval_weighted_avg_recall": 0.9598,
      "eval_weighted_avg_support": 10000.0,
      "step": 10791
    },
    {
      "epoch": 11.001019367991844,
      "grad_norm": 0.07874786853790283,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10792
    },
    {
      "epoch": 11.00203873598369,
      "grad_norm": 0.10177608579397202,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 10793
    },
    {
      "epoch": 11.003058103975535,
      "grad_norm": 0.09117919951677322,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 10794
    },
    {
      "epoch": 11.00407747196738,
      "grad_norm": 0.0976809710264206,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 10795
    },
    {
      "epoch": 11.005096839959226,
      "grad_norm": 0.06789688766002655,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10796
    },
    {
      "epoch": 11.00611620795107,
      "grad_norm": 0.06903593242168427,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 10797
    },
    {
      "epoch": 11.007135575942915,
      "grad_norm": 0.11633478850126266,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 10798
    },
    {
      "epoch": 11.00815494393476,
      "grad_norm": 0.17073266208171844,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 10799
    },
    {
      "epoch": 11.009174311926605,
      "grad_norm": 0.10595973581075668,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 10800
    },
    {
      "epoch": 11.010193679918451,
      "grad_norm": 0.08751476556062698,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 10801
    },
    {
      "epoch": 11.011213047910296,
      "grad_norm": 0.09345868229866028,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10802
    },
    {
      "epoch": 11.01223241590214,
      "grad_norm": 0.0919683650135994,
      "learning_rate": 0.001,
      "loss": 0.1571,
      "step": 10803
    },
    {
      "epoch": 11.013251783893987,
      "grad_norm": 0.17545290291309357,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 10804
    },
    {
      "epoch": 11.014271151885831,
      "grad_norm": 0.07363239675760269,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 10805
    },
    {
      "epoch": 11.015290519877675,
      "grad_norm": 0.06287465244531631,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10806
    },
    {
      "epoch": 11.016309887869522,
      "grad_norm": 0.10414021462202072,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 10807
    },
    {
      "epoch": 11.017329255861366,
      "grad_norm": 0.11597006767988205,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 10808
    },
    {
      "epoch": 11.01834862385321,
      "grad_norm": 0.07128704339265823,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 10809
    },
    {
      "epoch": 11.019367991845057,
      "grad_norm": 0.135682612657547,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10810
    },
    {
      "epoch": 11.020387359836901,
      "grad_norm": 0.15564493834972382,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 10811
    },
    {
      "epoch": 11.021406727828746,
      "grad_norm": 0.09359095245599747,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10812
    },
    {
      "epoch": 11.022426095820592,
      "grad_norm": 0.049745023250579834,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 10813
    },
    {
      "epoch": 11.023445463812436,
      "grad_norm": 0.11037544161081314,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 10814
    },
    {
      "epoch": 11.02446483180428,
      "grad_norm": 0.10255741328001022,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 10815
    },
    {
      "epoch": 11.025484199796127,
      "grad_norm": 0.08976598083972931,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 10816
    },
    {
      "epoch": 11.026503567787971,
      "grad_norm": 0.08384377509355545,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 10817
    },
    {
      "epoch": 11.027522935779816,
      "grad_norm": 0.1919291615486145,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10818
    },
    {
      "epoch": 11.028542303771662,
      "grad_norm": 0.09104801714420319,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 10819
    },
    {
      "epoch": 11.029561671763506,
      "grad_norm": 0.18917731940746307,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 10820
    },
    {
      "epoch": 11.030581039755353,
      "grad_norm": 0.11191430687904358,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 10821
    },
    {
      "epoch": 11.031600407747197,
      "grad_norm": 0.1096634641289711,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10822
    },
    {
      "epoch": 11.032619775739041,
      "grad_norm": 0.12073613703250885,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 10823
    },
    {
      "epoch": 11.033639143730888,
      "grad_norm": 0.09647228568792343,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 10824
    },
    {
      "epoch": 11.034658511722732,
      "grad_norm": 0.05898985639214516,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 10825
    },
    {
      "epoch": 11.035677879714576,
      "grad_norm": 0.07389668375253677,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 10826
    },
    {
      "epoch": 11.036697247706423,
      "grad_norm": 0.11641539633274078,
      "learning_rate": 0.001,
      "loss": 0.1516,
      "step": 10827
    },
    {
      "epoch": 11.037716615698267,
      "grad_norm": 0.06319037079811096,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 10828
    },
    {
      "epoch": 11.038735983690112,
      "grad_norm": 0.2521527111530304,
      "learning_rate": 0.001,
      "loss": 0.2097,
      "step": 10829
    },
    {
      "epoch": 11.039755351681958,
      "grad_norm": 0.09971266984939575,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 10830
    },
    {
      "epoch": 11.040774719673802,
      "grad_norm": 0.1275731772184372,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 10831
    },
    {
      "epoch": 11.041794087665647,
      "grad_norm": 0.0555916354060173,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 10832
    },
    {
      "epoch": 11.042813455657493,
      "grad_norm": 0.032730862498283386,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 10833
    },
    {
      "epoch": 11.043832823649337,
      "grad_norm": 0.15700827538967133,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 10834
    },
    {
      "epoch": 11.044852191641182,
      "grad_norm": 0.1143643856048584,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10835
    },
    {
      "epoch": 11.045871559633028,
      "grad_norm": 0.07898218929767609,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 10836
    },
    {
      "epoch": 11.046890927624872,
      "grad_norm": 0.09875088185071945,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 10837
    },
    {
      "epoch": 11.047910295616717,
      "grad_norm": 0.06690354645252228,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 10838
    },
    {
      "epoch": 11.048929663608563,
      "grad_norm": 0.4551104009151459,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 10839
    },
    {
      "epoch": 11.049949031600407,
      "grad_norm": 0.15251152217388153,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 10840
    },
    {
      "epoch": 11.050968399592254,
      "grad_norm": 0.11951230466365814,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 10841
    },
    {
      "epoch": 11.051987767584098,
      "grad_norm": 0.09179903566837311,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 10842
    },
    {
      "epoch": 11.053007135575942,
      "grad_norm": 0.08899100869894028,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10843
    },
    {
      "epoch": 11.054026503567789,
      "grad_norm": 0.09521755576133728,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 10844
    },
    {
      "epoch": 11.055045871559633,
      "grad_norm": 0.08761384338140488,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 10845
    },
    {
      "epoch": 11.056065239551478,
      "grad_norm": 0.09953954815864563,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 10846
    },
    {
      "epoch": 11.057084607543324,
      "grad_norm": 0.10715215653181076,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 10847
    },
    {
      "epoch": 11.058103975535168,
      "grad_norm": 0.110347680747509,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10848
    },
    {
      "epoch": 11.059123343527013,
      "grad_norm": 0.07943175733089447,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 10849
    },
    {
      "epoch": 11.060142711518859,
      "grad_norm": 0.11499795317649841,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10850
    },
    {
      "epoch": 11.061162079510703,
      "grad_norm": 0.06548738479614258,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 10851
    },
    {
      "epoch": 11.062181447502548,
      "grad_norm": 0.059374380856752396,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 10852
    },
    {
      "epoch": 11.063200815494394,
      "grad_norm": 0.15277527272701263,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 10853
    },
    {
      "epoch": 11.064220183486238,
      "grad_norm": 0.0981307327747345,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 10854
    },
    {
      "epoch": 11.065239551478083,
      "grad_norm": 0.08276187628507614,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 10855
    },
    {
      "epoch": 11.066258919469929,
      "grad_norm": 0.17226868867874146,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 10856
    },
    {
      "epoch": 11.067278287461773,
      "grad_norm": 0.08404722809791565,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 10857
    },
    {
      "epoch": 11.068297655453618,
      "grad_norm": 0.09412025660276413,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 10858
    },
    {
      "epoch": 11.069317023445464,
      "grad_norm": 0.09756047278642654,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 10859
    },
    {
      "epoch": 11.070336391437309,
      "grad_norm": 0.10376942902803421,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 10860
    },
    {
      "epoch": 11.071355759429155,
      "grad_norm": 0.08163318783044815,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 10861
    },
    {
      "epoch": 11.072375127421,
      "grad_norm": 0.03778492659330368,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 10862
    },
    {
      "epoch": 11.073394495412844,
      "grad_norm": 0.1688850373029709,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10863
    },
    {
      "epoch": 11.07441386340469,
      "grad_norm": 0.25219517946243286,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 10864
    },
    {
      "epoch": 11.075433231396534,
      "grad_norm": 0.15815864503383636,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 10865
    },
    {
      "epoch": 11.076452599388379,
      "grad_norm": 0.05083639919757843,
      "learning_rate": 0.001,
      "loss": 0.1616,
      "step": 10866
    },
    {
      "epoch": 11.077471967380225,
      "grad_norm": 0.10000941902399063,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 10867
    },
    {
      "epoch": 11.07849133537207,
      "grad_norm": 0.062216099351644516,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 10868
    },
    {
      "epoch": 11.079510703363914,
      "grad_norm": 0.0820857509970665,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 10869
    },
    {
      "epoch": 11.08053007135576,
      "grad_norm": 0.09889618307352066,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10870
    },
    {
      "epoch": 11.081549439347604,
      "grad_norm": 0.1709735095500946,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 10871
    },
    {
      "epoch": 11.082568807339449,
      "grad_norm": 0.102542944252491,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 10872
    },
    {
      "epoch": 11.083588175331295,
      "grad_norm": 0.11184264719486237,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 10873
    },
    {
      "epoch": 11.08460754332314,
      "grad_norm": 0.057935792952775955,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 10874
    },
    {
      "epoch": 11.085626911314984,
      "grad_norm": 0.14575710892677307,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 10875
    },
    {
      "epoch": 11.08664627930683,
      "grad_norm": 0.10114065557718277,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 10876
    },
    {
      "epoch": 11.087665647298675,
      "grad_norm": 0.1439102292060852,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 10877
    },
    {
      "epoch": 11.08868501529052,
      "grad_norm": 0.07656174898147583,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 10878
    },
    {
      "epoch": 11.089704383282365,
      "grad_norm": 0.08910734951496124,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 10879
    },
    {
      "epoch": 11.09072375127421,
      "grad_norm": 0.07078096270561218,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 10880
    },
    {
      "epoch": 11.091743119266056,
      "grad_norm": 0.1004599928855896,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 10881
    },
    {
      "epoch": 11.0927624872579,
      "grad_norm": 0.1270039826631546,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 10882
    },
    {
      "epoch": 11.093781855249745,
      "grad_norm": 0.22824063897132874,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 10883
    },
    {
      "epoch": 11.094801223241591,
      "grad_norm": 0.10100404173135757,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 10884
    },
    {
      "epoch": 11.095820591233435,
      "grad_norm": 0.09556716680526733,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 10885
    },
    {
      "epoch": 11.09683995922528,
      "grad_norm": 0.09686234593391418,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 10886
    },
    {
      "epoch": 11.097859327217126,
      "grad_norm": 0.06315132230520248,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 10887
    },
    {
      "epoch": 11.09887869520897,
      "grad_norm": 0.11984404921531677,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 10888
    },
    {
      "epoch": 11.099898063200815,
      "grad_norm": 0.07641121745109558,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 10889
    },
    {
      "epoch": 11.100917431192661,
      "grad_norm": 0.08712827414274216,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 10890
    },
    {
      "epoch": 11.101936799184505,
      "grad_norm": 0.0543525330722332,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 10891
    },
    {
      "epoch": 11.10295616717635,
      "grad_norm": 0.09199061989784241,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 10892
    },
    {
      "epoch": 11.103975535168196,
      "grad_norm": 0.13325761258602142,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 10893
    },
    {
      "epoch": 11.10499490316004,
      "grad_norm": 0.06950100511312485,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 10894
    },
    {
      "epoch": 11.106014271151885,
      "grad_norm": 0.20545825362205505,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 10895
    },
    {
      "epoch": 11.107033639143731,
      "grad_norm": 0.18689823150634766,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 10896
    },
    {
      "epoch": 11.108053007135576,
      "grad_norm": 0.11184313148260117,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 10897
    },
    {
      "epoch": 11.109072375127422,
      "grad_norm": 0.0699147880077362,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 10898
    },
    {
      "epoch": 11.110091743119266,
      "grad_norm": 0.06245225667953491,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 10899
    },
    {
      "epoch": 11.11111111111111,
      "grad_norm": 0.13590337336063385,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 10900
    },
    {
      "epoch": 11.112130479102957,
      "grad_norm": 0.134179949760437,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 10901
    },
    {
      "epoch": 11.113149847094801,
      "grad_norm": 0.11631549894809723,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10902
    },
    {
      "epoch": 11.114169215086646,
      "grad_norm": 0.052483171224594116,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 10903
    },
    {
      "epoch": 11.115188583078492,
      "grad_norm": 0.0538422055542469,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 10904
    },
    {
      "epoch": 11.116207951070336,
      "grad_norm": 0.0814988911151886,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 10905
    },
    {
      "epoch": 11.11722731906218,
      "grad_norm": 0.09168107062578201,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 10906
    },
    {
      "epoch": 11.118246687054027,
      "grad_norm": 0.15895602107048035,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10907
    },
    {
      "epoch": 11.119266055045872,
      "grad_norm": 0.14946524798870087,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 10908
    },
    {
      "epoch": 11.120285423037716,
      "grad_norm": 0.09621183574199677,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 10909
    },
    {
      "epoch": 11.121304791029562,
      "grad_norm": 0.10133376717567444,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 10910
    },
    {
      "epoch": 11.122324159021407,
      "grad_norm": 0.13180305063724518,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 10911
    },
    {
      "epoch": 11.123343527013251,
      "grad_norm": 0.06375580281019211,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 10912
    },
    {
      "epoch": 11.124362895005097,
      "grad_norm": 0.1042431965470314,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 10913
    },
    {
      "epoch": 11.125382262996942,
      "grad_norm": 0.07418553531169891,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 10914
    },
    {
      "epoch": 11.126401630988786,
      "grad_norm": 0.06325113773345947,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 10915
    },
    {
      "epoch": 11.127420998980632,
      "grad_norm": 0.12945428490638733,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 10916
    },
    {
      "epoch": 11.128440366972477,
      "grad_norm": 0.16597667336463928,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 10917
    },
    {
      "epoch": 11.129459734964323,
      "grad_norm": 0.09952117502689362,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 10918
    },
    {
      "epoch": 11.130479102956167,
      "grad_norm": 0.10833895951509476,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 10919
    },
    {
      "epoch": 11.131498470948012,
      "grad_norm": 0.08072265237569809,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 10920
    },
    {
      "epoch": 11.132517838939858,
      "grad_norm": 0.08495920896530151,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 10921
    },
    {
      "epoch": 11.133537206931702,
      "grad_norm": 0.0713968425989151,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 10922
    },
    {
      "epoch": 11.134556574923547,
      "grad_norm": 0.06844646483659744,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10923
    },
    {
      "epoch": 11.135575942915393,
      "grad_norm": 0.102113738656044,
      "learning_rate": 0.001,
      "loss": 0.1605,
      "step": 10924
    },
    {
      "epoch": 11.136595310907238,
      "grad_norm": 0.07487255334854126,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 10925
    },
    {
      "epoch": 11.137614678899082,
      "grad_norm": 0.10016243159770966,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 10926
    },
    {
      "epoch": 11.138634046890928,
      "grad_norm": 0.06647825241088867,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 10927
    },
    {
      "epoch": 11.139653414882773,
      "grad_norm": 0.07688015699386597,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10928
    },
    {
      "epoch": 11.140672782874617,
      "grad_norm": 0.14899945259094238,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 10929
    },
    {
      "epoch": 11.141692150866463,
      "grad_norm": 0.10159870237112045,
      "learning_rate": 0.001,
      "loss": 0.2,
      "step": 10930
    },
    {
      "epoch": 11.142711518858308,
      "grad_norm": 0.18503928184509277,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 10931
    },
    {
      "epoch": 11.143730886850152,
      "grad_norm": 0.049395132809877396,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 10932
    },
    {
      "epoch": 11.144750254841998,
      "grad_norm": 0.1091596782207489,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 10933
    },
    {
      "epoch": 11.145769622833843,
      "grad_norm": 0.06894668191671371,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 10934
    },
    {
      "epoch": 11.146788990825687,
      "grad_norm": 0.07954753190279007,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 10935
    },
    {
      "epoch": 11.147808358817533,
      "grad_norm": 0.05817331746220589,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 10936
    },
    {
      "epoch": 11.148827726809378,
      "grad_norm": 0.11555112898349762,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 10937
    },
    {
      "epoch": 11.149847094801224,
      "grad_norm": 0.268035888671875,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 10938
    },
    {
      "epoch": 11.150866462793068,
      "grad_norm": 0.06224699318408966,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 10939
    },
    {
      "epoch": 11.151885830784913,
      "grad_norm": 0.08132748305797577,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10940
    },
    {
      "epoch": 11.15290519877676,
      "grad_norm": 0.08548325300216675,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 10941
    },
    {
      "epoch": 11.153924566768604,
      "grad_norm": 0.05042194202542305,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 10942
    },
    {
      "epoch": 11.154943934760448,
      "grad_norm": 0.14884711802005768,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 10943
    },
    {
      "epoch": 11.155963302752294,
      "grad_norm": 0.13914763927459717,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 10944
    },
    {
      "epoch": 11.156982670744139,
      "grad_norm": 0.16914841532707214,
      "learning_rate": 0.001,
      "loss": 0.1984,
      "step": 10945
    },
    {
      "epoch": 11.158002038735983,
      "grad_norm": 0.08082634210586548,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 10946
    },
    {
      "epoch": 11.15902140672783,
      "grad_norm": 0.13028067350387573,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 10947
    },
    {
      "epoch": 11.160040774719674,
      "grad_norm": 0.051253121346235275,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 10948
    },
    {
      "epoch": 11.161060142711518,
      "grad_norm": 0.08243131637573242,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 10949
    },
    {
      "epoch": 11.162079510703364,
      "grad_norm": 0.07660561054944992,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 10950
    },
    {
      "epoch": 11.163098878695209,
      "grad_norm": 0.11444149911403656,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 10951
    },
    {
      "epoch": 11.164118246687053,
      "grad_norm": 0.17043448984622955,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 10952
    },
    {
      "epoch": 11.1651376146789,
      "grad_norm": 0.15728096663951874,
      "learning_rate": 0.001,
      "loss": 0.1573,
      "step": 10953
    },
    {
      "epoch": 11.166156982670744,
      "grad_norm": 0.08500459045171738,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 10954
    },
    {
      "epoch": 11.16717635066259,
      "grad_norm": 0.053305890411138535,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 10955
    },
    {
      "epoch": 11.168195718654435,
      "grad_norm": 0.10721401870250702,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 10956
    },
    {
      "epoch": 11.169215086646279,
      "grad_norm": 0.1206243634223938,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 10957
    },
    {
      "epoch": 11.170234454638125,
      "grad_norm": 0.11288578808307648,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 10958
    },
    {
      "epoch": 11.17125382262997,
      "grad_norm": 0.06598608940839767,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 10959
    },
    {
      "epoch": 11.172273190621814,
      "grad_norm": 0.12040062248706818,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 10960
    },
    {
      "epoch": 11.17329255861366,
      "grad_norm": 0.08048779517412186,
      "learning_rate": 0.001,
      "loss": 0.1515,
      "step": 10961
    },
    {
      "epoch": 11.174311926605505,
      "grad_norm": 0.07547878473997116,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 10962
    },
    {
      "epoch": 11.175331294597349,
      "grad_norm": 0.072611004114151,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 10963
    },
    {
      "epoch": 11.176350662589195,
      "grad_norm": 0.07984420657157898,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 10964
    },
    {
      "epoch": 11.17737003058104,
      "grad_norm": 0.055922579020261765,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10965
    },
    {
      "epoch": 11.178389398572884,
      "grad_norm": 0.1804465502500534,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 10966
    },
    {
      "epoch": 11.17940876656473,
      "grad_norm": 0.06419643759727478,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 10967
    },
    {
      "epoch": 11.180428134556575,
      "grad_norm": 0.10114697366952896,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 10968
    },
    {
      "epoch": 11.18144750254842,
      "grad_norm": 0.10290547460317612,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 10969
    },
    {
      "epoch": 11.182466870540265,
      "grad_norm": 0.13643643260002136,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 10970
    },
    {
      "epoch": 11.18348623853211,
      "grad_norm": 0.08243051171302795,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 10971
    },
    {
      "epoch": 11.184505606523954,
      "grad_norm": 0.04527181759476662,
      "learning_rate": 0.001,
      "loss": 0.1501,
      "step": 10972
    },
    {
      "epoch": 11.1855249745158,
      "grad_norm": 0.11414048075675964,
      "learning_rate": 0.001,
      "loss": 0.1588,
      "step": 10973
    },
    {
      "epoch": 11.186544342507645,
      "grad_norm": 0.12102645635604858,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 10974
    },
    {
      "epoch": 11.187563710499491,
      "grad_norm": 0.09509429335594177,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 10975
    },
    {
      "epoch": 11.188583078491336,
      "grad_norm": 0.06272777169942856,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 10976
    },
    {
      "epoch": 11.18960244648318,
      "grad_norm": 0.0806596502661705,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 10977
    },
    {
      "epoch": 11.190621814475026,
      "grad_norm": 0.14862468838691711,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 10978
    },
    {
      "epoch": 11.19164118246687,
      "grad_norm": 0.13712921738624573,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 10979
    },
    {
      "epoch": 11.192660550458715,
      "grad_norm": 0.1930752545595169,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 10980
    },
    {
      "epoch": 11.193679918450561,
      "grad_norm": 0.2602843940258026,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 10981
    },
    {
      "epoch": 11.194699286442406,
      "grad_norm": 0.1569727212190628,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 10982
    },
    {
      "epoch": 11.19571865443425,
      "grad_norm": 0.1826321929693222,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 10983
    },
    {
      "epoch": 11.196738022426096,
      "grad_norm": 0.10434924811124802,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 10984
    },
    {
      "epoch": 11.19775739041794,
      "grad_norm": 0.10318031907081604,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 10985
    },
    {
      "epoch": 11.198776758409785,
      "grad_norm": 0.1360192745923996,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 10986
    },
    {
      "epoch": 11.199796126401631,
      "grad_norm": 0.1110764816403389,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 10987
    },
    {
      "epoch": 11.200815494393476,
      "grad_norm": 0.13550326228141785,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 10988
    },
    {
      "epoch": 11.20183486238532,
      "grad_norm": 0.08577638864517212,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 10989
    },
    {
      "epoch": 11.202854230377167,
      "grad_norm": 0.05716488137841225,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 10990
    },
    {
      "epoch": 11.203873598369011,
      "grad_norm": 0.08312880992889404,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 10991
    },
    {
      "epoch": 11.204892966360855,
      "grad_norm": 0.16700027883052826,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 10992
    },
    {
      "epoch": 11.205912334352702,
      "grad_norm": 0.12848609685897827,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 10993
    },
    {
      "epoch": 11.206931702344546,
      "grad_norm": 0.1112319827079773,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 10994
    },
    {
      "epoch": 11.207951070336392,
      "grad_norm": 0.10817688703536987,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 10995
    },
    {
      "epoch": 11.208970438328237,
      "grad_norm": 0.07673534750938416,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 10996
    },
    {
      "epoch": 11.209989806320081,
      "grad_norm": 0.1037750095129013,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 10997
    },
    {
      "epoch": 11.211009174311927,
      "grad_norm": 0.14800438284873962,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 10998
    },
    {
      "epoch": 11.212028542303772,
      "grad_norm": 0.23054955899715424,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 10999
    },
    {
      "epoch": 11.213047910295616,
      "grad_norm": 0.14050514996051788,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11000
    },
    {
      "epoch": 11.214067278287462,
      "grad_norm": 0.08344843238592148,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 11001
    },
    {
      "epoch": 11.215086646279307,
      "grad_norm": 0.06044478341937065,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 11002
    },
    {
      "epoch": 11.216106014271151,
      "grad_norm": 0.0999288484454155,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 11003
    },
    {
      "epoch": 11.217125382262997,
      "grad_norm": 0.07742319256067276,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11004
    },
    {
      "epoch": 11.218144750254842,
      "grad_norm": 0.09734140336513519,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 11005
    },
    {
      "epoch": 11.219164118246686,
      "grad_norm": 0.10620160400867462,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 11006
    },
    {
      "epoch": 11.220183486238533,
      "grad_norm": 0.05757170543074608,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 11007
    },
    {
      "epoch": 11.221202854230377,
      "grad_norm": 0.2946893274784088,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 11008
    },
    {
      "epoch": 11.222222222222221,
      "grad_norm": 0.15227903425693512,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 11009
    },
    {
      "epoch": 11.223241590214068,
      "grad_norm": 0.2298438400030136,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11010
    },
    {
      "epoch": 11.224260958205912,
      "grad_norm": 0.04237424582242966,
      "learning_rate": 0.001,
      "loss": 0.153,
      "step": 11011
    },
    {
      "epoch": 11.225280326197758,
      "grad_norm": 0.11908464878797531,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 11012
    },
    {
      "epoch": 11.226299694189603,
      "grad_norm": 0.13887833058834076,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 11013
    },
    {
      "epoch": 11.227319062181447,
      "grad_norm": 0.1509338766336441,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11014
    },
    {
      "epoch": 11.228338430173293,
      "grad_norm": 0.06982128322124481,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 11015
    },
    {
      "epoch": 11.229357798165138,
      "grad_norm": 0.22663332521915436,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 11016
    },
    {
      "epoch": 11.230377166156982,
      "grad_norm": 0.081459179520607,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 11017
    },
    {
      "epoch": 11.231396534148828,
      "grad_norm": 0.07065469026565552,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 11018
    },
    {
      "epoch": 11.232415902140673,
      "grad_norm": 0.08877810090780258,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 11019
    },
    {
      "epoch": 11.233435270132517,
      "grad_norm": 0.11296401172876358,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 11020
    },
    {
      "epoch": 11.234454638124364,
      "grad_norm": 0.0922870859503746,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 11021
    },
    {
      "epoch": 11.235474006116208,
      "grad_norm": 0.11366505920886993,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11022
    },
    {
      "epoch": 11.236493374108052,
      "grad_norm": 0.08908488601446152,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 11023
    },
    {
      "epoch": 11.237512742099899,
      "grad_norm": 0.09239702671766281,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 11024
    },
    {
      "epoch": 11.238532110091743,
      "grad_norm": 0.153230220079422,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11025
    },
    {
      "epoch": 11.239551478083587,
      "grad_norm": 0.2007087916135788,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 11026
    },
    {
      "epoch": 11.240570846075434,
      "grad_norm": 0.09047332406044006,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11027
    },
    {
      "epoch": 11.241590214067278,
      "grad_norm": 0.10206516087055206,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 11028
    },
    {
      "epoch": 11.242609582059123,
      "grad_norm": 0.09320385009050369,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 11029
    },
    {
      "epoch": 11.243628950050969,
      "grad_norm": 0.06482189893722534,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 11030
    },
    {
      "epoch": 11.244648318042813,
      "grad_norm": 0.04399356245994568,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11031
    },
    {
      "epoch": 11.24566768603466,
      "grad_norm": 0.09209675341844559,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 11032
    },
    {
      "epoch": 11.246687054026504,
      "grad_norm": 0.07033776491880417,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 11033
    },
    {
      "epoch": 11.247706422018348,
      "grad_norm": 0.086869977414608,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 11034
    },
    {
      "epoch": 11.248725790010194,
      "grad_norm": 0.08358487486839294,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 11035
    },
    {
      "epoch": 11.249745158002039,
      "grad_norm": 0.12031465023756027,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 11036
    },
    {
      "epoch": 11.250764525993883,
      "grad_norm": 0.09362897276878357,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11037
    },
    {
      "epoch": 11.25178389398573,
      "grad_norm": 0.04922674596309662,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 11038
    },
    {
      "epoch": 11.252803261977574,
      "grad_norm": 0.08624380826950073,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 11039
    },
    {
      "epoch": 11.253822629969418,
      "grad_norm": 0.09121953696012497,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11040
    },
    {
      "epoch": 11.254841997961265,
      "grad_norm": 0.11977902054786682,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 11041
    },
    {
      "epoch": 11.255861365953109,
      "grad_norm": 0.11948107182979584,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 11042
    },
    {
      "epoch": 11.256880733944953,
      "grad_norm": 0.1043311208486557,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11043
    },
    {
      "epoch": 11.2579001019368,
      "grad_norm": 0.10056815296411514,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 11044
    },
    {
      "epoch": 11.258919469928644,
      "grad_norm": 0.11463075876235962,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 11045
    },
    {
      "epoch": 11.259938837920489,
      "grad_norm": 0.07289855927228928,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11046
    },
    {
      "epoch": 11.260958205912335,
      "grad_norm": 0.07431848347187042,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 11047
    },
    {
      "epoch": 11.26197757390418,
      "grad_norm": 0.05253332853317261,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 11048
    },
    {
      "epoch": 11.262996941896024,
      "grad_norm": 0.13240304589271545,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 11049
    },
    {
      "epoch": 11.26401630988787,
      "grad_norm": 0.10444984585046768,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11050
    },
    {
      "epoch": 11.265035677879714,
      "grad_norm": 0.07107537984848022,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 11051
    },
    {
      "epoch": 11.26605504587156,
      "grad_norm": 0.06601816415786743,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11052
    },
    {
      "epoch": 11.267074413863405,
      "grad_norm": 0.09447025507688522,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11053
    },
    {
      "epoch": 11.26809378185525,
      "grad_norm": 0.059405602514743805,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 11054
    },
    {
      "epoch": 11.269113149847096,
      "grad_norm": 0.08721008151769638,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 11055
    },
    {
      "epoch": 11.27013251783894,
      "grad_norm": 0.14773200452327728,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 11056
    },
    {
      "epoch": 11.271151885830784,
      "grad_norm": 0.09236151725053787,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11057
    },
    {
      "epoch": 11.27217125382263,
      "grad_norm": 0.0828925296664238,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 11058
    },
    {
      "epoch": 11.273190621814475,
      "grad_norm": 0.13846151530742645,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 11059
    },
    {
      "epoch": 11.27420998980632,
      "grad_norm": 0.07748453319072723,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 11060
    },
    {
      "epoch": 11.275229357798166,
      "grad_norm": 0.03275696560740471,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 11061
    },
    {
      "epoch": 11.27624872579001,
      "grad_norm": 0.12408174574375153,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 11062
    },
    {
      "epoch": 11.277268093781855,
      "grad_norm": 0.0878688171505928,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 11063
    },
    {
      "epoch": 11.2782874617737,
      "grad_norm": 0.08712451905012131,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 11064
    },
    {
      "epoch": 11.279306829765545,
      "grad_norm": 0.0467342846095562,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 11065
    },
    {
      "epoch": 11.28032619775739,
      "grad_norm": 0.08369391411542892,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11066
    },
    {
      "epoch": 11.281345565749236,
      "grad_norm": 0.10204288363456726,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11067
    },
    {
      "epoch": 11.28236493374108,
      "grad_norm": 0.07230567187070847,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11068
    },
    {
      "epoch": 11.283384301732925,
      "grad_norm": 0.11526808142662048,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 11069
    },
    {
      "epoch": 11.284403669724771,
      "grad_norm": 0.06994683295488358,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 11070
    },
    {
      "epoch": 11.285423037716615,
      "grad_norm": 0.05459635704755783,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 11071
    },
    {
      "epoch": 11.286442405708462,
      "grad_norm": 0.15063263475894928,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 11072
    },
    {
      "epoch": 11.287461773700306,
      "grad_norm": 0.07579612731933594,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 11073
    },
    {
      "epoch": 11.28848114169215,
      "grad_norm": 0.11379791051149368,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 11074
    },
    {
      "epoch": 11.289500509683997,
      "grad_norm": 0.10414907336235046,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 11075
    },
    {
      "epoch": 11.290519877675841,
      "grad_norm": 0.03775980696082115,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11076
    },
    {
      "epoch": 11.291539245667686,
      "grad_norm": 0.07711516320705414,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11077
    },
    {
      "epoch": 11.292558613659532,
      "grad_norm": 0.09060940146446228,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 11078
    },
    {
      "epoch": 11.293577981651376,
      "grad_norm": 0.07456417381763458,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 11079
    },
    {
      "epoch": 11.29459734964322,
      "grad_norm": 0.05481606349349022,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11080
    },
    {
      "epoch": 11.295616717635067,
      "grad_norm": 0.21492356061935425,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 11081
    },
    {
      "epoch": 11.296636085626911,
      "grad_norm": 0.13146483898162842,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 11082
    },
    {
      "epoch": 11.297655453618756,
      "grad_norm": 0.0682680532336235,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 11083
    },
    {
      "epoch": 11.298674821610602,
      "grad_norm": 0.08196235448122025,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 11084
    },
    {
      "epoch": 11.299694189602446,
      "grad_norm": 0.05819755420088768,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 11085
    },
    {
      "epoch": 11.30071355759429,
      "grad_norm": 0.09092744439840317,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 11086
    },
    {
      "epoch": 11.301732925586137,
      "grad_norm": 0.0588759183883667,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 11087
    },
    {
      "epoch": 11.302752293577981,
      "grad_norm": 0.07981453835964203,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11088
    },
    {
      "epoch": 11.303771661569826,
      "grad_norm": 0.07331500202417374,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 11089
    },
    {
      "epoch": 11.304791029561672,
      "grad_norm": 0.08740683645009995,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11090
    },
    {
      "epoch": 11.305810397553516,
      "grad_norm": 0.08347094058990479,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 11091
    },
    {
      "epoch": 11.306829765545363,
      "grad_norm": 0.07520810514688492,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 11092
    },
    {
      "epoch": 11.307849133537207,
      "grad_norm": 0.11046595126390457,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 11093
    },
    {
      "epoch": 11.308868501529052,
      "grad_norm": 0.12139732390642166,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 11094
    },
    {
      "epoch": 11.309887869520898,
      "grad_norm": 0.037280987948179245,
      "learning_rate": 0.001,
      "loss": 0.1521,
      "step": 11095
    },
    {
      "epoch": 11.310907237512742,
      "grad_norm": 0.06792187690734863,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 11096
    },
    {
      "epoch": 11.311926605504587,
      "grad_norm": 0.11839398741722107,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11097
    },
    {
      "epoch": 11.312945973496433,
      "grad_norm": 0.11280619353055954,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11098
    },
    {
      "epoch": 11.313965341488277,
      "grad_norm": 0.03431215509772301,
      "learning_rate": 0.001,
      "loss": 0.1625,
      "step": 11099
    },
    {
      "epoch": 11.314984709480122,
      "grad_norm": 0.14424064755439758,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 11100
    },
    {
      "epoch": 11.316004077471968,
      "grad_norm": 0.15298400819301605,
      "learning_rate": 0.001,
      "loss": 0.1576,
      "step": 11101
    },
    {
      "epoch": 11.317023445463812,
      "grad_norm": 0.0375887006521225,
      "learning_rate": 0.001,
      "loss": 0.1598,
      "step": 11102
    },
    {
      "epoch": 11.318042813455657,
      "grad_norm": 0.08313228189945221,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 11103
    },
    {
      "epoch": 11.319062181447503,
      "grad_norm": 0.08097095787525177,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 11104
    },
    {
      "epoch": 11.320081549439347,
      "grad_norm": 0.10702309012413025,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 11105
    },
    {
      "epoch": 11.321100917431192,
      "grad_norm": 0.05067798122763634,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 11106
    },
    {
      "epoch": 11.322120285423038,
      "grad_norm": 0.10531540960073471,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11107
    },
    {
      "epoch": 11.323139653414882,
      "grad_norm": 0.11194454878568649,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11108
    },
    {
      "epoch": 11.324159021406729,
      "grad_norm": 0.20372657477855682,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 11109
    },
    {
      "epoch": 11.325178389398573,
      "grad_norm": 0.09458822011947632,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11110
    },
    {
      "epoch": 11.326197757390418,
      "grad_norm": 0.11756987869739532,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 11111
    },
    {
      "epoch": 11.327217125382264,
      "grad_norm": 0.10188885778188705,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 11112
    },
    {
      "epoch": 11.328236493374108,
      "grad_norm": 0.07596433907747269,
      "learning_rate": 0.001,
      "loss": 0.2146,
      "step": 11113
    },
    {
      "epoch": 11.329255861365953,
      "grad_norm": 0.11817275732755661,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11114
    },
    {
      "epoch": 11.330275229357799,
      "grad_norm": 0.07430904358625412,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 11115
    },
    {
      "epoch": 11.331294597349643,
      "grad_norm": 0.13399769365787506,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 11116
    },
    {
      "epoch": 11.332313965341488,
      "grad_norm": 0.20589488744735718,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 11117
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.11452195793390274,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 11118
    },
    {
      "epoch": 11.334352701325178,
      "grad_norm": 0.07464221119880676,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 11119
    },
    {
      "epoch": 11.335372069317023,
      "grad_norm": 0.16068221628665924,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 11120
    },
    {
      "epoch": 11.336391437308869,
      "grad_norm": 0.12039558589458466,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11121
    },
    {
      "epoch": 11.337410805300713,
      "grad_norm": 0.09770438820123672,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11122
    },
    {
      "epoch": 11.338430173292558,
      "grad_norm": 0.052862316370010376,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 11123
    },
    {
      "epoch": 11.339449541284404,
      "grad_norm": 0.07572881877422333,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 11124
    },
    {
      "epoch": 11.340468909276249,
      "grad_norm": 0.13469964265823364,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 11125
    },
    {
      "epoch": 11.341488277268093,
      "grad_norm": 0.10201763361692429,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 11126
    },
    {
      "epoch": 11.34250764525994,
      "grad_norm": 0.14092789590358734,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11127
    },
    {
      "epoch": 11.343527013251784,
      "grad_norm": 0.08115997910499573,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 11128
    },
    {
      "epoch": 11.34454638124363,
      "grad_norm": 0.07950186729431152,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11129
    },
    {
      "epoch": 11.345565749235474,
      "grad_norm": 0.3755749762058258,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 11130
    },
    {
      "epoch": 11.346585117227319,
      "grad_norm": 0.051235321909189224,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 11131
    },
    {
      "epoch": 11.347604485219165,
      "grad_norm": 0.06149459257721901,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 11132
    },
    {
      "epoch": 11.34862385321101,
      "grad_norm": 0.06240891292691231,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11133
    },
    {
      "epoch": 11.349643221202854,
      "grad_norm": 0.06135832518339157,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 11134
    },
    {
      "epoch": 11.3506625891947,
      "grad_norm": 0.10266752541065216,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11135
    },
    {
      "epoch": 11.351681957186544,
      "grad_norm": 0.08163829147815704,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 11136
    },
    {
      "epoch": 11.352701325178389,
      "grad_norm": 0.18686549365520477,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 11137
    },
    {
      "epoch": 11.353720693170235,
      "grad_norm": 0.17633290588855743,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 11138
    },
    {
      "epoch": 11.35474006116208,
      "grad_norm": 0.08755246549844742,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 11139
    },
    {
      "epoch": 11.355759429153924,
      "grad_norm": 0.12329982221126556,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 11140
    },
    {
      "epoch": 11.35677879714577,
      "grad_norm": 0.12899523973464966,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 11141
    },
    {
      "epoch": 11.357798165137615,
      "grad_norm": 0.10710065066814423,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 11142
    },
    {
      "epoch": 11.358817533129459,
      "grad_norm": 0.10546716302633286,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 11143
    },
    {
      "epoch": 11.359836901121305,
      "grad_norm": 0.08979646861553192,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 11144
    },
    {
      "epoch": 11.36085626911315,
      "grad_norm": 0.10311922430992126,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 11145
    },
    {
      "epoch": 11.361875637104994,
      "grad_norm": 0.07883790880441666,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11146
    },
    {
      "epoch": 11.36289500509684,
      "grad_norm": 0.1381710022687912,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11147
    },
    {
      "epoch": 11.363914373088685,
      "grad_norm": 0.08375535905361176,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 11148
    },
    {
      "epoch": 11.364933741080531,
      "grad_norm": 0.09595236927270889,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 11149
    },
    {
      "epoch": 11.365953109072375,
      "grad_norm": 0.04810827225446701,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 11150
    },
    {
      "epoch": 11.36697247706422,
      "grad_norm": 0.056304026395082474,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 11151
    },
    {
      "epoch": 11.367991845056066,
      "grad_norm": 0.07841882854700089,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 11152
    },
    {
      "epoch": 11.36901121304791,
      "grad_norm": 0.09878815710544586,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 11153
    },
    {
      "epoch": 11.370030581039755,
      "grad_norm": 0.06575588136911392,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11154
    },
    {
      "epoch": 11.371049949031601,
      "grad_norm": 0.12821629643440247,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 11155
    },
    {
      "epoch": 11.372069317023445,
      "grad_norm": 0.08926896005868912,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11156
    },
    {
      "epoch": 11.37308868501529,
      "grad_norm": 0.140384241938591,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 11157
    },
    {
      "epoch": 11.374108053007136,
      "grad_norm": 0.15558776259422302,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 11158
    },
    {
      "epoch": 11.37512742099898,
      "grad_norm": 0.0872514396905899,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 11159
    },
    {
      "epoch": 11.376146788990825,
      "grad_norm": 0.07602722942829132,
      "learning_rate": 0.001,
      "loss": 0.1578,
      "step": 11160
    },
    {
      "epoch": 11.377166156982671,
      "grad_norm": 0.06829715520143509,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 11161
    },
    {
      "epoch": 11.378185524974516,
      "grad_norm": 0.0545852854847908,
      "learning_rate": 0.001,
      "loss": 0.1616,
      "step": 11162
    },
    {
      "epoch": 11.37920489296636,
      "grad_norm": 0.22140870988368988,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 11163
    },
    {
      "epoch": 11.380224260958206,
      "grad_norm": 0.06380272656679153,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 11164
    },
    {
      "epoch": 11.38124362895005,
      "grad_norm": 0.09140556305646896,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11165
    },
    {
      "epoch": 11.382262996941897,
      "grad_norm": 0.05023421719670296,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 11166
    },
    {
      "epoch": 11.383282364933741,
      "grad_norm": 0.08997470885515213,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 11167
    },
    {
      "epoch": 11.384301732925586,
      "grad_norm": 0.12207023054361343,
      "learning_rate": 0.001,
      "loss": 0.1971,
      "step": 11168
    },
    {
      "epoch": 11.385321100917432,
      "grad_norm": 0.13660919666290283,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 11169
    },
    {
      "epoch": 11.386340468909276,
      "grad_norm": 0.11070653051137924,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11170
    },
    {
      "epoch": 11.38735983690112,
      "grad_norm": 0.089263416826725,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 11171
    },
    {
      "epoch": 11.388379204892967,
      "grad_norm": 0.04861922562122345,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 11172
    },
    {
      "epoch": 11.389398572884812,
      "grad_norm": 0.09009711444377899,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 11173
    },
    {
      "epoch": 11.390417940876656,
      "grad_norm": 0.10087644308805466,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 11174
    },
    {
      "epoch": 11.391437308868502,
      "grad_norm": 0.10886568576097488,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 11175
    },
    {
      "epoch": 11.392456676860347,
      "grad_norm": 0.09661334753036499,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 11176
    },
    {
      "epoch": 11.393476044852191,
      "grad_norm": 0.10480192303657532,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 11177
    },
    {
      "epoch": 11.394495412844037,
      "grad_norm": 0.15069113671779633,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 11178
    },
    {
      "epoch": 11.395514780835882,
      "grad_norm": 0.06668771803379059,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 11179
    },
    {
      "epoch": 11.396534148827726,
      "grad_norm": 0.09469250589609146,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 11180
    },
    {
      "epoch": 11.397553516819572,
      "grad_norm": 0.0643770843744278,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 11181
    },
    {
      "epoch": 11.398572884811417,
      "grad_norm": 0.15743513405323029,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 11182
    },
    {
      "epoch": 11.399592252803261,
      "grad_norm": 0.1433425396680832,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 11183
    },
    {
      "epoch": 11.400611620795107,
      "grad_norm": 0.08648641407489777,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11184
    },
    {
      "epoch": 11.401630988786952,
      "grad_norm": 0.12572909891605377,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11185
    },
    {
      "epoch": 11.402650356778796,
      "grad_norm": 0.1897229254245758,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 11186
    },
    {
      "epoch": 11.403669724770642,
      "grad_norm": 0.10818280279636383,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 11187
    },
    {
      "epoch": 11.404689092762487,
      "grad_norm": 0.06839150935411453,
      "learning_rate": 0.001,
      "loss": 0.1552,
      "step": 11188
    },
    {
      "epoch": 11.405708460754333,
      "grad_norm": 0.13127389550209045,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 11189
    },
    {
      "epoch": 11.406727828746178,
      "grad_norm": 0.08271840214729309,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 11190
    },
    {
      "epoch": 11.407747196738022,
      "grad_norm": 0.10445961356163025,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 11191
    },
    {
      "epoch": 11.408766564729868,
      "grad_norm": 0.08909973502159119,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 11192
    },
    {
      "epoch": 11.409785932721713,
      "grad_norm": 0.09462112188339233,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11193
    },
    {
      "epoch": 11.410805300713557,
      "grad_norm": 0.09900543093681335,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 11194
    },
    {
      "epoch": 11.411824668705403,
      "grad_norm": 0.12335526198148727,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 11195
    },
    {
      "epoch": 11.412844036697248,
      "grad_norm": 0.11808808892965317,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 11196
    },
    {
      "epoch": 11.413863404689092,
      "grad_norm": 0.08592114597558975,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 11197
    },
    {
      "epoch": 11.414882772680938,
      "grad_norm": 0.12670046091079712,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 11198
    },
    {
      "epoch": 11.415902140672783,
      "grad_norm": 0.08420110493898392,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 11199
    },
    {
      "epoch": 11.416921508664627,
      "grad_norm": 0.08790405839681625,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 11200
    },
    {
      "epoch": 11.417940876656473,
      "grad_norm": 0.08125916868448257,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 11201
    },
    {
      "epoch": 11.418960244648318,
      "grad_norm": 0.17571806907653809,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 11202
    },
    {
      "epoch": 11.419979612640162,
      "grad_norm": 0.14045695960521698,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 11203
    },
    {
      "epoch": 11.420998980632008,
      "grad_norm": 0.1213107481598854,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11204
    },
    {
      "epoch": 11.422018348623853,
      "grad_norm": 0.10188210755586624,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 11205
    },
    {
      "epoch": 11.423037716615699,
      "grad_norm": 0.10514001548290253,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11206
    },
    {
      "epoch": 11.424057084607544,
      "grad_norm": 0.05875410884618759,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 11207
    },
    {
      "epoch": 11.425076452599388,
      "grad_norm": 0.13332711160182953,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 11208
    },
    {
      "epoch": 11.426095820591234,
      "grad_norm": 0.105436772108078,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 11209
    },
    {
      "epoch": 11.427115188583079,
      "grad_norm": 0.10942158102989197,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 11210
    },
    {
      "epoch": 11.428134556574923,
      "grad_norm": 0.1479680985212326,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 11211
    },
    {
      "epoch": 11.42915392456677,
      "grad_norm": 0.11021732538938522,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 11212
    },
    {
      "epoch": 11.430173292558614,
      "grad_norm": 0.06534222513437271,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 11213
    },
    {
      "epoch": 11.431192660550458,
      "grad_norm": 0.12662498652935028,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 11214
    },
    {
      "epoch": 11.432212028542304,
      "grad_norm": 0.12181141972541809,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 11215
    },
    {
      "epoch": 11.433231396534149,
      "grad_norm": 0.06026120483875275,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11216
    },
    {
      "epoch": 11.434250764525993,
      "grad_norm": 0.0792456567287445,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 11217
    },
    {
      "epoch": 11.43527013251784,
      "grad_norm": 0.1317386031150818,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11218
    },
    {
      "epoch": 11.436289500509684,
      "grad_norm": 0.100962795317173,
      "learning_rate": 0.001,
      "loss": 0.1639,
      "step": 11219
    },
    {
      "epoch": 11.437308868501528,
      "grad_norm": 0.07857342809438705,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11220
    },
    {
      "epoch": 11.438328236493374,
      "grad_norm": 0.17765465378761292,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 11221
    },
    {
      "epoch": 11.439347604485219,
      "grad_norm": 0.052951522171497345,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 11222
    },
    {
      "epoch": 11.440366972477065,
      "grad_norm": 0.06670544296503067,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11223
    },
    {
      "epoch": 11.44138634046891,
      "grad_norm": 0.09585937112569809,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 11224
    },
    {
      "epoch": 11.442405708460754,
      "grad_norm": 0.11632080376148224,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 11225
    },
    {
      "epoch": 11.4434250764526,
      "grad_norm": 0.16690672934055328,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 11226
    },
    {
      "epoch": 11.444444444444445,
      "grad_norm": 0.14681459963321686,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11227
    },
    {
      "epoch": 11.445463812436289,
      "grad_norm": 0.10266295075416565,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11228
    },
    {
      "epoch": 11.446483180428135,
      "grad_norm": 0.08308836817741394,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 11229
    },
    {
      "epoch": 11.44750254841998,
      "grad_norm": 0.04707895964384079,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 11230
    },
    {
      "epoch": 11.448521916411824,
      "grad_norm": 0.06538807600736618,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 11231
    },
    {
      "epoch": 11.44954128440367,
      "grad_norm": 0.08516470342874527,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 11232
    },
    {
      "epoch": 11.450560652395515,
      "grad_norm": 0.11593429744243622,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 11233
    },
    {
      "epoch": 11.45158002038736,
      "grad_norm": 0.11592129617929459,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 11234
    },
    {
      "epoch": 11.452599388379205,
      "grad_norm": 0.0751294493675232,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11235
    },
    {
      "epoch": 11.45361875637105,
      "grad_norm": 0.07498893141746521,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11236
    },
    {
      "epoch": 11.454638124362894,
      "grad_norm": 0.19826297461986542,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 11237
    },
    {
      "epoch": 11.45565749235474,
      "grad_norm": 0.11396025866270065,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11238
    },
    {
      "epoch": 11.456676860346585,
      "grad_norm": 0.11616986244916916,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 11239
    },
    {
      "epoch": 11.45769622833843,
      "grad_norm": 0.09802590310573578,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 11240
    },
    {
      "epoch": 11.458715596330276,
      "grad_norm": 0.09507197141647339,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 11241
    },
    {
      "epoch": 11.45973496432212,
      "grad_norm": 0.09169178456068039,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11242
    },
    {
      "epoch": 11.460754332313964,
      "grad_norm": 0.08741766959428787,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 11243
    },
    {
      "epoch": 11.46177370030581,
      "grad_norm": 0.11798781901597977,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11244
    },
    {
      "epoch": 11.462793068297655,
      "grad_norm": 0.06663332879543304,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 11245
    },
    {
      "epoch": 11.463812436289501,
      "grad_norm": 0.11975111812353134,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 11246
    },
    {
      "epoch": 11.464831804281346,
      "grad_norm": 0.07947178930044174,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 11247
    },
    {
      "epoch": 11.46585117227319,
      "grad_norm": 0.17279347777366638,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 11248
    },
    {
      "epoch": 11.466870540265036,
      "grad_norm": 0.09151402115821838,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11249
    },
    {
      "epoch": 11.46788990825688,
      "grad_norm": 0.12674367427825928,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 11250
    },
    {
      "epoch": 11.468909276248725,
      "grad_norm": 0.12142471224069595,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 11251
    },
    {
      "epoch": 11.469928644240571,
      "grad_norm": 0.0759793296456337,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 11252
    },
    {
      "epoch": 11.470948012232416,
      "grad_norm": 0.09552789479494095,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 11253
    },
    {
      "epoch": 11.47196738022426,
      "grad_norm": 0.23050546646118164,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 11254
    },
    {
      "epoch": 11.472986748216107,
      "grad_norm": 0.10410287976264954,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 11255
    },
    {
      "epoch": 11.474006116207951,
      "grad_norm": 0.06977470964193344,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11256
    },
    {
      "epoch": 11.475025484199795,
      "grad_norm": 0.08298759162425995,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11257
    },
    {
      "epoch": 11.476044852191642,
      "grad_norm": 0.0936044231057167,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 11258
    },
    {
      "epoch": 11.477064220183486,
      "grad_norm": 0.13052834570407867,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11259
    },
    {
      "epoch": 11.47808358817533,
      "grad_norm": 0.15143178403377533,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 11260
    },
    {
      "epoch": 11.479102956167177,
      "grad_norm": 0.07898922264575958,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 11261
    },
    {
      "epoch": 11.480122324159021,
      "grad_norm": 0.08595717698335648,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11262
    },
    {
      "epoch": 11.481141692150867,
      "grad_norm": 0.0723588764667511,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11263
    },
    {
      "epoch": 11.482161060142712,
      "grad_norm": 0.07794434577226639,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 11264
    },
    {
      "epoch": 11.483180428134556,
      "grad_norm": 0.05814768746495247,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 11265
    },
    {
      "epoch": 11.484199796126402,
      "grad_norm": 0.16912437975406647,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11266
    },
    {
      "epoch": 11.485219164118247,
      "grad_norm": 0.09008857607841492,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 11267
    },
    {
      "epoch": 11.486238532110091,
      "grad_norm": 0.048901550471782684,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 11268
    },
    {
      "epoch": 11.487257900101937,
      "grad_norm": 0.12247917056083679,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 11269
    },
    {
      "epoch": 11.488277268093782,
      "grad_norm": 0.10518340766429901,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11270
    },
    {
      "epoch": 11.489296636085626,
      "grad_norm": 0.1381661295890808,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 11271
    },
    {
      "epoch": 11.490316004077473,
      "grad_norm": 0.05889565497636795,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 11272
    },
    {
      "epoch": 11.491335372069317,
      "grad_norm": 0.11724406480789185,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 11273
    },
    {
      "epoch": 11.492354740061161,
      "grad_norm": 0.04485933110117912,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 11274
    },
    {
      "epoch": 11.493374108053008,
      "grad_norm": 0.076316699385643,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11275
    },
    {
      "epoch": 11.494393476044852,
      "grad_norm": 0.05727436766028404,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11276
    },
    {
      "epoch": 11.495412844036696,
      "grad_norm": 0.04819515347480774,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11277
    },
    {
      "epoch": 11.496432212028543,
      "grad_norm": 0.0872839093208313,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 11278
    },
    {
      "epoch": 11.497451580020387,
      "grad_norm": 0.11939792335033417,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 11279
    },
    {
      "epoch": 11.498470948012232,
      "grad_norm": 0.09314297139644623,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 11280
    },
    {
      "epoch": 11.499490316004078,
      "grad_norm": 0.09746089577674866,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11281
    },
    {
      "epoch": 11.500509683995922,
      "grad_norm": 0.2105662226676941,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 11282
    },
    {
      "epoch": 11.501529051987767,
      "grad_norm": 0.08221302926540375,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 11283
    },
    {
      "epoch": 11.502548419979613,
      "grad_norm": 0.0707416832447052,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 11284
    },
    {
      "epoch": 11.503567787971457,
      "grad_norm": 0.2191370129585266,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 11285
    },
    {
      "epoch": 11.504587155963304,
      "grad_norm": 0.13542188704013824,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 11286
    },
    {
      "epoch": 11.505606523955148,
      "grad_norm": 0.11752946674823761,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 11287
    },
    {
      "epoch": 11.506625891946992,
      "grad_norm": 0.11124630272388458,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11288
    },
    {
      "epoch": 11.507645259938839,
      "grad_norm": 0.1015271320939064,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11289
    },
    {
      "epoch": 11.508664627930683,
      "grad_norm": 0.12300711125135422,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 11290
    },
    {
      "epoch": 11.509683995922527,
      "grad_norm": 0.053067099303007126,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 11291
    },
    {
      "epoch": 11.510703363914374,
      "grad_norm": 0.08576822280883789,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 11292
    },
    {
      "epoch": 11.511722731906218,
      "grad_norm": 0.08955799043178558,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11293
    },
    {
      "epoch": 11.512742099898063,
      "grad_norm": 0.14821884036064148,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 11294
    },
    {
      "epoch": 11.513761467889909,
      "grad_norm": 0.08581087738275528,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 11295
    },
    {
      "epoch": 11.514780835881753,
      "grad_norm": 0.08009921759366989,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 11296
    },
    {
      "epoch": 11.515800203873598,
      "grad_norm": 0.06171021610498428,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 11297
    },
    {
      "epoch": 11.516819571865444,
      "grad_norm": 0.14731980860233307,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 11298
    },
    {
      "epoch": 11.517838939857288,
      "grad_norm": 0.13911190629005432,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 11299
    },
    {
      "epoch": 11.518858307849133,
      "grad_norm": 0.12580443918704987,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11300
    },
    {
      "epoch": 11.519877675840979,
      "grad_norm": 0.09139736741781235,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 11301
    },
    {
      "epoch": 11.520897043832823,
      "grad_norm": 0.11649546027183533,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 11302
    },
    {
      "epoch": 11.52191641182467,
      "grad_norm": 0.07875514030456543,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11303
    },
    {
      "epoch": 11.522935779816514,
      "grad_norm": 0.08983445167541504,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11304
    },
    {
      "epoch": 11.523955147808358,
      "grad_norm": 0.11054479330778122,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 11305
    },
    {
      "epoch": 11.524974515800205,
      "grad_norm": 0.10978110134601593,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11306
    },
    {
      "epoch": 11.525993883792049,
      "grad_norm": 0.06533582508563995,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 11307
    },
    {
      "epoch": 11.527013251783893,
      "grad_norm": 0.14168955385684967,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 11308
    },
    {
      "epoch": 11.52803261977574,
      "grad_norm": 0.08609376847743988,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11309
    },
    {
      "epoch": 11.529051987767584,
      "grad_norm": 0.05527031794190407,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11310
    },
    {
      "epoch": 11.530071355759429,
      "grad_norm": 0.187262624502182,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11311
    },
    {
      "epoch": 11.531090723751275,
      "grad_norm": 0.08822554349899292,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 11312
    },
    {
      "epoch": 11.53211009174312,
      "grad_norm": 0.0996868908405304,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 11313
    },
    {
      "epoch": 11.533129459734964,
      "grad_norm": 0.08732131123542786,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 11314
    },
    {
      "epoch": 11.53414882772681,
      "grad_norm": 0.22322611510753632,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 11315
    },
    {
      "epoch": 11.535168195718654,
      "grad_norm": 0.07231517881155014,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 11316
    },
    {
      "epoch": 11.536187563710499,
      "grad_norm": 0.11805982142686844,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11317
    },
    {
      "epoch": 11.537206931702345,
      "grad_norm": 0.102024145424366,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11318
    },
    {
      "epoch": 11.53822629969419,
      "grad_norm": 0.0740489661693573,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 11319
    },
    {
      "epoch": 11.539245667686036,
      "grad_norm": 0.06044447049498558,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 11320
    },
    {
      "epoch": 11.54026503567788,
      "grad_norm": 0.0894923210144043,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11321
    },
    {
      "epoch": 11.541284403669724,
      "grad_norm": 0.13270820677280426,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 11322
    },
    {
      "epoch": 11.54230377166157,
      "grad_norm": 0.17312923073768616,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11323
    },
    {
      "epoch": 11.543323139653415,
      "grad_norm": 0.101105235517025,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11324
    },
    {
      "epoch": 11.54434250764526,
      "grad_norm": 0.15973000228405,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11325
    },
    {
      "epoch": 11.545361875637106,
      "grad_norm": 0.09746593981981277,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11326
    },
    {
      "epoch": 11.54638124362895,
      "grad_norm": 0.14193016290664673,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 11327
    },
    {
      "epoch": 11.547400611620795,
      "grad_norm": 0.13806737959384918,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 11328
    },
    {
      "epoch": 11.54841997961264,
      "grad_norm": 0.07920040935277939,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11329
    },
    {
      "epoch": 11.549439347604485,
      "grad_norm": 0.19056561589241028,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 11330
    },
    {
      "epoch": 11.55045871559633,
      "grad_norm": 0.15700380504131317,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 11331
    },
    {
      "epoch": 11.551478083588176,
      "grad_norm": 0.07279618084430695,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 11332
    },
    {
      "epoch": 11.55249745158002,
      "grad_norm": 0.2668067216873169,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 11333
    },
    {
      "epoch": 11.553516819571865,
      "grad_norm": 0.07082252949476242,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11334
    },
    {
      "epoch": 11.554536187563711,
      "grad_norm": 0.1325969398021698,
      "learning_rate": 0.001,
      "loss": 0.2008,
      "step": 11335
    },
    {
      "epoch": 11.555555555555555,
      "grad_norm": 0.11519475281238556,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11336
    },
    {
      "epoch": 11.5565749235474,
      "grad_norm": 0.047726791352033615,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11337
    },
    {
      "epoch": 11.557594291539246,
      "grad_norm": 0.1182374358177185,
      "learning_rate": 0.001,
      "loss": 0.2117,
      "step": 11338
    },
    {
      "epoch": 11.55861365953109,
      "grad_norm": 0.0761122927069664,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 11339
    },
    {
      "epoch": 11.559633027522935,
      "grad_norm": 0.14183558523654938,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 11340
    },
    {
      "epoch": 11.560652395514781,
      "grad_norm": 0.08274238556623459,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 11341
    },
    {
      "epoch": 11.561671763506626,
      "grad_norm": 0.16322943568229675,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11342
    },
    {
      "epoch": 11.562691131498472,
      "grad_norm": 0.0738724023103714,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 11343
    },
    {
      "epoch": 11.563710499490316,
      "grad_norm": 0.11148220300674438,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 11344
    },
    {
      "epoch": 11.56472986748216,
      "grad_norm": 0.04726631939411163,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 11345
    },
    {
      "epoch": 11.565749235474007,
      "grad_norm": 0.19433635473251343,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 11346
    },
    {
      "epoch": 11.566768603465851,
      "grad_norm": 0.05982087552547455,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 11347
    },
    {
      "epoch": 11.567787971457696,
      "grad_norm": 0.09266697615385056,
      "learning_rate": 0.001,
      "loss": 0.1968,
      "step": 11348
    },
    {
      "epoch": 11.568807339449542,
      "grad_norm": 0.10658768564462662,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 11349
    },
    {
      "epoch": 11.569826707441386,
      "grad_norm": 0.07663935422897339,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 11350
    },
    {
      "epoch": 11.57084607543323,
      "grad_norm": 0.12612926959991455,
      "learning_rate": 0.001,
      "loss": 0.2041,
      "step": 11351
    },
    {
      "epoch": 11.571865443425077,
      "grad_norm": 0.03892093524336815,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 11352
    },
    {
      "epoch": 11.572884811416921,
      "grad_norm": 0.04787525534629822,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 11353
    },
    {
      "epoch": 11.573904179408766,
      "grad_norm": 0.10678921639919281,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 11354
    },
    {
      "epoch": 11.574923547400612,
      "grad_norm": 0.10385196655988693,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 11355
    },
    {
      "epoch": 11.575942915392456,
      "grad_norm": 0.12888103723526,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 11356
    },
    {
      "epoch": 11.576962283384301,
      "grad_norm": 0.08118798583745956,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 11357
    },
    {
      "epoch": 11.577981651376147,
      "grad_norm": 0.1375039517879486,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 11358
    },
    {
      "epoch": 11.579001019367992,
      "grad_norm": 0.09407071769237518,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11359
    },
    {
      "epoch": 11.580020387359838,
      "grad_norm": 0.12188613414764404,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 11360
    },
    {
      "epoch": 11.581039755351682,
      "grad_norm": 0.07857472449541092,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11361
    },
    {
      "epoch": 11.582059123343527,
      "grad_norm": 0.11613937467336655,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 11362
    },
    {
      "epoch": 11.583078491335373,
      "grad_norm": 0.10712464898824692,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 11363
    },
    {
      "epoch": 11.584097859327217,
      "grad_norm": 0.07189896702766418,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 11364
    },
    {
      "epoch": 11.585117227319062,
      "grad_norm": 0.07591553777456284,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 11365
    },
    {
      "epoch": 11.586136595310908,
      "grad_norm": 0.12546995282173157,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 11366
    },
    {
      "epoch": 11.587155963302752,
      "grad_norm": 0.11946521699428558,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 11367
    },
    {
      "epoch": 11.588175331294597,
      "grad_norm": 0.11498089879751205,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 11368
    },
    {
      "epoch": 11.589194699286443,
      "grad_norm": 0.12458989024162292,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 11369
    },
    {
      "epoch": 11.590214067278287,
      "grad_norm": 0.17221187055110931,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 11370
    },
    {
      "epoch": 11.591233435270132,
      "grad_norm": 0.03280220180749893,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 11371
    },
    {
      "epoch": 11.592252803261978,
      "grad_norm": 0.0476408489048481,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11372
    },
    {
      "epoch": 11.593272171253822,
      "grad_norm": 0.07023590058088303,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 11373
    },
    {
      "epoch": 11.594291539245667,
      "grad_norm": 0.07276073098182678,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 11374
    },
    {
      "epoch": 11.595310907237513,
      "grad_norm": 0.14500321447849274,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 11375
    },
    {
      "epoch": 11.596330275229358,
      "grad_norm": 0.14590616524219513,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11376
    },
    {
      "epoch": 11.597349643221204,
      "grad_norm": 0.11485829204320908,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11377
    },
    {
      "epoch": 11.598369011213048,
      "grad_norm": 0.05849646031856537,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 11378
    },
    {
      "epoch": 11.599388379204893,
      "grad_norm": 0.07162509113550186,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 11379
    },
    {
      "epoch": 11.600407747196739,
      "grad_norm": 0.07361415028572083,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11380
    },
    {
      "epoch": 11.601427115188583,
      "grad_norm": 0.1941624879837036,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11381
    },
    {
      "epoch": 11.602446483180428,
      "grad_norm": 0.11932559311389923,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 11382
    },
    {
      "epoch": 11.603465851172274,
      "grad_norm": 0.09931497275829315,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 11383
    },
    {
      "epoch": 11.604485219164118,
      "grad_norm": 0.1614154428243637,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 11384
    },
    {
      "epoch": 11.605504587155963,
      "grad_norm": 0.06318681687116623,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 11385
    },
    {
      "epoch": 11.606523955147809,
      "grad_norm": 0.08130752295255661,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 11386
    },
    {
      "epoch": 11.607543323139653,
      "grad_norm": 0.10261160135269165,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11387
    },
    {
      "epoch": 11.608562691131498,
      "grad_norm": 0.07913962006568909,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 11388
    },
    {
      "epoch": 11.609582059123344,
      "grad_norm": 0.053238146007061005,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11389
    },
    {
      "epoch": 11.610601427115188,
      "grad_norm": 0.10726883262395859,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 11390
    },
    {
      "epoch": 11.611620795107033,
      "grad_norm": 0.04158567637205124,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 11391
    },
    {
      "epoch": 11.61264016309888,
      "grad_norm": 0.074282705783844,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 11392
    },
    {
      "epoch": 11.613659531090724,
      "grad_norm": 0.08778832852840424,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11393
    },
    {
      "epoch": 11.614678899082568,
      "grad_norm": 0.08977626264095306,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 11394
    },
    {
      "epoch": 11.615698267074414,
      "grad_norm": 0.03997510299086571,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 11395
    },
    {
      "epoch": 11.616717635066259,
      "grad_norm": 0.06169555336236954,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 11396
    },
    {
      "epoch": 11.617737003058103,
      "grad_norm": 0.08778999000787735,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 11397
    },
    {
      "epoch": 11.61875637104995,
      "grad_norm": 0.18743865191936493,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 11398
    },
    {
      "epoch": 11.619775739041794,
      "grad_norm": 0.07840298861265182,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11399
    },
    {
      "epoch": 11.62079510703364,
      "grad_norm": 0.10866864025592804,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 11400
    },
    {
      "epoch": 11.621814475025484,
      "grad_norm": 0.06344319134950638,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11401
    },
    {
      "epoch": 11.622833843017329,
      "grad_norm": 0.07170514017343521,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 11402
    },
    {
      "epoch": 11.623853211009175,
      "grad_norm": 0.07026933878660202,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 11403
    },
    {
      "epoch": 11.62487257900102,
      "grad_norm": 0.10022927075624466,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11404
    },
    {
      "epoch": 11.625891946992864,
      "grad_norm": 0.029927095398306847,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 11405
    },
    {
      "epoch": 11.62691131498471,
      "grad_norm": 0.10844321548938751,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 11406
    },
    {
      "epoch": 11.627930682976555,
      "grad_norm": 0.07234388589859009,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 11407
    },
    {
      "epoch": 11.628950050968399,
      "grad_norm": 0.10386201739311218,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 11408
    },
    {
      "epoch": 11.629969418960245,
      "grad_norm": 0.18466980755329132,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 11409
    },
    {
      "epoch": 11.63098878695209,
      "grad_norm": 0.27321553230285645,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 11410
    },
    {
      "epoch": 11.632008154943934,
      "grad_norm": 0.11817055940628052,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 11411
    },
    {
      "epoch": 11.63302752293578,
      "grad_norm": 0.1458689570426941,
      "learning_rate": 0.001,
      "loss": 0.2159,
      "step": 11412
    },
    {
      "epoch": 11.634046890927625,
      "grad_norm": 0.05650647357106209,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 11413
    },
    {
      "epoch": 11.635066258919469,
      "grad_norm": 0.2298518568277359,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 11414
    },
    {
      "epoch": 11.636085626911315,
      "grad_norm": 0.1273740977048874,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 11415
    },
    {
      "epoch": 11.63710499490316,
      "grad_norm": 0.0623481348156929,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 11416
    },
    {
      "epoch": 11.638124362895006,
      "grad_norm": 0.08244438469409943,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11417
    },
    {
      "epoch": 11.63914373088685,
      "grad_norm": 0.05698340758681297,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 11418
    },
    {
      "epoch": 11.640163098878695,
      "grad_norm": 0.07983830571174622,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 11419
    },
    {
      "epoch": 11.641182466870541,
      "grad_norm": 0.12529069185256958,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11420
    },
    {
      "epoch": 11.642201834862385,
      "grad_norm": 0.062394119799137115,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 11421
    },
    {
      "epoch": 11.64322120285423,
      "grad_norm": 0.0695551335811615,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11422
    },
    {
      "epoch": 11.644240570846076,
      "grad_norm": 0.07976503670215607,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 11423
    },
    {
      "epoch": 11.64525993883792,
      "grad_norm": 0.07682085782289505,
      "learning_rate": 0.001,
      "loss": 0.1584,
      "step": 11424
    },
    {
      "epoch": 11.646279306829765,
      "grad_norm": 0.05058246850967407,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 11425
    },
    {
      "epoch": 11.647298674821611,
      "grad_norm": 0.06684485077857971,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 11426
    },
    {
      "epoch": 11.648318042813456,
      "grad_norm": 0.11974479258060455,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 11427
    },
    {
      "epoch": 11.6493374108053,
      "grad_norm": 0.04651251435279846,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 11428
    },
    {
      "epoch": 11.650356778797146,
      "grad_norm": 0.148660346865654,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11429
    },
    {
      "epoch": 11.65137614678899,
      "grad_norm": 0.10528381913900375,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 11430
    },
    {
      "epoch": 11.652395514780835,
      "grad_norm": 0.10404587537050247,
      "learning_rate": 0.001,
      "loss": 0.1969,
      "step": 11431
    },
    {
      "epoch": 11.653414882772681,
      "grad_norm": 0.10467129200696945,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 11432
    },
    {
      "epoch": 11.654434250764526,
      "grad_norm": 0.08632610738277435,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11433
    },
    {
      "epoch": 11.655453618756372,
      "grad_norm": 0.1314292848110199,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 11434
    },
    {
      "epoch": 11.656472986748216,
      "grad_norm": 0.08155809342861176,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 11435
    },
    {
      "epoch": 11.65749235474006,
      "grad_norm": 0.09581820666790009,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11436
    },
    {
      "epoch": 11.658511722731905,
      "grad_norm": 0.04159826040267944,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 11437
    },
    {
      "epoch": 11.659531090723751,
      "grad_norm": 0.1548604816198349,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11438
    },
    {
      "epoch": 11.660550458715596,
      "grad_norm": 0.14517726004123688,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 11439
    },
    {
      "epoch": 11.661569826707442,
      "grad_norm": 0.10138680040836334,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11440
    },
    {
      "epoch": 11.662589194699287,
      "grad_norm": 0.028632255271077156,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 11441
    },
    {
      "epoch": 11.663608562691131,
      "grad_norm": 0.08972087502479553,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11442
    },
    {
      "epoch": 11.664627930682977,
      "grad_norm": 0.13311132788658142,
      "learning_rate": 0.001,
      "loss": 0.2152,
      "step": 11443
    },
    {
      "epoch": 11.665647298674822,
      "grad_norm": 0.11862053722143173,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 11444
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.11709000915288925,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11445
    },
    {
      "epoch": 11.667686034658512,
      "grad_norm": 0.17804385721683502,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 11446
    },
    {
      "epoch": 11.668705402650357,
      "grad_norm": 0.07832575589418411,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11447
    },
    {
      "epoch": 11.669724770642201,
      "grad_norm": 0.11938576400279999,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 11448
    },
    {
      "epoch": 11.670744138634047,
      "grad_norm": 0.12900733947753906,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 11449
    },
    {
      "epoch": 11.671763506625892,
      "grad_norm": 0.07193008810281754,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11450
    },
    {
      "epoch": 11.672782874617736,
      "grad_norm": 0.04347509890794754,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 11451
    },
    {
      "epoch": 11.673802242609582,
      "grad_norm": 0.11074846237897873,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 11452
    },
    {
      "epoch": 11.674821610601427,
      "grad_norm": 0.09768863022327423,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 11453
    },
    {
      "epoch": 11.675840978593271,
      "grad_norm": 0.12138854712247849,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 11454
    },
    {
      "epoch": 11.676860346585118,
      "grad_norm": 0.15365946292877197,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 11455
    },
    {
      "epoch": 11.677879714576962,
      "grad_norm": 0.08810056746006012,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 11456
    },
    {
      "epoch": 11.678899082568808,
      "grad_norm": 0.08971451967954636,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 11457
    },
    {
      "epoch": 11.679918450560653,
      "grad_norm": 0.1355927735567093,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 11458
    },
    {
      "epoch": 11.680937818552497,
      "grad_norm": 0.025756366550922394,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 11459
    },
    {
      "epoch": 11.681957186544343,
      "grad_norm": 0.1211472824215889,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11460
    },
    {
      "epoch": 11.682976554536188,
      "grad_norm": 0.07502607256174088,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 11461
    },
    {
      "epoch": 11.683995922528032,
      "grad_norm": 0.057871829718351364,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 11462
    },
    {
      "epoch": 11.685015290519878,
      "grad_norm": 0.14531053602695465,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 11463
    },
    {
      "epoch": 11.686034658511723,
      "grad_norm": 0.1235278993844986,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 11464
    },
    {
      "epoch": 11.687054026503567,
      "grad_norm": 0.07346314936876297,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 11465
    },
    {
      "epoch": 11.688073394495413,
      "grad_norm": 0.1799599975347519,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11466
    },
    {
      "epoch": 11.689092762487258,
      "grad_norm": 0.12750466167926788,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 11467
    },
    {
      "epoch": 11.690112130479102,
      "grad_norm": 0.17492331564426422,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 11468
    },
    {
      "epoch": 11.691131498470948,
      "grad_norm": 0.07469484955072403,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 11469
    },
    {
      "epoch": 11.692150866462793,
      "grad_norm": 0.1364845186471939,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11470
    },
    {
      "epoch": 11.693170234454637,
      "grad_norm": 0.061352331191301346,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 11471
    },
    {
      "epoch": 11.694189602446484,
      "grad_norm": 0.08166727423667908,
      "learning_rate": 0.001,
      "loss": 0.1569,
      "step": 11472
    },
    {
      "epoch": 11.695208970438328,
      "grad_norm": 0.10289914906024933,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11473
    },
    {
      "epoch": 11.696228338430174,
      "grad_norm": 0.04601151496171951,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 11474
    },
    {
      "epoch": 11.697247706422019,
      "grad_norm": 0.14670497179031372,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11475
    },
    {
      "epoch": 11.698267074413863,
      "grad_norm": 0.046313975006341934,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 11476
    },
    {
      "epoch": 11.69928644240571,
      "grad_norm": 0.14803917706012726,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 11477
    },
    {
      "epoch": 11.700305810397554,
      "grad_norm": 0.14645922183990479,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 11478
    },
    {
      "epoch": 11.701325178389398,
      "grad_norm": 0.08006996661424637,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11479
    },
    {
      "epoch": 11.702344546381244,
      "grad_norm": 0.11874381452798843,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 11480
    },
    {
      "epoch": 11.703363914373089,
      "grad_norm": 0.07511509209871292,
      "learning_rate": 0.001,
      "loss": 0.1572,
      "step": 11481
    },
    {
      "epoch": 11.704383282364933,
      "grad_norm": 0.06915509700775146,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11482
    },
    {
      "epoch": 11.70540265035678,
      "grad_norm": 0.06021728366613388,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 11483
    },
    {
      "epoch": 11.706422018348624,
      "grad_norm": 0.10544208437204361,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 11484
    },
    {
      "epoch": 11.707441386340468,
      "grad_norm": 0.11398616433143616,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 11485
    },
    {
      "epoch": 11.708460754332314,
      "grad_norm": 0.07029523700475693,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 11486
    },
    {
      "epoch": 11.709480122324159,
      "grad_norm": 0.0626067966222763,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 11487
    },
    {
      "epoch": 11.710499490316003,
      "grad_norm": 0.3264068365097046,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11488
    },
    {
      "epoch": 11.71151885830785,
      "grad_norm": 0.08521899580955505,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 11489
    },
    {
      "epoch": 11.712538226299694,
      "grad_norm": 0.06885884702205658,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 11490
    },
    {
      "epoch": 11.713557594291538,
      "grad_norm": 0.09955083578824997,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 11491
    },
    {
      "epoch": 11.714576962283385,
      "grad_norm": 0.07183429598808289,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11492
    },
    {
      "epoch": 11.715596330275229,
      "grad_norm": 0.047018978744745255,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 11493
    },
    {
      "epoch": 11.716615698267073,
      "grad_norm": 0.08541325479745865,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 11494
    },
    {
      "epoch": 11.71763506625892,
      "grad_norm": 0.06646255403757095,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 11495
    },
    {
      "epoch": 11.718654434250764,
      "grad_norm": 0.053383588790893555,
      "learning_rate": 0.001,
      "loss": 0.1616,
      "step": 11496
    },
    {
      "epoch": 11.71967380224261,
      "grad_norm": 0.08617682754993439,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 11497
    },
    {
      "epoch": 11.720693170234455,
      "grad_norm": 0.24833033978939056,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 11498
    },
    {
      "epoch": 11.7217125382263,
      "grad_norm": 0.2349180281162262,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 11499
    },
    {
      "epoch": 11.722731906218145,
      "grad_norm": 0.17701289057731628,
      "learning_rate": 0.001,
      "loss": 0.2053,
      "step": 11500
    },
    {
      "epoch": 11.72375127420999,
      "grad_norm": 0.0523902103304863,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 11501
    },
    {
      "epoch": 11.724770642201834,
      "grad_norm": 0.0342542864382267,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 11502
    },
    {
      "epoch": 11.72579001019368,
      "grad_norm": 0.09429933875799179,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 11503
    },
    {
      "epoch": 11.726809378185525,
      "grad_norm": 0.09728359431028366,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11504
    },
    {
      "epoch": 11.72782874617737,
      "grad_norm": 0.057513527572155,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 11505
    },
    {
      "epoch": 11.728848114169216,
      "grad_norm": 0.11452311277389526,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 11506
    },
    {
      "epoch": 11.72986748216106,
      "grad_norm": 0.10811330378055573,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 11507
    },
    {
      "epoch": 11.730886850152904,
      "grad_norm": 0.07348402589559555,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11508
    },
    {
      "epoch": 11.73190621814475,
      "grad_norm": 0.08026781678199768,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11509
    },
    {
      "epoch": 11.732925586136595,
      "grad_norm": 0.057023271918296814,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 11510
    },
    {
      "epoch": 11.73394495412844,
      "grad_norm": 0.11800722032785416,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 11511
    },
    {
      "epoch": 11.734964322120286,
      "grad_norm": 0.07103780657052994,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 11512
    },
    {
      "epoch": 11.73598369011213,
      "grad_norm": 0.0882653221487999,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11513
    },
    {
      "epoch": 11.737003058103976,
      "grad_norm": 0.08613601326942444,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 11514
    },
    {
      "epoch": 11.73802242609582,
      "grad_norm": 0.07387926429510117,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11515
    },
    {
      "epoch": 11.739041794087665,
      "grad_norm": 0.08216623961925507,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 11516
    },
    {
      "epoch": 11.740061162079511,
      "grad_norm": 0.09856508672237396,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 11517
    },
    {
      "epoch": 11.741080530071356,
      "grad_norm": 0.1274936944246292,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 11518
    },
    {
      "epoch": 11.7420998980632,
      "grad_norm": 0.07611824572086334,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 11519
    },
    {
      "epoch": 11.743119266055047,
      "grad_norm": 0.05808812007308006,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 11520
    },
    {
      "epoch": 11.744138634046891,
      "grad_norm": 0.17530424892902374,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 11521
    },
    {
      "epoch": 11.745158002038735,
      "grad_norm": 0.09132275730371475,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11522
    },
    {
      "epoch": 11.746177370030582,
      "grad_norm": 0.08705314993858337,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 11523
    },
    {
      "epoch": 11.747196738022426,
      "grad_norm": 0.13957339525222778,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 11524
    },
    {
      "epoch": 11.74821610601427,
      "grad_norm": 0.09495263546705246,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11525
    },
    {
      "epoch": 11.749235474006117,
      "grad_norm": 0.13707169890403748,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 11526
    },
    {
      "epoch": 11.750254841997961,
      "grad_norm": 0.19387318193912506,
      "learning_rate": 0.001,
      "loss": 0.1992,
      "step": 11527
    },
    {
      "epoch": 11.751274209989806,
      "grad_norm": 0.06105390936136246,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 11528
    },
    {
      "epoch": 11.752293577981652,
      "grad_norm": 0.08532678335905075,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 11529
    },
    {
      "epoch": 11.753312945973496,
      "grad_norm": 0.16858646273612976,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 11530
    },
    {
      "epoch": 11.754332313965342,
      "grad_norm": 0.15340296924114227,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 11531
    },
    {
      "epoch": 11.755351681957187,
      "grad_norm": 0.12475983053445816,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 11532
    },
    {
      "epoch": 11.756371049949031,
      "grad_norm": 0.10711745917797089,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 11533
    },
    {
      "epoch": 11.757390417940877,
      "grad_norm": 0.13573607802391052,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 11534
    },
    {
      "epoch": 11.758409785932722,
      "grad_norm": 0.12997260689735413,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 11535
    },
    {
      "epoch": 11.759429153924566,
      "grad_norm": 0.0672631785273552,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 11536
    },
    {
      "epoch": 11.760448521916413,
      "grad_norm": 0.11584045737981796,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 11537
    },
    {
      "epoch": 11.761467889908257,
      "grad_norm": 0.10561804473400116,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 11538
    },
    {
      "epoch": 11.762487257900101,
      "grad_norm": 0.11478272825479507,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11539
    },
    {
      "epoch": 11.763506625891948,
      "grad_norm": 0.05706821009516716,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11540
    },
    {
      "epoch": 11.764525993883792,
      "grad_norm": 0.09853869676589966,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 11541
    },
    {
      "epoch": 11.765545361875636,
      "grad_norm": 0.12379374355077744,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 11542
    },
    {
      "epoch": 11.766564729867483,
      "grad_norm": 0.061601459980010986,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 11543
    },
    {
      "epoch": 11.767584097859327,
      "grad_norm": 0.09125592559576035,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 11544
    },
    {
      "epoch": 11.768603465851172,
      "grad_norm": 0.05732579901814461,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 11545
    },
    {
      "epoch": 11.769622833843018,
      "grad_norm": 0.05656404420733452,
      "learning_rate": 0.001,
      "loss": 0.1582,
      "step": 11546
    },
    {
      "epoch": 11.770642201834862,
      "grad_norm": 0.1159774512052536,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 11547
    },
    {
      "epoch": 11.771661569826707,
      "grad_norm": 0.05996526777744293,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11548
    },
    {
      "epoch": 11.772680937818553,
      "grad_norm": 0.08979055285453796,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 11549
    },
    {
      "epoch": 11.773700305810397,
      "grad_norm": 0.07634840160608292,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 11550
    },
    {
      "epoch": 11.774719673802242,
      "grad_norm": 0.1865035891532898,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 11551
    },
    {
      "epoch": 11.775739041794088,
      "grad_norm": 0.10011333972215652,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11552
    },
    {
      "epoch": 11.776758409785932,
      "grad_norm": 0.08043770492076874,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 11553
    },
    {
      "epoch": 11.777777777777779,
      "grad_norm": 0.0775560587644577,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11554
    },
    {
      "epoch": 11.778797145769623,
      "grad_norm": 0.08614908903837204,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 11555
    },
    {
      "epoch": 11.779816513761467,
      "grad_norm": 0.12755277752876282,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 11556
    },
    {
      "epoch": 11.780835881753314,
      "grad_norm": 0.05456358939409256,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 11557
    },
    {
      "epoch": 11.781855249745158,
      "grad_norm": 0.13835130631923676,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11558
    },
    {
      "epoch": 11.782874617737003,
      "grad_norm": 0.11168307811021805,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11559
    },
    {
      "epoch": 11.783893985728849,
      "grad_norm": 0.04356206953525543,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 11560
    },
    {
      "epoch": 11.784913353720693,
      "grad_norm": 0.07773090153932571,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 11561
    },
    {
      "epoch": 11.785932721712538,
      "grad_norm": 0.06780889630317688,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 11562
    },
    {
      "epoch": 11.786952089704384,
      "grad_norm": 0.21072512865066528,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 11563
    },
    {
      "epoch": 11.787971457696228,
      "grad_norm": 0.06500455737113953,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 11564
    },
    {
      "epoch": 11.788990825688073,
      "grad_norm": 0.07753103971481323,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 11565
    },
    {
      "epoch": 11.790010193679919,
      "grad_norm": 0.07603470981121063,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 11566
    },
    {
      "epoch": 11.791029561671763,
      "grad_norm": 0.199299156665802,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 11567
    },
    {
      "epoch": 11.792048929663608,
      "grad_norm": 0.15267689526081085,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 11568
    },
    {
      "epoch": 11.793068297655454,
      "grad_norm": 0.16165083646774292,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11569
    },
    {
      "epoch": 11.794087665647298,
      "grad_norm": 0.16155852377414703,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11570
    },
    {
      "epoch": 11.795107033639145,
      "grad_norm": 0.05205131322145462,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 11571
    },
    {
      "epoch": 11.796126401630989,
      "grad_norm": 0.12205643206834793,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 11572
    },
    {
      "epoch": 11.797145769622833,
      "grad_norm": 0.04288680851459503,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 11573
    },
    {
      "epoch": 11.79816513761468,
      "grad_norm": 0.13406972587108612,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 11574
    },
    {
      "epoch": 11.799184505606524,
      "grad_norm": 0.15386639535427094,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 11575
    },
    {
      "epoch": 11.800203873598369,
      "grad_norm": 0.12247541546821594,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11576
    },
    {
      "epoch": 11.801223241590215,
      "grad_norm": 0.04846389591693878,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 11577
    },
    {
      "epoch": 11.80224260958206,
      "grad_norm": 0.06533034145832062,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 11578
    },
    {
      "epoch": 11.803261977573904,
      "grad_norm": 0.0734872967004776,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 11579
    },
    {
      "epoch": 11.80428134556575,
      "grad_norm": 0.15941882133483887,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 11580
    },
    {
      "epoch": 11.805300713557594,
      "grad_norm": 0.1087765097618103,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 11581
    },
    {
      "epoch": 11.806320081549439,
      "grad_norm": 0.12287662923336029,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 11582
    },
    {
      "epoch": 11.807339449541285,
      "grad_norm": 0.28821343183517456,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 11583
    },
    {
      "epoch": 11.80835881753313,
      "grad_norm": 0.07748347520828247,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 11584
    },
    {
      "epoch": 11.809378185524974,
      "grad_norm": 0.109621062874794,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 11585
    },
    {
      "epoch": 11.81039755351682,
      "grad_norm": 0.1039525642991066,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11586
    },
    {
      "epoch": 11.811416921508664,
      "grad_norm": 0.12003644555807114,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 11587
    },
    {
      "epoch": 11.81243628950051,
      "grad_norm": 0.08220097422599792,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11588
    },
    {
      "epoch": 11.813455657492355,
      "grad_norm": 0.07977867871522903,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 11589
    },
    {
      "epoch": 11.8144750254842,
      "grad_norm": 0.08133744448423386,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 11590
    },
    {
      "epoch": 11.815494393476044,
      "grad_norm": 0.06047814339399338,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 11591
    },
    {
      "epoch": 11.81651376146789,
      "grad_norm": 0.11083110421895981,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 11592
    },
    {
      "epoch": 11.817533129459735,
      "grad_norm": 0.09514427930116653,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 11593
    },
    {
      "epoch": 11.81855249745158,
      "grad_norm": 0.08405409753322601,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 11594
    },
    {
      "epoch": 11.819571865443425,
      "grad_norm": 0.04221083223819733,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 11595
    },
    {
      "epoch": 11.82059123343527,
      "grad_norm": 0.06235329061746597,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11596
    },
    {
      "epoch": 11.821610601427116,
      "grad_norm": 0.0969272032380104,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 11597
    },
    {
      "epoch": 11.82262996941896,
      "grad_norm": 0.07448332756757736,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11598
    },
    {
      "epoch": 11.823649337410805,
      "grad_norm": 0.09662043303251266,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 11599
    },
    {
      "epoch": 11.824668705402651,
      "grad_norm": 0.07916311174631119,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 11600
    },
    {
      "epoch": 11.825688073394495,
      "grad_norm": 0.09514103829860687,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 11601
    },
    {
      "epoch": 11.82670744138634,
      "grad_norm": 0.05825948715209961,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 11602
    },
    {
      "epoch": 11.827726809378186,
      "grad_norm": 0.06264621764421463,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 11603
    },
    {
      "epoch": 11.82874617737003,
      "grad_norm": 0.14052033424377441,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 11604
    },
    {
      "epoch": 11.829765545361875,
      "grad_norm": 0.06431330740451813,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 11605
    },
    {
      "epoch": 11.830784913353721,
      "grad_norm": 0.08246861398220062,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 11606
    },
    {
      "epoch": 11.831804281345565,
      "grad_norm": 0.0644192323088646,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 11607
    },
    {
      "epoch": 11.83282364933741,
      "grad_norm": 0.09831146895885468,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 11608
    },
    {
      "epoch": 11.833843017329256,
      "grad_norm": 0.07316352427005768,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 11609
    },
    {
      "epoch": 11.8348623853211,
      "grad_norm": 0.1047951802611351,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11610
    },
    {
      "epoch": 11.835881753312947,
      "grad_norm": 0.09121198207139969,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11611
    },
    {
      "epoch": 11.836901121304791,
      "grad_norm": 0.11963598430156708,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11612
    },
    {
      "epoch": 11.837920489296636,
      "grad_norm": 0.05872437730431557,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 11613
    },
    {
      "epoch": 11.838939857288482,
      "grad_norm": 0.07476509362459183,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 11614
    },
    {
      "epoch": 11.839959225280326,
      "grad_norm": 0.0734570175409317,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11615
    },
    {
      "epoch": 11.84097859327217,
      "grad_norm": 0.0818413570523262,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 11616
    },
    {
      "epoch": 11.841997961264017,
      "grad_norm": 0.10990072041749954,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 11617
    },
    {
      "epoch": 11.843017329255861,
      "grad_norm": 0.1204143762588501,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 11618
    },
    {
      "epoch": 11.844036697247706,
      "grad_norm": 0.11758386343717575,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 11619
    },
    {
      "epoch": 11.845056065239552,
      "grad_norm": 0.16561917960643768,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 11620
    },
    {
      "epoch": 11.846075433231396,
      "grad_norm": 0.11332125961780548,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 11621
    },
    {
      "epoch": 11.84709480122324,
      "grad_norm": 0.09926487505435944,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 11622
    },
    {
      "epoch": 11.848114169215087,
      "grad_norm": 0.09942351281642914,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 11623
    },
    {
      "epoch": 11.849133537206932,
      "grad_norm": 0.06847504526376724,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 11624
    },
    {
      "epoch": 11.850152905198776,
      "grad_norm": 0.11374486982822418,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11625
    },
    {
      "epoch": 11.851172273190622,
      "grad_norm": 0.08245691657066345,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 11626
    },
    {
      "epoch": 11.852191641182467,
      "grad_norm": 0.06615243852138519,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 11627
    },
    {
      "epoch": 11.853211009174313,
      "grad_norm": 0.12498801201581955,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11628
    },
    {
      "epoch": 11.854230377166157,
      "grad_norm": 0.11132179945707321,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 11629
    },
    {
      "epoch": 11.855249745158002,
      "grad_norm": 0.06595367193222046,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 11630
    },
    {
      "epoch": 11.856269113149848,
      "grad_norm": 0.16282561421394348,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 11631
    },
    {
      "epoch": 11.857288481141692,
      "grad_norm": 0.06319913268089294,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 11632
    },
    {
      "epoch": 11.858307849133537,
      "grad_norm": 0.12311133742332458,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 11633
    },
    {
      "epoch": 11.859327217125383,
      "grad_norm": 0.02810448780655861,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 11634
    },
    {
      "epoch": 11.860346585117227,
      "grad_norm": 0.08864182233810425,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 11635
    },
    {
      "epoch": 11.861365953109072,
      "grad_norm": 0.15520189702510834,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 11636
    },
    {
      "epoch": 11.862385321100918,
      "grad_norm": 0.04244990274310112,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11637
    },
    {
      "epoch": 11.863404689092762,
      "grad_norm": 0.09137587249279022,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 11638
    },
    {
      "epoch": 11.864424057084607,
      "grad_norm": 0.10024265944957733,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 11639
    },
    {
      "epoch": 11.865443425076453,
      "grad_norm": 0.16667626798152924,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 11640
    },
    {
      "epoch": 11.866462793068298,
      "grad_norm": 0.06437253206968307,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 11641
    },
    {
      "epoch": 11.867482161060142,
      "grad_norm": 0.10798175632953644,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11642
    },
    {
      "epoch": 11.868501529051988,
      "grad_norm": 0.08087850362062454,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11643
    },
    {
      "epoch": 11.869520897043833,
      "grad_norm": 0.08278437703847885,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 11644
    },
    {
      "epoch": 11.870540265035677,
      "grad_norm": 0.08375997841358185,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 11645
    },
    {
      "epoch": 11.871559633027523,
      "grad_norm": 0.0626135915517807,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 11646
    },
    {
      "epoch": 11.872579001019368,
      "grad_norm": 0.10873647034168243,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 11647
    },
    {
      "epoch": 11.873598369011212,
      "grad_norm": 0.0845915824174881,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 11648
    },
    {
      "epoch": 11.874617737003058,
      "grad_norm": 0.12246701121330261,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 11649
    },
    {
      "epoch": 11.875637104994903,
      "grad_norm": 0.11007265001535416,
      "learning_rate": 0.001,
      "loss": 0.2086,
      "step": 11650
    },
    {
      "epoch": 11.876656472986749,
      "grad_norm": 0.08231399208307266,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11651
    },
    {
      "epoch": 11.877675840978593,
      "grad_norm": 0.08623132109642029,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11652
    },
    {
      "epoch": 11.878695208970438,
      "grad_norm": 0.11110138148069382,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 11653
    },
    {
      "epoch": 11.879714576962284,
      "grad_norm": 0.050567012280225754,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 11654
    },
    {
      "epoch": 11.880733944954128,
      "grad_norm": 0.11682082712650299,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 11655
    },
    {
      "epoch": 11.881753312945973,
      "grad_norm": 0.0784631073474884,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 11656
    },
    {
      "epoch": 11.88277268093782,
      "grad_norm": 0.06360583007335663,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 11657
    },
    {
      "epoch": 11.883792048929664,
      "grad_norm": 0.13073958456516266,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 11658
    },
    {
      "epoch": 11.884811416921508,
      "grad_norm": 0.1741388887166977,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 11659
    },
    {
      "epoch": 11.885830784913354,
      "grad_norm": 0.08538007736206055,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 11660
    },
    {
      "epoch": 11.886850152905199,
      "grad_norm": 0.13661664724349976,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 11661
    },
    {
      "epoch": 11.887869520897043,
      "grad_norm": 0.08082913607358932,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11662
    },
    {
      "epoch": 11.88888888888889,
      "grad_norm": 0.07666650414466858,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 11663
    },
    {
      "epoch": 11.889908256880734,
      "grad_norm": 0.06828317046165466,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 11664
    },
    {
      "epoch": 11.890927624872578,
      "grad_norm": 0.0737089216709137,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11665
    },
    {
      "epoch": 11.891946992864424,
      "grad_norm": 0.07963551580905914,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 11666
    },
    {
      "epoch": 11.892966360856269,
      "grad_norm": 0.10145940631628036,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 11667
    },
    {
      "epoch": 11.893985728848115,
      "grad_norm": 0.06196711212396622,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 11668
    },
    {
      "epoch": 11.89500509683996,
      "grad_norm": 0.06950881332159042,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 11669
    },
    {
      "epoch": 11.896024464831804,
      "grad_norm": 0.10836281627416611,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 11670
    },
    {
      "epoch": 11.89704383282365,
      "grad_norm": 0.07989935576915741,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 11671
    },
    {
      "epoch": 11.898063200815495,
      "grad_norm": 0.1173265278339386,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 11672
    },
    {
      "epoch": 11.899082568807339,
      "grad_norm": 0.10814916342496872,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 11673
    },
    {
      "epoch": 11.900101936799185,
      "grad_norm": 0.06646058708429337,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 11674
    },
    {
      "epoch": 11.90112130479103,
      "grad_norm": 0.039850763976573944,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11675
    },
    {
      "epoch": 11.902140672782874,
      "grad_norm": 0.1517641544342041,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11676
    },
    {
      "epoch": 11.90316004077472,
      "grad_norm": 0.08460462093353271,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 11677
    },
    {
      "epoch": 11.904179408766565,
      "grad_norm": 0.0803394541144371,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 11678
    },
    {
      "epoch": 11.905198776758409,
      "grad_norm": 0.10518604516983032,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 11679
    },
    {
      "epoch": 11.906218144750255,
      "grad_norm": 0.07603321224451065,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11680
    },
    {
      "epoch": 11.9072375127421,
      "grad_norm": 0.05059794709086418,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11681
    },
    {
      "epoch": 11.908256880733944,
      "grad_norm": 0.16717517375946045,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 11682
    },
    {
      "epoch": 11.90927624872579,
      "grad_norm": 0.1016233041882515,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 11683
    },
    {
      "epoch": 11.910295616717635,
      "grad_norm": 0.11657419055700302,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 11684
    },
    {
      "epoch": 11.911314984709481,
      "grad_norm": 0.10589222609996796,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 11685
    },
    {
      "epoch": 11.912334352701325,
      "grad_norm": 0.07474812120199203,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 11686
    },
    {
      "epoch": 11.91335372069317,
      "grad_norm": 0.08599461615085602,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 11687
    },
    {
      "epoch": 11.914373088685016,
      "grad_norm": 0.03693516179919243,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 11688
    },
    {
      "epoch": 11.91539245667686,
      "grad_norm": 0.11127182096242905,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 11689
    },
    {
      "epoch": 11.916411824668705,
      "grad_norm": 0.1482062041759491,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 11690
    },
    {
      "epoch": 11.917431192660551,
      "grad_norm": 0.12062443047761917,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 11691
    },
    {
      "epoch": 11.918450560652396,
      "grad_norm": 0.07435827702283859,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 11692
    },
    {
      "epoch": 11.91946992864424,
      "grad_norm": 0.2400711476802826,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 11693
    },
    {
      "epoch": 11.920489296636086,
      "grad_norm": 0.09812598675489426,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 11694
    },
    {
      "epoch": 11.92150866462793,
      "grad_norm": 0.10929707437753677,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 11695
    },
    {
      "epoch": 11.922528032619775,
      "grad_norm": 0.06737115979194641,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 11696
    },
    {
      "epoch": 11.923547400611621,
      "grad_norm": 0.0739235207438469,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 11697
    },
    {
      "epoch": 11.924566768603466,
      "grad_norm": 0.08872570842504501,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 11698
    },
    {
      "epoch": 11.92558613659531,
      "grad_norm": 0.16003628075122833,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 11699
    },
    {
      "epoch": 11.926605504587156,
      "grad_norm": 0.08376431465148926,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 11700
    },
    {
      "epoch": 11.927624872579,
      "grad_norm": 0.11931871622800827,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 11701
    },
    {
      "epoch": 11.928644240570845,
      "grad_norm": 0.11269903928041458,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 11702
    },
    {
      "epoch": 11.929663608562691,
      "grad_norm": 0.1223590150475502,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11703
    },
    {
      "epoch": 11.930682976554536,
      "grad_norm": 0.09937073290348053,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 11704
    },
    {
      "epoch": 11.93170234454638,
      "grad_norm": 0.09205402433872223,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 11705
    },
    {
      "epoch": 11.932721712538227,
      "grad_norm": 0.07326388359069824,
      "learning_rate": 0.001,
      "loss": 0.1583,
      "step": 11706
    },
    {
      "epoch": 11.933741080530071,
      "grad_norm": 0.08728218078613281,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11707
    },
    {
      "epoch": 11.934760448521917,
      "grad_norm": 0.06656257063150406,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 11708
    },
    {
      "epoch": 11.935779816513762,
      "grad_norm": 0.08964370936155319,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 11709
    },
    {
      "epoch": 11.936799184505606,
      "grad_norm": 0.06906188279390335,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 11710
    },
    {
      "epoch": 11.937818552497452,
      "grad_norm": 0.07143738120794296,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11711
    },
    {
      "epoch": 11.938837920489297,
      "grad_norm": 0.09381494671106339,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 11712
    },
    {
      "epoch": 11.939857288481141,
      "grad_norm": 0.054243892431259155,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11713
    },
    {
      "epoch": 11.940876656472987,
      "grad_norm": 0.11600109934806824,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11714
    },
    {
      "epoch": 11.941896024464832,
      "grad_norm": 0.09393598884344101,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 11715
    },
    {
      "epoch": 11.942915392456676,
      "grad_norm": 0.15659528970718384,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 11716
    },
    {
      "epoch": 11.943934760448522,
      "grad_norm": 0.07326902449131012,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 11717
    },
    {
      "epoch": 11.944954128440367,
      "grad_norm": 0.09236741065979004,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 11718
    },
    {
      "epoch": 11.945973496432211,
      "grad_norm": 0.12673704326152802,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 11719
    },
    {
      "epoch": 11.946992864424058,
      "grad_norm": 0.05995073541998863,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 11720
    },
    {
      "epoch": 11.948012232415902,
      "grad_norm": 0.10828191787004471,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 11721
    },
    {
      "epoch": 11.949031600407746,
      "grad_norm": 0.06580879539251328,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11722
    },
    {
      "epoch": 11.950050968399593,
      "grad_norm": 0.14176762104034424,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 11723
    },
    {
      "epoch": 11.951070336391437,
      "grad_norm": 0.06955669075250626,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 11724
    },
    {
      "epoch": 11.952089704383283,
      "grad_norm": 0.09330980479717255,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 11725
    },
    {
      "epoch": 11.953109072375128,
      "grad_norm": 0.08711136877536774,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 11726
    },
    {
      "epoch": 11.954128440366972,
      "grad_norm": 0.06642676889896393,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 11727
    },
    {
      "epoch": 11.955147808358818,
      "grad_norm": 0.04536879435181618,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 11728
    },
    {
      "epoch": 11.956167176350663,
      "grad_norm": 0.04135355353355408,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 11729
    },
    {
      "epoch": 11.957186544342507,
      "grad_norm": 0.07111930102109909,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11730
    },
    {
      "epoch": 11.958205912334353,
      "grad_norm": 0.09296932816505432,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 11731
    },
    {
      "epoch": 11.959225280326198,
      "grad_norm": 0.1646866649389267,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11732
    },
    {
      "epoch": 11.960244648318042,
      "grad_norm": 0.16668400168418884,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 11733
    },
    {
      "epoch": 11.961264016309888,
      "grad_norm": 0.1256062239408493,
      "learning_rate": 0.001,
      "loss": 0.2029,
      "step": 11734
    },
    {
      "epoch": 11.962283384301733,
      "grad_norm": 0.08561122417449951,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 11735
    },
    {
      "epoch": 11.963302752293577,
      "grad_norm": 0.07916624844074249,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 11736
    },
    {
      "epoch": 11.964322120285424,
      "grad_norm": 0.06882505118846893,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11737
    },
    {
      "epoch": 11.965341488277268,
      "grad_norm": 0.10626426339149475,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 11738
    },
    {
      "epoch": 11.966360856269112,
      "grad_norm": 0.07491202652454376,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11739
    },
    {
      "epoch": 11.967380224260959,
      "grad_norm": 0.07919050753116608,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 11740
    },
    {
      "epoch": 11.968399592252803,
      "grad_norm": 0.08618807792663574,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11741
    },
    {
      "epoch": 11.96941896024465,
      "grad_norm": 0.05503082275390625,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11742
    },
    {
      "epoch": 11.970438328236494,
      "grad_norm": 0.10429457575082779,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11743
    },
    {
      "epoch": 11.971457696228338,
      "grad_norm": 0.12142933905124664,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11744
    },
    {
      "epoch": 11.972477064220184,
      "grad_norm": 0.08614704757928848,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11745
    },
    {
      "epoch": 11.973496432212029,
      "grad_norm": 0.14103880524635315,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 11746
    },
    {
      "epoch": 11.974515800203873,
      "grad_norm": 0.10251099616289139,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 11747
    },
    {
      "epoch": 11.97553516819572,
      "grad_norm": 0.12895940244197845,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 11748
    },
    {
      "epoch": 11.976554536187564,
      "grad_norm": 0.0964265689253807,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 11749
    },
    {
      "epoch": 11.977573904179408,
      "grad_norm": 0.06793983280658722,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 11750
    },
    {
      "epoch": 11.978593272171254,
      "grad_norm": 0.10718365758657455,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 11751
    },
    {
      "epoch": 11.979612640163099,
      "grad_norm": 0.11098533123731613,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 11752
    },
    {
      "epoch": 11.980632008154943,
      "grad_norm": 0.07369066774845123,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11753
    },
    {
      "epoch": 11.98165137614679,
      "grad_norm": 0.06254022568464279,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11754
    },
    {
      "epoch": 11.982670744138634,
      "grad_norm": 0.12292550504207611,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 11755
    },
    {
      "epoch": 11.983690112130478,
      "grad_norm": 0.1910051554441452,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 11756
    },
    {
      "epoch": 11.984709480122325,
      "grad_norm": 0.08492989838123322,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11757
    },
    {
      "epoch": 11.985728848114169,
      "grad_norm": 0.07299380749464035,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 11758
    },
    {
      "epoch": 11.986748216106013,
      "grad_norm": 0.07396606355905533,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 11759
    },
    {
      "epoch": 11.98776758409786,
      "grad_norm": 0.15241634845733643,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 11760
    },
    {
      "epoch": 11.988786952089704,
      "grad_norm": 0.050243500620126724,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 11761
    },
    {
      "epoch": 11.989806320081549,
      "grad_norm": 0.06840205192565918,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 11762
    },
    {
      "epoch": 11.990825688073395,
      "grad_norm": 0.05758848413825035,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 11763
    },
    {
      "epoch": 11.99184505606524,
      "grad_norm": 0.09390085935592651,
      "learning_rate": 0.001,
      "loss": 0.1603,
      "step": 11764
    },
    {
      "epoch": 11.992864424057085,
      "grad_norm": 0.07460838556289673,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 11765
    },
    {
      "epoch": 11.99388379204893,
      "grad_norm": 0.15073399245738983,
      "learning_rate": 0.001,
      "loss": 0.2069,
      "step": 11766
    },
    {
      "epoch": 11.994903160040774,
      "grad_norm": 0.06914209574460983,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 11767
    },
    {
      "epoch": 11.99592252803262,
      "grad_norm": 0.20360222458839417,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 11768
    },
    {
      "epoch": 11.996941896024465,
      "grad_norm": 0.046430036425590515,
      "learning_rate": 0.001,
      "loss": 0.162,
      "step": 11769
    },
    {
      "epoch": 11.99796126401631,
      "grad_norm": 0.09324673563241959,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 11770
    },
    {
      "epoch": 11.998980632008156,
      "grad_norm": 0.062366027384996414,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 11771
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.13929122686386108,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 11772
    },
    {
      "epoch": 12.0,
      "eval_-_f1-score": 0.20512820512820512,
      "eval_-_precision": 0.23529411764705882,
      "eval_-_recall": 0.18181818181818182,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.966011466011466,
      "eval_<_precision": 0.9622679991841729,
      "eval_<_recall": 0.9697841726618706,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.832271762208068,
      "eval_=_precision": 0.8789237668161435,
      "eval_=_recall": 0.7903225806451613,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.966262085990537,
      "eval_>_precision": 0.9670578546427836,
      "eval_>_recall": 0.9654676258992806,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9615,
      "eval_loss": 0.1066359356045723,
      "eval_macro_avg_f1-score": 0.7424183798345692,
      "eval_macro_avg_precision": 0.7608859345725397,
      "eval_macro_avg_recall": 0.7268481402561235,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.8804,
      "eval_samples_per_second": 776.374,
      "eval_steps_per_second": 3.105,
      "eval_weighted_avg_f1-score": 0.9611427048030166,
      "eval_weighted_avg_precision": 0.9609319843626783,
      "eval_weighted_avg_recall": 0.9615,
      "eval_weighted_avg_support": 10000.0,
      "step": 11772
    },
    {
      "epoch": 12.001019367991844,
      "grad_norm": 0.053232647478580475,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11773
    },
    {
      "epoch": 12.00203873598369,
      "grad_norm": 0.05625490844249725,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 11774
    },
    {
      "epoch": 12.003058103975535,
      "grad_norm": 0.06631163507699966,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 11775
    },
    {
      "epoch": 12.00407747196738,
      "grad_norm": 0.1405322104692459,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 11776
    },
    {
      "epoch": 12.005096839959226,
      "grad_norm": 0.11714672297239304,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 11777
    },
    {
      "epoch": 12.00611620795107,
      "grad_norm": 0.11889073252677917,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 11778
    },
    {
      "epoch": 12.007135575942915,
      "grad_norm": 0.05572657287120819,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 11779
    },
    {
      "epoch": 12.00815494393476,
      "grad_norm": 0.0702546089887619,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 11780
    },
    {
      "epoch": 12.009174311926605,
      "grad_norm": 0.033369630575180054,
      "learning_rate": 0.001,
      "loss": 0.1599,
      "step": 11781
    },
    {
      "epoch": 12.010193679918451,
      "grad_norm": 0.10910438001155853,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 11782
    },
    {
      "epoch": 12.011213047910296,
      "grad_norm": 0.06014448404312134,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 11783
    },
    {
      "epoch": 12.01223241590214,
      "grad_norm": 0.07068125158548355,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 11784
    },
    {
      "epoch": 12.013251783893987,
      "grad_norm": 0.03782428801059723,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 11785
    },
    {
      "epoch": 12.014271151885831,
      "grad_norm": 0.035870473831892014,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11786
    },
    {
      "epoch": 12.015290519877675,
      "grad_norm": 0.11998090893030167,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 11787
    },
    {
      "epoch": 12.016309887869522,
      "grad_norm": 0.0860968753695488,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 11788
    },
    {
      "epoch": 12.017329255861366,
      "grad_norm": 0.10640697926282883,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 11789
    },
    {
      "epoch": 12.01834862385321,
      "grad_norm": 0.05421094968914986,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 11790
    },
    {
      "epoch": 12.019367991845057,
      "grad_norm": 0.030106643214821815,
      "learning_rate": 0.001,
      "loss": 0.1548,
      "step": 11791
    },
    {
      "epoch": 12.020387359836901,
      "grad_norm": 0.07291045784950256,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 11792
    },
    {
      "epoch": 12.021406727828746,
      "grad_norm": 0.04440978169441223,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 11793
    },
    {
      "epoch": 12.022426095820592,
      "grad_norm": 0.11644350737333298,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11794
    },
    {
      "epoch": 12.023445463812436,
      "grad_norm": 0.10985866189002991,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11795
    },
    {
      "epoch": 12.02446483180428,
      "grad_norm": 0.13897722959518433,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 11796
    },
    {
      "epoch": 12.025484199796127,
      "grad_norm": 0.04123296961188316,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 11797
    },
    {
      "epoch": 12.026503567787971,
      "grad_norm": 0.10309521853923798,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 11798
    },
    {
      "epoch": 12.027522935779816,
      "grad_norm": 0.06280334293842316,
      "learning_rate": 0.001,
      "loss": 0.166,
      "step": 11799
    },
    {
      "epoch": 12.028542303771662,
      "grad_norm": 0.09947328269481659,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 11800
    },
    {
      "epoch": 12.029561671763506,
      "grad_norm": 0.10504139959812164,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 11801
    },
    {
      "epoch": 12.030581039755353,
      "grad_norm": 0.05338382348418236,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 11802
    },
    {
      "epoch": 12.031600407747197,
      "grad_norm": 0.19576413929462433,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 11803
    },
    {
      "epoch": 12.032619775739041,
      "grad_norm": 0.041129063814878464,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 11804
    },
    {
      "epoch": 12.033639143730888,
      "grad_norm": 0.06083200126886368,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 11805
    },
    {
      "epoch": 12.034658511722732,
      "grad_norm": 0.06662483513355255,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 11806
    },
    {
      "epoch": 12.035677879714576,
      "grad_norm": 0.1984170377254486,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 11807
    },
    {
      "epoch": 12.036697247706423,
      "grad_norm": 0.06839468330144882,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11808
    },
    {
      "epoch": 12.037716615698267,
      "grad_norm": 0.07242302596569061,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 11809
    },
    {
      "epoch": 12.038735983690112,
      "grad_norm": 0.12344402074813843,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 11810
    },
    {
      "epoch": 12.039755351681958,
      "grad_norm": 0.09835940599441528,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 11811
    },
    {
      "epoch": 12.040774719673802,
      "grad_norm": 0.08842632174491882,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11812
    },
    {
      "epoch": 12.041794087665647,
      "grad_norm": 0.07267487049102783,
      "learning_rate": 0.001,
      "loss": 0.1993,
      "step": 11813
    },
    {
      "epoch": 12.042813455657493,
      "grad_norm": 0.04351760819554329,
      "learning_rate": 0.001,
      "loss": 0.161,
      "step": 11814
    },
    {
      "epoch": 12.043832823649337,
      "grad_norm": 0.2627721428871155,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 11815
    },
    {
      "epoch": 12.044852191641182,
      "grad_norm": 0.08525216579437256,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 11816
    },
    {
      "epoch": 12.045871559633028,
      "grad_norm": 0.0914362445473671,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11817
    },
    {
      "epoch": 12.046890927624872,
      "grad_norm": 0.1422605663537979,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11818
    },
    {
      "epoch": 12.047910295616717,
      "grad_norm": 0.05050627142190933,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 11819
    },
    {
      "epoch": 12.048929663608563,
      "grad_norm": 0.0630185678601265,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 11820
    },
    {
      "epoch": 12.049949031600407,
      "grad_norm": 0.045675527304410934,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 11821
    },
    {
      "epoch": 12.050968399592254,
      "grad_norm": 0.06711079925298691,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11822
    },
    {
      "epoch": 12.051987767584098,
      "grad_norm": 0.056300606578588486,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11823
    },
    {
      "epoch": 12.053007135575942,
      "grad_norm": 0.13206550478935242,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 11824
    },
    {
      "epoch": 12.054026503567789,
      "grad_norm": 0.07707760483026505,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 11825
    },
    {
      "epoch": 12.055045871559633,
      "grad_norm": 0.07887368649244308,
      "learning_rate": 0.001,
      "loss": 0.1959,
      "step": 11826
    },
    {
      "epoch": 12.056065239551478,
      "grad_norm": 0.029033023864030838,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 11827
    },
    {
      "epoch": 12.057084607543324,
      "grad_norm": 0.06808960437774658,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 11828
    },
    {
      "epoch": 12.058103975535168,
      "grad_norm": 0.08723608404397964,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 11829
    },
    {
      "epoch": 12.059123343527013,
      "grad_norm": 0.11222230643033981,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 11830
    },
    {
      "epoch": 12.060142711518859,
      "grad_norm": 0.09165486693382263,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 11831
    },
    {
      "epoch": 12.061162079510703,
      "grad_norm": 0.08261273801326752,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 11832
    },
    {
      "epoch": 12.062181447502548,
      "grad_norm": 0.09591256827116013,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 11833
    },
    {
      "epoch": 12.063200815494394,
      "grad_norm": 0.13633887469768524,
      "learning_rate": 0.001,
      "loss": 0.2032,
      "step": 11834
    },
    {
      "epoch": 12.064220183486238,
      "grad_norm": 0.05918906629085541,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 11835
    },
    {
      "epoch": 12.065239551478083,
      "grad_norm": 0.13619984686374664,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 11836
    },
    {
      "epoch": 12.066258919469929,
      "grad_norm": 0.09764549881219864,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 11837
    },
    {
      "epoch": 12.067278287461773,
      "grad_norm": 0.07494336366653442,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 11838
    },
    {
      "epoch": 12.068297655453618,
      "grad_norm": 0.07513846457004547,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 11839
    },
    {
      "epoch": 12.069317023445464,
      "grad_norm": 0.10622073709964752,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 11840
    },
    {
      "epoch": 12.070336391437309,
      "grad_norm": 0.056758053600788116,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 11841
    },
    {
      "epoch": 12.071355759429155,
      "grad_norm": 0.08579651266336441,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 11842
    },
    {
      "epoch": 12.072375127421,
      "grad_norm": 0.04401969909667969,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11843
    },
    {
      "epoch": 12.073394495412844,
      "grad_norm": 0.047033194452524185,
      "learning_rate": 0.001,
      "loss": 0.1526,
      "step": 11844
    },
    {
      "epoch": 12.07441386340469,
      "grad_norm": 0.04946538060903549,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 11845
    },
    {
      "epoch": 12.075433231396534,
      "grad_norm": 0.09792658686637878,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 11846
    },
    {
      "epoch": 12.076452599388379,
      "grad_norm": 0.03889580816030502,
      "learning_rate": 0.001,
      "loss": 0.1584,
      "step": 11847
    },
    {
      "epoch": 12.077471967380225,
      "grad_norm": 0.08993879705667496,
      "learning_rate": 0.001,
      "loss": 0.1603,
      "step": 11848
    },
    {
      "epoch": 12.07849133537207,
      "grad_norm": 0.04862675443291664,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 11849
    },
    {
      "epoch": 12.079510703363914,
      "grad_norm": 0.10512969642877579,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 11850
    },
    {
      "epoch": 12.08053007135576,
      "grad_norm": 0.04701806977391243,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 11851
    },
    {
      "epoch": 12.081549439347604,
      "grad_norm": 0.07191189378499985,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 11852
    },
    {
      "epoch": 12.082568807339449,
      "grad_norm": 0.05502939969301224,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 11853
    },
    {
      "epoch": 12.083588175331295,
      "grad_norm": 0.1405462920665741,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 11854
    },
    {
      "epoch": 12.08460754332314,
      "grad_norm": 0.03394704684615135,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 11855
    },
    {
      "epoch": 12.085626911314984,
      "grad_norm": 0.062465082854032516,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 11856
    },
    {
      "epoch": 12.08664627930683,
      "grad_norm": 0.026764333248138428,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 11857
    },
    {
      "epoch": 12.087665647298675,
      "grad_norm": 0.04825855419039726,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 11858
    },
    {
      "epoch": 12.08868501529052,
      "grad_norm": 0.04457155615091324,
      "learning_rate": 0.001,
      "loss": 0.16,
      "step": 11859
    },
    {
      "epoch": 12.089704383282365,
      "grad_norm": 0.07446905225515366,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 11860
    },
    {
      "epoch": 12.09072375127421,
      "grad_norm": 0.11182240396738052,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 11861
    },
    {
      "epoch": 12.091743119266056,
      "grad_norm": 0.055214494466781616,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11862
    },
    {
      "epoch": 12.0927624872579,
      "grad_norm": 0.06481486558914185,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 11863
    },
    {
      "epoch": 12.093781855249745,
      "grad_norm": 0.09071140736341476,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11864
    },
    {
      "epoch": 12.094801223241591,
      "grad_norm": 0.07820041477680206,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 11865
    },
    {
      "epoch": 12.095820591233435,
      "grad_norm": 0.0978534147143364,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 11866
    },
    {
      "epoch": 12.09683995922528,
      "grad_norm": 0.09308252483606339,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 11867
    },
    {
      "epoch": 12.097859327217126,
      "grad_norm": 0.08874684572219849,
      "learning_rate": 0.001,
      "loss": 0.2006,
      "step": 11868
    },
    {
      "epoch": 12.09887869520897,
      "grad_norm": 0.03548680990934372,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 11869
    },
    {
      "epoch": 12.099898063200815,
      "grad_norm": 0.0593779981136322,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 11870
    },
    {
      "epoch": 12.100917431192661,
      "grad_norm": 0.14615055918693542,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 11871
    },
    {
      "epoch": 12.101936799184505,
      "grad_norm": 0.06597541272640228,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 11872
    },
    {
      "epoch": 12.10295616717635,
      "grad_norm": 0.021410422399640083,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 11873
    },
    {
      "epoch": 12.103975535168196,
      "grad_norm": 0.030980775132775307,
      "learning_rate": 0.001,
      "loss": 0.1481,
      "step": 11874
    },
    {
      "epoch": 12.10499490316004,
      "grad_norm": 0.07833988964557648,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 11875
    },
    {
      "epoch": 12.106014271151885,
      "grad_norm": 0.19655197858810425,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 11876
    },
    {
      "epoch": 12.107033639143731,
      "grad_norm": 0.21112503111362457,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 11877
    },
    {
      "epoch": 12.108053007135576,
      "grad_norm": 0.08025085926055908,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 11878
    },
    {
      "epoch": 12.109072375127422,
      "grad_norm": 0.039189472794532776,
      "learning_rate": 0.001,
      "loss": 0.1589,
      "step": 11879
    },
    {
      "epoch": 12.110091743119266,
      "grad_norm": 0.10118353366851807,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 11880
    },
    {
      "epoch": 12.11111111111111,
      "grad_norm": 0.06552638113498688,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 11881
    },
    {
      "epoch": 12.112130479102957,
      "grad_norm": 0.10253073275089264,
      "learning_rate": 0.001,
      "loss": 0.2031,
      "step": 11882
    },
    {
      "epoch": 12.113149847094801,
      "grad_norm": 0.058490023016929626,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 11883
    },
    {
      "epoch": 12.114169215086646,
      "grad_norm": 0.07238291949033737,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 11884
    },
    {
      "epoch": 12.115188583078492,
      "grad_norm": 0.07412711530923843,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 11885
    },
    {
      "epoch": 12.116207951070336,
      "grad_norm": 0.07477573305368423,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 11886
    },
    {
      "epoch": 12.11722731906218,
      "grad_norm": 0.0709698274731636,
      "learning_rate": 0.001,
      "loss": 0.1479,
      "step": 11887
    },
    {
      "epoch": 12.118246687054027,
      "grad_norm": 0.05578729882836342,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 11888
    },
    {
      "epoch": 12.119266055045872,
      "grad_norm": 0.06012796238064766,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 11889
    },
    {
      "epoch": 12.120285423037716,
      "grad_norm": 0.2223174124956131,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 11890
    },
    {
      "epoch": 12.121304791029562,
      "grad_norm": 0.06935154646635056,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 11891
    },
    {
      "epoch": 12.122324159021407,
      "grad_norm": 0.0800836980342865,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 11892
    },
    {
      "epoch": 12.123343527013251,
      "grad_norm": 0.06470129638910294,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 11893
    },
    {
      "epoch": 12.124362895005097,
      "grad_norm": 0.04001745209097862,
      "learning_rate": 0.001,
      "loss": 0.1581,
      "step": 11894
    },
    {
      "epoch": 12.125382262996942,
      "grad_norm": 0.061760276556015015,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 11895
    },
    {
      "epoch": 12.126401630988786,
      "grad_norm": 0.10181120783090591,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 11896
    },
    {
      "epoch": 12.127420998980632,
      "grad_norm": 0.08869250118732452,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 11897
    },
    {
      "epoch": 12.128440366972477,
      "grad_norm": 0.05405694618821144,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 11898
    },
    {
      "epoch": 12.129459734964323,
      "grad_norm": 0.030141044408082962,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 11899
    },
    {
      "epoch": 12.130479102956167,
      "grad_norm": 0.07237014174461365,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 11900
    },
    {
      "epoch": 12.131498470948012,
      "grad_norm": 0.06842207908630371,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 11901
    },
    {
      "epoch": 12.132517838939858,
      "grad_norm": 0.10391508787870407,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 11902
    },
    {
      "epoch": 12.133537206931702,
      "grad_norm": 0.08567796647548676,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 11903
    },
    {
      "epoch": 12.134556574923547,
      "grad_norm": 0.05256760120391846,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 11904
    },
    {
      "epoch": 12.135575942915393,
      "grad_norm": 0.07088730484247208,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 11905
    },
    {
      "epoch": 12.136595310907238,
      "grad_norm": 0.07147791981697083,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 11906
    },
    {
      "epoch": 12.137614678899082,
      "grad_norm": 0.12204801291227341,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 11907
    },
    {
      "epoch": 12.138634046890928,
      "grad_norm": 0.12369488179683685,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 11908
    },
    {
      "epoch": 12.139653414882773,
      "grad_norm": 0.06758573651313782,
      "learning_rate": 0.001,
      "loss": 0.1611,
      "step": 11909
    },
    {
      "epoch": 12.140672782874617,
      "grad_norm": 0.09336090087890625,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 11910
    },
    {
      "epoch": 12.141692150866463,
      "grad_norm": 0.11267749965190887,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 11911
    },
    {
      "epoch": 12.142711518858308,
      "grad_norm": 0.08572988212108612,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 11912
    },
    {
      "epoch": 12.143730886850152,
      "grad_norm": 0.10669688135385513,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 11913
    },
    {
      "epoch": 12.144750254841998,
      "grad_norm": 0.08221200853586197,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 11914
    },
    {
      "epoch": 12.145769622833843,
      "grad_norm": 0.07598593086004257,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 11915
    },
    {
      "epoch": 12.146788990825687,
      "grad_norm": 0.22645731270313263,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 11916
    },
    {
      "epoch": 12.147808358817533,
      "grad_norm": 0.09106097370386124,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 11917
    },
    {
      "epoch": 12.148827726809378,
      "grad_norm": 0.09375783056020737,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 11918
    },
    {
      "epoch": 12.149847094801224,
      "grad_norm": 0.07614818960428238,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11919
    },
    {
      "epoch": 12.150866462793068,
      "grad_norm": 0.06418589502573013,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11920
    },
    {
      "epoch": 12.151885830784913,
      "grad_norm": 0.04941625893115997,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11921
    },
    {
      "epoch": 12.15290519877676,
      "grad_norm": 0.05304589867591858,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11922
    },
    {
      "epoch": 12.153924566768604,
      "grad_norm": 0.031457528471946716,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 11923
    },
    {
      "epoch": 12.154943934760448,
      "grad_norm": 0.057423051446676254,
      "learning_rate": 0.001,
      "loss": 0.1571,
      "step": 11924
    },
    {
      "epoch": 12.155963302752294,
      "grad_norm": 0.07458378374576569,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 11925
    },
    {
      "epoch": 12.156982670744139,
      "grad_norm": 0.13821856677532196,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11926
    },
    {
      "epoch": 12.158002038735983,
      "grad_norm": 0.04605276882648468,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 11927
    },
    {
      "epoch": 12.15902140672783,
      "grad_norm": 0.042725320905447006,
      "learning_rate": 0.001,
      "loss": 0.1528,
      "step": 11928
    },
    {
      "epoch": 12.160040774719674,
      "grad_norm": 0.04563678056001663,
      "learning_rate": 0.001,
      "loss": 0.1683,
      "step": 11929
    },
    {
      "epoch": 12.161060142711518,
      "grad_norm": 0.06977114081382751,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 11930
    },
    {
      "epoch": 12.162079510703364,
      "grad_norm": 0.12983053922653198,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 11931
    },
    {
      "epoch": 12.163098878695209,
      "grad_norm": 0.05158887058496475,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11932
    },
    {
      "epoch": 12.164118246687053,
      "grad_norm": 0.07773219794034958,
      "learning_rate": 0.001,
      "loss": 0.1578,
      "step": 11933
    },
    {
      "epoch": 12.1651376146789,
      "grad_norm": 0.09894963353872299,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 11934
    },
    {
      "epoch": 12.166156982670744,
      "grad_norm": 0.06560558825731277,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 11935
    },
    {
      "epoch": 12.16717635066259,
      "grad_norm": 0.06878058612346649,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 11936
    },
    {
      "epoch": 12.168195718654435,
      "grad_norm": 0.058284591883420944,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 11937
    },
    {
      "epoch": 12.169215086646279,
      "grad_norm": 0.0631549134850502,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11938
    },
    {
      "epoch": 12.170234454638125,
      "grad_norm": 0.03354997560381889,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 11939
    },
    {
      "epoch": 12.17125382262997,
      "grad_norm": 0.11094191670417786,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 11940
    },
    {
      "epoch": 12.172273190621814,
      "grad_norm": 0.138255313038826,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 11941
    },
    {
      "epoch": 12.17329255861366,
      "grad_norm": 0.06099947169423103,
      "learning_rate": 0.001,
      "loss": 0.1553,
      "step": 11942
    },
    {
      "epoch": 12.174311926605505,
      "grad_norm": 0.07445421069860458,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 11943
    },
    {
      "epoch": 12.175331294597349,
      "grad_norm": 0.07053209841251373,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 11944
    },
    {
      "epoch": 12.176350662589195,
      "grad_norm": 0.07931162416934967,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 11945
    },
    {
      "epoch": 12.17737003058104,
      "grad_norm": 0.0832398533821106,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 11946
    },
    {
      "epoch": 12.178389398572884,
      "grad_norm": 0.09609051048755646,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 11947
    },
    {
      "epoch": 12.17940876656473,
      "grad_norm": 0.16468994319438934,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 11948
    },
    {
      "epoch": 12.180428134556575,
      "grad_norm": 0.10332220047712326,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 11949
    },
    {
      "epoch": 12.18144750254842,
      "grad_norm": 0.11248788982629776,
      "learning_rate": 0.001,
      "loss": 0.1626,
      "step": 11950
    },
    {
      "epoch": 12.182466870540265,
      "grad_norm": 0.1504240334033966,
      "learning_rate": 0.001,
      "loss": 0.2003,
      "step": 11951
    },
    {
      "epoch": 12.18348623853211,
      "grad_norm": 0.07190605252981186,
      "learning_rate": 0.001,
      "loss": 0.2125,
      "step": 11952
    },
    {
      "epoch": 12.184505606523954,
      "grad_norm": 0.05517954379320145,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 11953
    },
    {
      "epoch": 12.1855249745158,
      "grad_norm": 0.17915572226047516,
      "learning_rate": 0.001,
      "loss": 0.1641,
      "step": 11954
    },
    {
      "epoch": 12.186544342507645,
      "grad_norm": 0.05250165984034538,
      "learning_rate": 0.001,
      "loss": 0.1564,
      "step": 11955
    },
    {
      "epoch": 12.187563710499491,
      "grad_norm": 0.287751168012619,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 11956
    },
    {
      "epoch": 12.188583078491336,
      "grad_norm": 0.05383206158876419,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 11957
    },
    {
      "epoch": 12.18960244648318,
      "grad_norm": 0.15048202872276306,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 11958
    },
    {
      "epoch": 12.190621814475026,
      "grad_norm": 0.14369821548461914,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 11959
    },
    {
      "epoch": 12.19164118246687,
      "grad_norm": 0.10907021164894104,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 11960
    },
    {
      "epoch": 12.192660550458715,
      "grad_norm": 0.13561776280403137,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 11961
    },
    {
      "epoch": 12.193679918450561,
      "grad_norm": 0.09938385337591171,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 11962
    },
    {
      "epoch": 12.194699286442406,
      "grad_norm": 0.07073996216058731,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 11963
    },
    {
      "epoch": 12.19571865443425,
      "grad_norm": 0.12330273538827896,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 11964
    },
    {
      "epoch": 12.196738022426096,
      "grad_norm": 0.09835495054721832,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 11965
    },
    {
      "epoch": 12.19775739041794,
      "grad_norm": 0.12456398457288742,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 11966
    },
    {
      "epoch": 12.198776758409785,
      "grad_norm": 0.13205458223819733,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 11967
    },
    {
      "epoch": 12.199796126401631,
      "grad_norm": 0.09371210634708405,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 11968
    },
    {
      "epoch": 12.200815494393476,
      "grad_norm": 0.15108712017536163,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 11969
    },
    {
      "epoch": 12.20183486238532,
      "grad_norm": 0.08110015094280243,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11970
    },
    {
      "epoch": 12.202854230377167,
      "grad_norm": 0.119273841381073,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 11971
    },
    {
      "epoch": 12.203873598369011,
      "grad_norm": 0.03949512541294098,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 11972
    },
    {
      "epoch": 12.204892966360855,
      "grad_norm": 0.09580665081739426,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 11973
    },
    {
      "epoch": 12.205912334352702,
      "grad_norm": 0.09841784834861755,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 11974
    },
    {
      "epoch": 12.206931702344546,
      "grad_norm": 0.10894814878702164,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 11975
    },
    {
      "epoch": 12.207951070336392,
      "grad_norm": 0.0791875422000885,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 11976
    },
    {
      "epoch": 12.208970438328237,
      "grad_norm": 0.15121814608573914,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 11977
    },
    {
      "epoch": 12.209989806320081,
      "grad_norm": 0.13648970425128937,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 11978
    },
    {
      "epoch": 12.211009174311927,
      "grad_norm": 0.14278291165828705,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 11979
    },
    {
      "epoch": 12.212028542303772,
      "grad_norm": 0.05889642611145973,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 11980
    },
    {
      "epoch": 12.213047910295616,
      "grad_norm": 0.07678236067295074,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 11981
    },
    {
      "epoch": 12.214067278287462,
      "grad_norm": 0.08445050567388535,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 11982
    },
    {
      "epoch": 12.215086646279307,
      "grad_norm": 0.07852545380592346,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 11983
    },
    {
      "epoch": 12.216106014271151,
      "grad_norm": 0.0930560901761055,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 11984
    },
    {
      "epoch": 12.217125382262997,
      "grad_norm": 0.11464861780405045,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 11985
    },
    {
      "epoch": 12.218144750254842,
      "grad_norm": 0.10141827911138535,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 11986
    },
    {
      "epoch": 12.219164118246686,
      "grad_norm": 0.041843004524707794,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 11987
    },
    {
      "epoch": 12.220183486238533,
      "grad_norm": 0.07025525718927383,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 11988
    },
    {
      "epoch": 12.221202854230377,
      "grad_norm": 0.1157204657793045,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 11989
    },
    {
      "epoch": 12.222222222222221,
      "grad_norm": 0.1058603972196579,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 11990
    },
    {
      "epoch": 12.223241590214068,
      "grad_norm": 0.0853654146194458,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 11991
    },
    {
      "epoch": 12.224260958205912,
      "grad_norm": 0.07209334522485733,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 11992
    },
    {
      "epoch": 12.225280326197758,
      "grad_norm": 0.07978431135416031,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 11993
    },
    {
      "epoch": 12.226299694189603,
      "grad_norm": 0.07309725880622864,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 11994
    },
    {
      "epoch": 12.227319062181447,
      "grad_norm": 0.1586105078458786,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 11995
    },
    {
      "epoch": 12.228338430173293,
      "grad_norm": 0.0377303808927536,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 11996
    },
    {
      "epoch": 12.229357798165138,
      "grad_norm": 0.2809503674507141,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 11997
    },
    {
      "epoch": 12.230377166156982,
      "grad_norm": 0.051846619695425034,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 11998
    },
    {
      "epoch": 12.231396534148828,
      "grad_norm": 0.07234268635511398,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 11999
    },
    {
      "epoch": 12.232415902140673,
      "grad_norm": 0.03759557381272316,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12000
    },
    {
      "epoch": 12.233435270132517,
      "grad_norm": 0.05234316736459732,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12001
    },
    {
      "epoch": 12.234454638124364,
      "grad_norm": 0.09604225307703018,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 12002
    },
    {
      "epoch": 12.235474006116208,
      "grad_norm": 0.09575515985488892,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12003
    },
    {
      "epoch": 12.236493374108052,
      "grad_norm": 0.16029706597328186,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 12004
    },
    {
      "epoch": 12.237512742099899,
      "grad_norm": 0.12494481354951859,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 12005
    },
    {
      "epoch": 12.238532110091743,
      "grad_norm": 0.1649797260761261,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 12006
    },
    {
      "epoch": 12.239551478083587,
      "grad_norm": 0.0756564736366272,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 12007
    },
    {
      "epoch": 12.240570846075434,
      "grad_norm": 0.058529239147901535,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 12008
    },
    {
      "epoch": 12.241590214067278,
      "grad_norm": 0.0519011989235878,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 12009
    },
    {
      "epoch": 12.242609582059123,
      "grad_norm": 0.13017971813678741,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 12010
    },
    {
      "epoch": 12.243628950050969,
      "grad_norm": 0.18168902397155762,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 12011
    },
    {
      "epoch": 12.244648318042813,
      "grad_norm": 0.06789087504148483,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 12012
    },
    {
      "epoch": 12.24566768603466,
      "grad_norm": 0.04532450810074806,
      "learning_rate": 0.001,
      "loss": 0.2084,
      "step": 12013
    },
    {
      "epoch": 12.246687054026504,
      "grad_norm": 0.06665174663066864,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 12014
    },
    {
      "epoch": 12.247706422018348,
      "grad_norm": 0.08447788655757904,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 12015
    },
    {
      "epoch": 12.248725790010194,
      "grad_norm": 0.0823531448841095,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12016
    },
    {
      "epoch": 12.249745158002039,
      "grad_norm": 0.05767170339822769,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 12017
    },
    {
      "epoch": 12.250764525993883,
      "grad_norm": 0.15533073246479034,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 12018
    },
    {
      "epoch": 12.25178389398573,
      "grad_norm": 0.09431185573339462,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12019
    },
    {
      "epoch": 12.252803261977574,
      "grad_norm": 0.09869497269392014,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12020
    },
    {
      "epoch": 12.253822629969418,
      "grad_norm": 0.09401778131723404,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 12021
    },
    {
      "epoch": 12.254841997961265,
      "grad_norm": 0.07078976929187775,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12022
    },
    {
      "epoch": 12.255861365953109,
      "grad_norm": 0.09912299364805222,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12023
    },
    {
      "epoch": 12.256880733944953,
      "grad_norm": 0.10348501056432724,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 12024
    },
    {
      "epoch": 12.2579001019368,
      "grad_norm": 0.03688812628388405,
      "learning_rate": 0.001,
      "loss": 0.1602,
      "step": 12025
    },
    {
      "epoch": 12.258919469928644,
      "grad_norm": 0.1121920719742775,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 12026
    },
    {
      "epoch": 12.259938837920489,
      "grad_norm": 0.042902398854494095,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 12027
    },
    {
      "epoch": 12.260958205912335,
      "grad_norm": 0.07632073760032654,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 12028
    },
    {
      "epoch": 12.26197757390418,
      "grad_norm": 0.10675299912691116,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 12029
    },
    {
      "epoch": 12.262996941896024,
      "grad_norm": 0.10860548168420792,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 12030
    },
    {
      "epoch": 12.26401630988787,
      "grad_norm": 0.17117221653461456,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 12031
    },
    {
      "epoch": 12.265035677879714,
      "grad_norm": 0.35584795475006104,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12032
    },
    {
      "epoch": 12.26605504587156,
      "grad_norm": 0.030202288180589676,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 12033
    },
    {
      "epoch": 12.267074413863405,
      "grad_norm": 0.059413935989141464,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 12034
    },
    {
      "epoch": 12.26809378185525,
      "grad_norm": 0.121663898229599,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12035
    },
    {
      "epoch": 12.269113149847096,
      "grad_norm": 0.07136189192533493,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 12036
    },
    {
      "epoch": 12.27013251783894,
      "grad_norm": 0.08956155180931091,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 12037
    },
    {
      "epoch": 12.271151885830784,
      "grad_norm": 0.049912210553884506,
      "learning_rate": 0.001,
      "loss": 0.1554,
      "step": 12038
    },
    {
      "epoch": 12.27217125382263,
      "grad_norm": 0.03741812705993652,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 12039
    },
    {
      "epoch": 12.273190621814475,
      "grad_norm": 0.11051555722951889,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 12040
    },
    {
      "epoch": 12.27420998980632,
      "grad_norm": 0.10755768418312073,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 12041
    },
    {
      "epoch": 12.275229357798166,
      "grad_norm": 0.11265647411346436,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 12042
    },
    {
      "epoch": 12.27624872579001,
      "grad_norm": 0.1246192455291748,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12043
    },
    {
      "epoch": 12.277268093781855,
      "grad_norm": 0.05927147716283798,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 12044
    },
    {
      "epoch": 12.2782874617737,
      "grad_norm": 0.04823891073465347,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 12045
    },
    {
      "epoch": 12.279306829765545,
      "grad_norm": 0.07463780790567398,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 12046
    },
    {
      "epoch": 12.28032619775739,
      "grad_norm": 0.0861814022064209,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12047
    },
    {
      "epoch": 12.281345565749236,
      "grad_norm": 0.4629501402378082,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 12048
    },
    {
      "epoch": 12.28236493374108,
      "grad_norm": 0.13221170008182526,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 12049
    },
    {
      "epoch": 12.283384301732925,
      "grad_norm": 0.13142220675945282,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 12050
    },
    {
      "epoch": 12.284403669724771,
      "grad_norm": 0.08500134199857712,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 12051
    },
    {
      "epoch": 12.285423037716615,
      "grad_norm": 0.08443880826234818,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12052
    },
    {
      "epoch": 12.286442405708462,
      "grad_norm": 0.08668069541454315,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 12053
    },
    {
      "epoch": 12.287461773700306,
      "grad_norm": 0.08168433606624603,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12054
    },
    {
      "epoch": 12.28848114169215,
      "grad_norm": 0.06021454185247421,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 12055
    },
    {
      "epoch": 12.289500509683997,
      "grad_norm": 0.16498228907585144,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12056
    },
    {
      "epoch": 12.290519877675841,
      "grad_norm": 0.053434789180755615,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 12057
    },
    {
      "epoch": 12.291539245667686,
      "grad_norm": 0.0936196893453598,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 12058
    },
    {
      "epoch": 12.292558613659532,
      "grad_norm": 0.10147295892238617,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 12059
    },
    {
      "epoch": 12.293577981651376,
      "grad_norm": 0.14037664234638214,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 12060
    },
    {
      "epoch": 12.29459734964322,
      "grad_norm": 0.07503491640090942,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 12061
    },
    {
      "epoch": 12.295616717635067,
      "grad_norm": 0.11942268908023834,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12062
    },
    {
      "epoch": 12.296636085626911,
      "grad_norm": 0.05052802339196205,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12063
    },
    {
      "epoch": 12.297655453618756,
      "grad_norm": 0.0878247618675232,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12064
    },
    {
      "epoch": 12.298674821610602,
      "grad_norm": 0.048756666481494904,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12065
    },
    {
      "epoch": 12.299694189602446,
      "grad_norm": 0.022072799503803253,
      "learning_rate": 0.001,
      "loss": 0.1609,
      "step": 12066
    },
    {
      "epoch": 12.30071355759429,
      "grad_norm": 0.034064676612615585,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12067
    },
    {
      "epoch": 12.301732925586137,
      "grad_norm": 0.10678073018789291,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 12068
    },
    {
      "epoch": 12.302752293577981,
      "grad_norm": 0.08026088029146194,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12069
    },
    {
      "epoch": 12.303771661569826,
      "grad_norm": 0.09517911821603775,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 12070
    },
    {
      "epoch": 12.304791029561672,
      "grad_norm": 0.11673241853713989,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12071
    },
    {
      "epoch": 12.305810397553516,
      "grad_norm": 0.12652693688869476,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 12072
    },
    {
      "epoch": 12.306829765545363,
      "grad_norm": 0.07476846128702164,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12073
    },
    {
      "epoch": 12.307849133537207,
      "grad_norm": 0.18566349148750305,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 12074
    },
    {
      "epoch": 12.308868501529052,
      "grad_norm": 0.12590476870536804,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12075
    },
    {
      "epoch": 12.309887869520898,
      "grad_norm": 0.17715728282928467,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 12076
    },
    {
      "epoch": 12.310907237512742,
      "grad_norm": 0.025280866771936417,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12077
    },
    {
      "epoch": 12.311926605504587,
      "grad_norm": 0.08181611448526382,
      "learning_rate": 0.001,
      "loss": 0.1571,
      "step": 12078
    },
    {
      "epoch": 12.312945973496433,
      "grad_norm": 0.1858532875776291,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 12079
    },
    {
      "epoch": 12.313965341488277,
      "grad_norm": 0.10470383614301682,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 12080
    },
    {
      "epoch": 12.314984709480122,
      "grad_norm": 0.18560850620269775,
      "learning_rate": 0.001,
      "loss": 0.2056,
      "step": 12081
    },
    {
      "epoch": 12.316004077471968,
      "grad_norm": 0.0862501934170723,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 12082
    },
    {
      "epoch": 12.317023445463812,
      "grad_norm": 0.08158691227436066,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12083
    },
    {
      "epoch": 12.318042813455657,
      "grad_norm": 0.1477954089641571,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 12084
    },
    {
      "epoch": 12.319062181447503,
      "grad_norm": 0.060038428753614426,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 12085
    },
    {
      "epoch": 12.320081549439347,
      "grad_norm": 0.13727813959121704,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 12086
    },
    {
      "epoch": 12.321100917431192,
      "grad_norm": 0.041289523243904114,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 12087
    },
    {
      "epoch": 12.322120285423038,
      "grad_norm": 0.0828162133693695,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12088
    },
    {
      "epoch": 12.323139653414882,
      "grad_norm": 0.09094232320785522,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 12089
    },
    {
      "epoch": 12.324159021406729,
      "grad_norm": 0.07697810232639313,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 12090
    },
    {
      "epoch": 12.325178389398573,
      "grad_norm": 0.16464778780937195,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 12091
    },
    {
      "epoch": 12.326197757390418,
      "grad_norm": 0.10522639006376266,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 12092
    },
    {
      "epoch": 12.327217125382264,
      "grad_norm": 0.10223913937807083,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 12093
    },
    {
      "epoch": 12.328236493374108,
      "grad_norm": 0.12231826782226562,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 12094
    },
    {
      "epoch": 12.329255861365953,
      "grad_norm": 0.08604618906974792,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 12095
    },
    {
      "epoch": 12.330275229357799,
      "grad_norm": 0.10016626119613647,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12096
    },
    {
      "epoch": 12.331294597349643,
      "grad_norm": 0.08870136737823486,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 12097
    },
    {
      "epoch": 12.332313965341488,
      "grad_norm": 0.14454352855682373,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 12098
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.08599729090929031,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 12099
    },
    {
      "epoch": 12.334352701325178,
      "grad_norm": 0.06576701998710632,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 12100
    },
    {
      "epoch": 12.335372069317023,
      "grad_norm": 0.0712147057056427,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12101
    },
    {
      "epoch": 12.336391437308869,
      "grad_norm": 0.1935855895280838,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 12102
    },
    {
      "epoch": 12.337410805300713,
      "grad_norm": 0.06695196032524109,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12103
    },
    {
      "epoch": 12.338430173292558,
      "grad_norm": 0.028676174581050873,
      "learning_rate": 0.001,
      "loss": 0.1597,
      "step": 12104
    },
    {
      "epoch": 12.339449541284404,
      "grad_norm": 0.11330944299697876,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 12105
    },
    {
      "epoch": 12.340468909276249,
      "grad_norm": 0.11978540569543839,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 12106
    },
    {
      "epoch": 12.341488277268093,
      "grad_norm": 0.16054300963878632,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 12107
    },
    {
      "epoch": 12.34250764525994,
      "grad_norm": 0.08715235441923141,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 12108
    },
    {
      "epoch": 12.343527013251784,
      "grad_norm": 0.1554219275712967,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 12109
    },
    {
      "epoch": 12.34454638124363,
      "grad_norm": 0.12111764401197433,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 12110
    },
    {
      "epoch": 12.345565749235474,
      "grad_norm": 0.05788138508796692,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 12111
    },
    {
      "epoch": 12.346585117227319,
      "grad_norm": 0.12920866906642914,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12112
    },
    {
      "epoch": 12.347604485219165,
      "grad_norm": 0.07067392021417618,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 12113
    },
    {
      "epoch": 12.34862385321101,
      "grad_norm": 0.05563005059957504,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12114
    },
    {
      "epoch": 12.349643221202854,
      "grad_norm": 0.07641030848026276,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 12115
    },
    {
      "epoch": 12.3506625891947,
      "grad_norm": 0.1035974845290184,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12116
    },
    {
      "epoch": 12.351681957186544,
      "grad_norm": 0.04818548634648323,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12117
    },
    {
      "epoch": 12.352701325178389,
      "grad_norm": 0.22539536654949188,
      "learning_rate": 0.001,
      "loss": 0.2015,
      "step": 12118
    },
    {
      "epoch": 12.353720693170235,
      "grad_norm": 0.05772913619875908,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 12119
    },
    {
      "epoch": 12.35474006116208,
      "grad_norm": 0.08705435693264008,
      "learning_rate": 0.001,
      "loss": 0.155,
      "step": 12120
    },
    {
      "epoch": 12.355759429153924,
      "grad_norm": 0.14014850556850433,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 12121
    },
    {
      "epoch": 12.35677879714577,
      "grad_norm": 0.14298152923583984,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 12122
    },
    {
      "epoch": 12.357798165137615,
      "grad_norm": 0.12773284316062927,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 12123
    },
    {
      "epoch": 12.358817533129459,
      "grad_norm": 0.16480009257793427,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 12124
    },
    {
      "epoch": 12.359836901121305,
      "grad_norm": 0.16341665387153625,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 12125
    },
    {
      "epoch": 12.36085626911315,
      "grad_norm": 0.13870476186275482,
      "learning_rate": 0.001,
      "loss": 0.1625,
      "step": 12126
    },
    {
      "epoch": 12.361875637104994,
      "grad_norm": 0.10930760949850082,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12127
    },
    {
      "epoch": 12.36289500509684,
      "grad_norm": 0.10665611922740936,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12128
    },
    {
      "epoch": 12.363914373088685,
      "grad_norm": 0.07596350461244583,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 12129
    },
    {
      "epoch": 12.364933741080531,
      "grad_norm": 0.10262090712785721,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12130
    },
    {
      "epoch": 12.365953109072375,
      "grad_norm": 0.15532658994197845,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 12131
    },
    {
      "epoch": 12.36697247706422,
      "grad_norm": 0.0832868441939354,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 12132
    },
    {
      "epoch": 12.367991845056066,
      "grad_norm": 0.1210978627204895,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12133
    },
    {
      "epoch": 12.36901121304791,
      "grad_norm": 0.04097866266965866,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 12134
    },
    {
      "epoch": 12.370030581039755,
      "grad_norm": 0.1314532309770584,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 12135
    },
    {
      "epoch": 12.371049949031601,
      "grad_norm": 0.06688164919614792,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 12136
    },
    {
      "epoch": 12.372069317023445,
      "grad_norm": 0.04159711301326752,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12137
    },
    {
      "epoch": 12.37308868501529,
      "grad_norm": 0.0667937621474266,
      "learning_rate": 0.001,
      "loss": 0.1592,
      "step": 12138
    },
    {
      "epoch": 12.374108053007136,
      "grad_norm": 0.08830701559782028,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 12139
    },
    {
      "epoch": 12.37512742099898,
      "grad_norm": 0.11923085898160934,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12140
    },
    {
      "epoch": 12.376146788990825,
      "grad_norm": 0.09422506392002106,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 12141
    },
    {
      "epoch": 12.377166156982671,
      "grad_norm": 0.1072821244597435,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12142
    },
    {
      "epoch": 12.378185524974516,
      "grad_norm": 0.07500634342432022,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 12143
    },
    {
      "epoch": 12.37920489296636,
      "grad_norm": 0.1010073721408844,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 12144
    },
    {
      "epoch": 12.380224260958206,
      "grad_norm": 0.1024429053068161,
      "learning_rate": 0.001,
      "loss": 0.1561,
      "step": 12145
    },
    {
      "epoch": 12.38124362895005,
      "grad_norm": 0.07163646817207336,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 12146
    },
    {
      "epoch": 12.382262996941897,
      "grad_norm": 0.05208388715982437,
      "learning_rate": 0.001,
      "loss": 0.1562,
      "step": 12147
    },
    {
      "epoch": 12.383282364933741,
      "grad_norm": 0.12024052441120148,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 12148
    },
    {
      "epoch": 12.384301732925586,
      "grad_norm": 0.05067066848278046,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 12149
    },
    {
      "epoch": 12.385321100917432,
      "grad_norm": 0.0822492241859436,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12150
    },
    {
      "epoch": 12.386340468909276,
      "grad_norm": 0.10789278894662857,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 12151
    },
    {
      "epoch": 12.38735983690112,
      "grad_norm": 0.131585493683815,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 12152
    },
    {
      "epoch": 12.388379204892967,
      "grad_norm": 0.06064993888139725,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 12153
    },
    {
      "epoch": 12.389398572884812,
      "grad_norm": 0.10866320878267288,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 12154
    },
    {
      "epoch": 12.390417940876656,
      "grad_norm": 0.08402189612388611,
      "learning_rate": 0.001,
      "loss": 0.2042,
      "step": 12155
    },
    {
      "epoch": 12.391437308868502,
      "grad_norm": 0.10070522874593735,
      "learning_rate": 0.001,
      "loss": 0.2023,
      "step": 12156
    },
    {
      "epoch": 12.392456676860347,
      "grad_norm": 0.0627201497554779,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12157
    },
    {
      "epoch": 12.393476044852191,
      "grad_norm": 0.05547972396016121,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12158
    },
    {
      "epoch": 12.394495412844037,
      "grad_norm": 0.07370788604021072,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12159
    },
    {
      "epoch": 12.395514780835882,
      "grad_norm": 0.04176437854766846,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 12160
    },
    {
      "epoch": 12.396534148827726,
      "grad_norm": 0.07075903564691544,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 12161
    },
    {
      "epoch": 12.397553516819572,
      "grad_norm": 0.09228808432817459,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 12162
    },
    {
      "epoch": 12.398572884811417,
      "grad_norm": 0.08290620893239975,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 12163
    },
    {
      "epoch": 12.399592252803261,
      "grad_norm": 0.07597669959068298,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12164
    },
    {
      "epoch": 12.400611620795107,
      "grad_norm": 0.12803320586681366,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 12165
    },
    {
      "epoch": 12.401630988786952,
      "grad_norm": 0.05111170932650566,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12166
    },
    {
      "epoch": 12.402650356778796,
      "grad_norm": 0.1610155701637268,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 12167
    },
    {
      "epoch": 12.403669724770642,
      "grad_norm": 0.07014374434947968,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 12168
    },
    {
      "epoch": 12.404689092762487,
      "grad_norm": 0.08470890671014786,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 12169
    },
    {
      "epoch": 12.405708460754333,
      "grad_norm": 0.09285824745893478,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 12170
    },
    {
      "epoch": 12.406727828746178,
      "grad_norm": 0.057605110108852386,
      "learning_rate": 0.001,
      "loss": 0.1636,
      "step": 12171
    },
    {
      "epoch": 12.407747196738022,
      "grad_norm": 0.11235477030277252,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 12172
    },
    {
      "epoch": 12.408766564729868,
      "grad_norm": 0.06544005870819092,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12173
    },
    {
      "epoch": 12.409785932721713,
      "grad_norm": 0.09866461157798767,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 12174
    },
    {
      "epoch": 12.410805300713557,
      "grad_norm": 0.10900694876909256,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 12175
    },
    {
      "epoch": 12.411824668705403,
      "grad_norm": 0.059249576181173325,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 12176
    },
    {
      "epoch": 12.412844036697248,
      "grad_norm": 0.08357244729995728,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12177
    },
    {
      "epoch": 12.413863404689092,
      "grad_norm": 0.0837123766541481,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 12178
    },
    {
      "epoch": 12.414882772680938,
      "grad_norm": 0.07076261937618256,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 12179
    },
    {
      "epoch": 12.415902140672783,
      "grad_norm": 0.09460113197565079,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 12180
    },
    {
      "epoch": 12.416921508664627,
      "grad_norm": 0.10615743696689606,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 12181
    },
    {
      "epoch": 12.417940876656473,
      "grad_norm": 0.09496679902076721,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 12182
    },
    {
      "epoch": 12.418960244648318,
      "grad_norm": 0.11944466829299927,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12183
    },
    {
      "epoch": 12.419979612640162,
      "grad_norm": 0.0771455392241478,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 12184
    },
    {
      "epoch": 12.420998980632008,
      "grad_norm": 0.05532244220376015,
      "learning_rate": 0.001,
      "loss": 0.2007,
      "step": 12185
    },
    {
      "epoch": 12.422018348623853,
      "grad_norm": 0.052083682268857956,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12186
    },
    {
      "epoch": 12.423037716615699,
      "grad_norm": 0.11062504351139069,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 12187
    },
    {
      "epoch": 12.424057084607544,
      "grad_norm": 0.06801985949277878,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 12188
    },
    {
      "epoch": 12.425076452599388,
      "grad_norm": 0.07150184363126755,
      "learning_rate": 0.001,
      "loss": 0.1641,
      "step": 12189
    },
    {
      "epoch": 12.426095820591234,
      "grad_norm": 0.10871341079473495,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 12190
    },
    {
      "epoch": 12.427115188583079,
      "grad_norm": 0.07934880256652832,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 12191
    },
    {
      "epoch": 12.428134556574923,
      "grad_norm": 0.0768267884850502,
      "learning_rate": 0.001,
      "loss": 0.1538,
      "step": 12192
    },
    {
      "epoch": 12.42915392456677,
      "grad_norm": 0.04298878088593483,
      "learning_rate": 0.001,
      "loss": 0.1578,
      "step": 12193
    },
    {
      "epoch": 12.430173292558614,
      "grad_norm": 0.06752914935350418,
      "learning_rate": 0.001,
      "loss": 0.1534,
      "step": 12194
    },
    {
      "epoch": 12.431192660550458,
      "grad_norm": 0.08184267580509186,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 12195
    },
    {
      "epoch": 12.432212028542304,
      "grad_norm": 0.17980456352233887,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 12196
    },
    {
      "epoch": 12.433231396534149,
      "grad_norm": 0.14647886157035828,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 12197
    },
    {
      "epoch": 12.434250764525993,
      "grad_norm": 0.101117342710495,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 12198
    },
    {
      "epoch": 12.43527013251784,
      "grad_norm": 0.22099445760250092,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 12199
    },
    {
      "epoch": 12.436289500509684,
      "grad_norm": 0.04520317539572716,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 12200
    },
    {
      "epoch": 12.437308868501528,
      "grad_norm": 0.1047373116016388,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 12201
    },
    {
      "epoch": 12.438328236493374,
      "grad_norm": 0.058738596737384796,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 12202
    },
    {
      "epoch": 12.439347604485219,
      "grad_norm": 0.09006861597299576,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12203
    },
    {
      "epoch": 12.440366972477065,
      "grad_norm": 0.04611814022064209,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12204
    },
    {
      "epoch": 12.44138634046891,
      "grad_norm": 0.13315019011497498,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 12205
    },
    {
      "epoch": 12.442405708460754,
      "grad_norm": 0.052798837423324585,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12206
    },
    {
      "epoch": 12.4434250764526,
      "grad_norm": 0.058614086359739304,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 12207
    },
    {
      "epoch": 12.444444444444445,
      "grad_norm": 0.08388028293848038,
      "learning_rate": 0.001,
      "loss": 0.1614,
      "step": 12208
    },
    {
      "epoch": 12.445463812436289,
      "grad_norm": 0.07637728750705719,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 12209
    },
    {
      "epoch": 12.446483180428135,
      "grad_norm": 0.0522894486784935,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12210
    },
    {
      "epoch": 12.44750254841998,
      "grad_norm": 0.05982091277837753,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12211
    },
    {
      "epoch": 12.448521916411824,
      "grad_norm": 0.1121673732995987,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 12212
    },
    {
      "epoch": 12.44954128440367,
      "grad_norm": 0.1196555569767952,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 12213
    },
    {
      "epoch": 12.450560652395515,
      "grad_norm": 0.18597251176834106,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12214
    },
    {
      "epoch": 12.45158002038736,
      "grad_norm": 0.10684377700090408,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 12215
    },
    {
      "epoch": 12.452599388379205,
      "grad_norm": 0.07159624248743057,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12216
    },
    {
      "epoch": 12.45361875637105,
      "grad_norm": 0.13655634224414825,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 12217
    },
    {
      "epoch": 12.454638124362894,
      "grad_norm": 0.11779781430959702,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 12218
    },
    {
      "epoch": 12.45565749235474,
      "grad_norm": 0.07635128498077393,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 12219
    },
    {
      "epoch": 12.456676860346585,
      "grad_norm": 0.07094676792621613,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12220
    },
    {
      "epoch": 12.45769622833843,
      "grad_norm": 0.08623166382312775,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 12221
    },
    {
      "epoch": 12.458715596330276,
      "grad_norm": 0.1048339456319809,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12222
    },
    {
      "epoch": 12.45973496432212,
      "grad_norm": 0.04764483869075775,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 12223
    },
    {
      "epoch": 12.460754332313964,
      "grad_norm": 0.1041111871600151,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 12224
    },
    {
      "epoch": 12.46177370030581,
      "grad_norm": 0.06821265071630478,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 12225
    },
    {
      "epoch": 12.462793068297655,
      "grad_norm": 0.0605168491601944,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 12226
    },
    {
      "epoch": 12.463812436289501,
      "grad_norm": 0.09181021898984909,
      "learning_rate": 0.001,
      "loss": 0.1628,
      "step": 12227
    },
    {
      "epoch": 12.464831804281346,
      "grad_norm": 0.20964425802230835,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12228
    },
    {
      "epoch": 12.46585117227319,
      "grad_norm": 0.10913930088281631,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 12229
    },
    {
      "epoch": 12.466870540265036,
      "grad_norm": 0.0861528068780899,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 12230
    },
    {
      "epoch": 12.46788990825688,
      "grad_norm": 0.09407995641231537,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12231
    },
    {
      "epoch": 12.468909276248725,
      "grad_norm": 0.0685751810669899,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12232
    },
    {
      "epoch": 12.469928644240571,
      "grad_norm": 0.1882828176021576,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12233
    },
    {
      "epoch": 12.470948012232416,
      "grad_norm": 0.15963071584701538,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12234
    },
    {
      "epoch": 12.47196738022426,
      "grad_norm": 0.05534924939274788,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12235
    },
    {
      "epoch": 12.472986748216107,
      "grad_norm": 0.07089323550462723,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12236
    },
    {
      "epoch": 12.474006116207951,
      "grad_norm": 0.09030206501483917,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 12237
    },
    {
      "epoch": 12.475025484199795,
      "grad_norm": 0.06123810634016991,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 12238
    },
    {
      "epoch": 12.476044852191642,
      "grad_norm": 0.04641054570674896,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 12239
    },
    {
      "epoch": 12.477064220183486,
      "grad_norm": 0.07314920425415039,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12240
    },
    {
      "epoch": 12.47808358817533,
      "grad_norm": 0.07851630449295044,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 12241
    },
    {
      "epoch": 12.479102956167177,
      "grad_norm": 0.14100712537765503,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 12242
    },
    {
      "epoch": 12.480122324159021,
      "grad_norm": 0.05994671583175659,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 12243
    },
    {
      "epoch": 12.481141692150867,
      "grad_norm": 0.23141783475875854,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 12244
    },
    {
      "epoch": 12.482161060142712,
      "grad_norm": 0.12074632197618484,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 12245
    },
    {
      "epoch": 12.483180428134556,
      "grad_norm": 0.0743233859539032,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12246
    },
    {
      "epoch": 12.484199796126402,
      "grad_norm": 0.19004510343074799,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12247
    },
    {
      "epoch": 12.485219164118247,
      "grad_norm": 0.1559535562992096,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 12248
    },
    {
      "epoch": 12.486238532110091,
      "grad_norm": 0.08668593317270279,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12249
    },
    {
      "epoch": 12.487257900101937,
      "grad_norm": 0.07439219951629639,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12250
    },
    {
      "epoch": 12.488277268093782,
      "grad_norm": 0.21595938503742218,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 12251
    },
    {
      "epoch": 12.489296636085626,
      "grad_norm": 0.1367054134607315,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 12252
    },
    {
      "epoch": 12.490316004077473,
      "grad_norm": 0.0433354452252388,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 12253
    },
    {
      "epoch": 12.491335372069317,
      "grad_norm": 0.0867704525589943,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 12254
    },
    {
      "epoch": 12.492354740061161,
      "grad_norm": 0.058957330882549286,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 12255
    },
    {
      "epoch": 12.493374108053008,
      "grad_norm": 0.058581337332725525,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12256
    },
    {
      "epoch": 12.494393476044852,
      "grad_norm": 0.1032862439751625,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12257
    },
    {
      "epoch": 12.495412844036696,
      "grad_norm": 0.0827450081706047,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 12258
    },
    {
      "epoch": 12.496432212028543,
      "grad_norm": 0.19877108931541443,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12259
    },
    {
      "epoch": 12.497451580020387,
      "grad_norm": 0.05376645550131798,
      "learning_rate": 0.001,
      "loss": 0.2034,
      "step": 12260
    },
    {
      "epoch": 12.498470948012232,
      "grad_norm": 0.04953494295477867,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 12261
    },
    {
      "epoch": 12.499490316004078,
      "grad_norm": 0.10249675810337067,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 12262
    },
    {
      "epoch": 12.500509683995922,
      "grad_norm": 0.117791086435318,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 12263
    },
    {
      "epoch": 12.501529051987767,
      "grad_norm": 0.04384506493806839,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 12264
    },
    {
      "epoch": 12.502548419979613,
      "grad_norm": 0.10426147282123566,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 12265
    },
    {
      "epoch": 12.503567787971457,
      "grad_norm": 0.12450341880321503,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 12266
    },
    {
      "epoch": 12.504587155963304,
      "grad_norm": 0.1278025358915329,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 12267
    },
    {
      "epoch": 12.505606523955148,
      "grad_norm": 0.12903238832950592,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12268
    },
    {
      "epoch": 12.506625891946992,
      "grad_norm": 0.23017534613609314,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 12269
    },
    {
      "epoch": 12.507645259938839,
      "grad_norm": 0.3409390151500702,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 12270
    },
    {
      "epoch": 12.508664627930683,
      "grad_norm": 0.08426864445209503,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 12271
    },
    {
      "epoch": 12.509683995922527,
      "grad_norm": 0.14415785670280457,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 12272
    },
    {
      "epoch": 12.510703363914374,
      "grad_norm": 0.09785335510969162,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 12273
    },
    {
      "epoch": 12.511722731906218,
      "grad_norm": 0.08130694925785065,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 12274
    },
    {
      "epoch": 12.512742099898063,
      "grad_norm": 0.14942805469036102,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 12275
    },
    {
      "epoch": 12.513761467889909,
      "grad_norm": 0.13157778978347778,
      "learning_rate": 0.001,
      "loss": 0.1912,
      "step": 12276
    },
    {
      "epoch": 12.514780835881753,
      "grad_norm": 0.06862933933734894,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 12277
    },
    {
      "epoch": 12.515800203873598,
      "grad_norm": 0.059078510850667953,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12278
    },
    {
      "epoch": 12.516819571865444,
      "grad_norm": 0.14950406551361084,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 12279
    },
    {
      "epoch": 12.517838939857288,
      "grad_norm": 0.0731775090098381,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 12280
    },
    {
      "epoch": 12.518858307849133,
      "grad_norm": 0.1230073869228363,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 12281
    },
    {
      "epoch": 12.519877675840979,
      "grad_norm": 0.06424208730459213,
      "learning_rate": 0.001,
      "loss": 0.1625,
      "step": 12282
    },
    {
      "epoch": 12.520897043832823,
      "grad_norm": 0.052783627063035965,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 12283
    },
    {
      "epoch": 12.52191641182467,
      "grad_norm": 0.08138154447078705,
      "learning_rate": 0.001,
      "loss": 0.153,
      "step": 12284
    },
    {
      "epoch": 12.522935779816514,
      "grad_norm": 0.08228933066129684,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12285
    },
    {
      "epoch": 12.523955147808358,
      "grad_norm": 0.17863516509532928,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 12286
    },
    {
      "epoch": 12.524974515800205,
      "grad_norm": 0.07672877609729767,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 12287
    },
    {
      "epoch": 12.525993883792049,
      "grad_norm": 0.09722428023815155,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 12288
    },
    {
      "epoch": 12.527013251783893,
      "grad_norm": 0.0698997750878334,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 12289
    },
    {
      "epoch": 12.52803261977574,
      "grad_norm": 0.041782721877098083,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 12290
    },
    {
      "epoch": 12.529051987767584,
      "grad_norm": 0.05936279147863388,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 12291
    },
    {
      "epoch": 12.530071355759429,
      "grad_norm": 0.05145370960235596,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12292
    },
    {
      "epoch": 12.531090723751275,
      "grad_norm": 0.13841816782951355,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 12293
    },
    {
      "epoch": 12.53211009174312,
      "grad_norm": 0.04690782353281975,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 12294
    },
    {
      "epoch": 12.533129459734964,
      "grad_norm": 0.09792398661375046,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 12295
    },
    {
      "epoch": 12.53414882772681,
      "grad_norm": 0.07702825963497162,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 12296
    },
    {
      "epoch": 12.535168195718654,
      "grad_norm": 0.49875226616859436,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 12297
    },
    {
      "epoch": 12.536187563710499,
      "grad_norm": 0.10026828199625015,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 12298
    },
    {
      "epoch": 12.537206931702345,
      "grad_norm": 0.12083905935287476,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 12299
    },
    {
      "epoch": 12.53822629969419,
      "grad_norm": 0.13552412390708923,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 12300
    },
    {
      "epoch": 12.539245667686036,
      "grad_norm": 0.0855506882071495,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 12301
    },
    {
      "epoch": 12.54026503567788,
      "grad_norm": 0.08092811703681946,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 12302
    },
    {
      "epoch": 12.541284403669724,
      "grad_norm": 0.07774349302053452,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 12303
    },
    {
      "epoch": 12.54230377166157,
      "grad_norm": 0.12893597781658173,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 12304
    },
    {
      "epoch": 12.543323139653415,
      "grad_norm": 0.06965085864067078,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12305
    },
    {
      "epoch": 12.54434250764526,
      "grad_norm": 0.10859782993793488,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 12306
    },
    {
      "epoch": 12.545361875637106,
      "grad_norm": 0.0530405193567276,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12307
    },
    {
      "epoch": 12.54638124362895,
      "grad_norm": 0.05159684270620346,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12308
    },
    {
      "epoch": 12.547400611620795,
      "grad_norm": 0.06081357225775719,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12309
    },
    {
      "epoch": 12.54841997961264,
      "grad_norm": 0.08402179926633835,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12310
    },
    {
      "epoch": 12.549439347604485,
      "grad_norm": 0.07878239452838898,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 12311
    },
    {
      "epoch": 12.55045871559633,
      "grad_norm": 0.06442363560199738,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 12312
    },
    {
      "epoch": 12.551478083588176,
      "grad_norm": 0.07527909427881241,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 12313
    },
    {
      "epoch": 12.55249745158002,
      "grad_norm": 0.22846922278404236,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 12314
    },
    {
      "epoch": 12.553516819571865,
      "grad_norm": 0.09668588638305664,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 12315
    },
    {
      "epoch": 12.554536187563711,
      "grad_norm": 0.06825519353151321,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 12316
    },
    {
      "epoch": 12.555555555555555,
      "grad_norm": 0.0745592787861824,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12317
    },
    {
      "epoch": 12.5565749235474,
      "grad_norm": 0.10604120045900345,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 12318
    },
    {
      "epoch": 12.557594291539246,
      "grad_norm": 0.06643824279308319,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12319
    },
    {
      "epoch": 12.55861365953109,
      "grad_norm": 0.06414113193750381,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 12320
    },
    {
      "epoch": 12.559633027522935,
      "grad_norm": 0.08839646726846695,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 12321
    },
    {
      "epoch": 12.560652395514781,
      "grad_norm": 0.07664276659488678,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 12322
    },
    {
      "epoch": 12.561671763506626,
      "grad_norm": 0.10594117641448975,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 12323
    },
    {
      "epoch": 12.562691131498472,
      "grad_norm": 0.06159568950533867,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12324
    },
    {
      "epoch": 12.563710499490316,
      "grad_norm": 0.08942259848117828,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 12325
    },
    {
      "epoch": 12.56472986748216,
      "grad_norm": 0.07182659208774567,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 12326
    },
    {
      "epoch": 12.565749235474007,
      "grad_norm": 0.0678778663277626,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12327
    },
    {
      "epoch": 12.566768603465851,
      "grad_norm": 0.11233659833669662,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 12328
    },
    {
      "epoch": 12.567787971457696,
      "grad_norm": 0.16489355266094208,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 12329
    },
    {
      "epoch": 12.568807339449542,
      "grad_norm": 0.11883886903524399,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 12330
    },
    {
      "epoch": 12.569826707441386,
      "grad_norm": 0.14837677776813507,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 12331
    },
    {
      "epoch": 12.57084607543323,
      "grad_norm": 0.07528423517942429,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 12332
    },
    {
      "epoch": 12.571865443425077,
      "grad_norm": 0.10587196052074432,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 12333
    },
    {
      "epoch": 12.572884811416921,
      "grad_norm": 0.1482490748167038,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 12334
    },
    {
      "epoch": 12.573904179408766,
      "grad_norm": 0.05299186706542969,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12335
    },
    {
      "epoch": 12.574923547400612,
      "grad_norm": 0.06590952724218369,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12336
    },
    {
      "epoch": 12.575942915392456,
      "grad_norm": 0.08074317127466202,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 12337
    },
    {
      "epoch": 12.576962283384301,
      "grad_norm": 0.16230732202529907,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 12338
    },
    {
      "epoch": 12.577981651376147,
      "grad_norm": 0.25235432386398315,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 12339
    },
    {
      "epoch": 12.579001019367992,
      "grad_norm": 0.09861258417367935,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12340
    },
    {
      "epoch": 12.580020387359838,
      "grad_norm": 0.09359268844127655,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 12341
    },
    {
      "epoch": 12.581039755351682,
      "grad_norm": 0.12050671130418777,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12342
    },
    {
      "epoch": 12.582059123343527,
      "grad_norm": 0.12134422361850739,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12343
    },
    {
      "epoch": 12.583078491335373,
      "grad_norm": 0.07504164427518845,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12344
    },
    {
      "epoch": 12.584097859327217,
      "grad_norm": 0.1245899349451065,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12345
    },
    {
      "epoch": 12.585117227319062,
      "grad_norm": 0.07776777446269989,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 12346
    },
    {
      "epoch": 12.586136595310908,
      "grad_norm": 0.05889646336436272,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 12347
    },
    {
      "epoch": 12.587155963302752,
      "grad_norm": 0.09208174049854279,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 12348
    },
    {
      "epoch": 12.588175331294597,
      "grad_norm": 0.10686523467302322,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12349
    },
    {
      "epoch": 12.589194699286443,
      "grad_norm": 0.06390652805566788,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 12350
    },
    {
      "epoch": 12.590214067278287,
      "grad_norm": 0.050568703562021255,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 12351
    },
    {
      "epoch": 12.591233435270132,
      "grad_norm": 0.13637281954288483,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12352
    },
    {
      "epoch": 12.592252803261978,
      "grad_norm": 0.09083954989910126,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 12353
    },
    {
      "epoch": 12.593272171253822,
      "grad_norm": 0.07146400958299637,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 12354
    },
    {
      "epoch": 12.594291539245667,
      "grad_norm": 0.16837000846862793,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 12355
    },
    {
      "epoch": 12.595310907237513,
      "grad_norm": 0.05677417665719986,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 12356
    },
    {
      "epoch": 12.596330275229358,
      "grad_norm": 0.11296802759170532,
      "learning_rate": 0.001,
      "loss": 0.2045,
      "step": 12357
    },
    {
      "epoch": 12.597349643221204,
      "grad_norm": 0.09554363787174225,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12358
    },
    {
      "epoch": 12.598369011213048,
      "grad_norm": 0.07503268122673035,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 12359
    },
    {
      "epoch": 12.599388379204893,
      "grad_norm": 0.12712448835372925,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12360
    },
    {
      "epoch": 12.600407747196739,
      "grad_norm": 0.07513685524463654,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 12361
    },
    {
      "epoch": 12.601427115188583,
      "grad_norm": 0.0463559590280056,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12362
    },
    {
      "epoch": 12.602446483180428,
      "grad_norm": 0.09149498492479324,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 12363
    },
    {
      "epoch": 12.603465851172274,
      "grad_norm": 0.15928277373313904,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12364
    },
    {
      "epoch": 12.604485219164118,
      "grad_norm": 0.08976338058710098,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 12365
    },
    {
      "epoch": 12.605504587155963,
      "grad_norm": 0.06697540730237961,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 12366
    },
    {
      "epoch": 12.606523955147809,
      "grad_norm": 0.09835735708475113,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 12367
    },
    {
      "epoch": 12.607543323139653,
      "grad_norm": 0.0841132402420044,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12368
    },
    {
      "epoch": 12.608562691131498,
      "grad_norm": 0.07330961525440216,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 12369
    },
    {
      "epoch": 12.609582059123344,
      "grad_norm": 0.07295827567577362,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 12370
    },
    {
      "epoch": 12.610601427115188,
      "grad_norm": 0.062033332884311676,
      "learning_rate": 0.001,
      "loss": 0.1597,
      "step": 12371
    },
    {
      "epoch": 12.611620795107033,
      "grad_norm": 0.05457460135221481,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 12372
    },
    {
      "epoch": 12.61264016309888,
      "grad_norm": 0.07051725685596466,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12373
    },
    {
      "epoch": 12.613659531090724,
      "grad_norm": 0.0866563692688942,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 12374
    },
    {
      "epoch": 12.614678899082568,
      "grad_norm": 0.1158287525177002,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 12375
    },
    {
      "epoch": 12.615698267074414,
      "grad_norm": 0.11043713986873627,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12376
    },
    {
      "epoch": 12.616717635066259,
      "grad_norm": 0.12352863699197769,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 12377
    },
    {
      "epoch": 12.617737003058103,
      "grad_norm": 0.07012118399143219,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 12378
    },
    {
      "epoch": 12.61875637104995,
      "grad_norm": 0.19041091203689575,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12379
    },
    {
      "epoch": 12.619775739041794,
      "grad_norm": 0.10048651695251465,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12380
    },
    {
      "epoch": 12.62079510703364,
      "grad_norm": 0.0789550393819809,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 12381
    },
    {
      "epoch": 12.621814475025484,
      "grad_norm": 0.14391665160655975,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 12382
    },
    {
      "epoch": 12.622833843017329,
      "grad_norm": 0.06049502268433571,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12383
    },
    {
      "epoch": 12.623853211009175,
      "grad_norm": 0.10170044004917145,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12384
    },
    {
      "epoch": 12.62487257900102,
      "grad_norm": 0.06314713507890701,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12385
    },
    {
      "epoch": 12.625891946992864,
      "grad_norm": 0.054167889058589935,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12386
    },
    {
      "epoch": 12.62691131498471,
      "grad_norm": 0.06524395197629929,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12387
    },
    {
      "epoch": 12.627930682976555,
      "grad_norm": 0.13165466487407684,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 12388
    },
    {
      "epoch": 12.628950050968399,
      "grad_norm": 0.08579512685537338,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 12389
    },
    {
      "epoch": 12.629969418960245,
      "grad_norm": 0.08125442266464233,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 12390
    },
    {
      "epoch": 12.63098878695209,
      "grad_norm": 0.061732713133096695,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12391
    },
    {
      "epoch": 12.632008154943934,
      "grad_norm": 0.052614662796258926,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 12392
    },
    {
      "epoch": 12.63302752293578,
      "grad_norm": 0.06814493238925934,
      "learning_rate": 0.001,
      "loss": 0.1503,
      "step": 12393
    },
    {
      "epoch": 12.634046890927625,
      "grad_norm": 0.1618824154138565,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12394
    },
    {
      "epoch": 12.635066258919469,
      "grad_norm": 0.11844715476036072,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 12395
    },
    {
      "epoch": 12.636085626911315,
      "grad_norm": 0.1283378303050995,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 12396
    },
    {
      "epoch": 12.63710499490316,
      "grad_norm": 0.15326739847660065,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 12397
    },
    {
      "epoch": 12.638124362895006,
      "grad_norm": 0.060009438544511795,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 12398
    },
    {
      "epoch": 12.63914373088685,
      "grad_norm": 0.06087735295295715,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 12399
    },
    {
      "epoch": 12.640163098878695,
      "grad_norm": 0.0851777121424675,
      "learning_rate": 0.001,
      "loss": 0.1581,
      "step": 12400
    },
    {
      "epoch": 12.641182466870541,
      "grad_norm": 0.07602991163730621,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 12401
    },
    {
      "epoch": 12.642201834862385,
      "grad_norm": 0.07529308646917343,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12402
    },
    {
      "epoch": 12.64322120285423,
      "grad_norm": 0.07022729516029358,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 12403
    },
    {
      "epoch": 12.644240570846076,
      "grad_norm": 0.08237077295780182,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 12404
    },
    {
      "epoch": 12.64525993883792,
      "grad_norm": 0.07014481723308563,
      "learning_rate": 0.001,
      "loss": 0.1639,
      "step": 12405
    },
    {
      "epoch": 12.646279306829765,
      "grad_norm": 0.23749497532844543,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 12406
    },
    {
      "epoch": 12.647298674821611,
      "grad_norm": 0.10056880861520767,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12407
    },
    {
      "epoch": 12.648318042813456,
      "grad_norm": 0.14469315111637115,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 12408
    },
    {
      "epoch": 12.6493374108053,
      "grad_norm": 0.12547428905963898,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 12409
    },
    {
      "epoch": 12.650356778797146,
      "grad_norm": 0.05589742586016655,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12410
    },
    {
      "epoch": 12.65137614678899,
      "grad_norm": 0.14971163868904114,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 12411
    },
    {
      "epoch": 12.652395514780835,
      "grad_norm": 0.04099732264876366,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 12412
    },
    {
      "epoch": 12.653414882772681,
      "grad_norm": 0.1291481852531433,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 12413
    },
    {
      "epoch": 12.654434250764526,
      "grad_norm": 0.13157802820205688,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 12414
    },
    {
      "epoch": 12.655453618756372,
      "grad_norm": 0.10671832412481308,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 12415
    },
    {
      "epoch": 12.656472986748216,
      "grad_norm": 0.08387387543916702,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12416
    },
    {
      "epoch": 12.65749235474006,
      "grad_norm": 0.04414449259638786,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 12417
    },
    {
      "epoch": 12.658511722731905,
      "grad_norm": 0.08790706098079681,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 12418
    },
    {
      "epoch": 12.659531090723751,
      "grad_norm": 0.07016419619321823,
      "learning_rate": 0.001,
      "loss": 0.1591,
      "step": 12419
    },
    {
      "epoch": 12.660550458715596,
      "grad_norm": 0.1514989584684372,
      "learning_rate": 0.001,
      "loss": 0.199,
      "step": 12420
    },
    {
      "epoch": 12.661569826707442,
      "grad_norm": 0.06784336268901825,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 12421
    },
    {
      "epoch": 12.662589194699287,
      "grad_norm": 0.07123515009880066,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12422
    },
    {
      "epoch": 12.663608562691131,
      "grad_norm": 0.04240378737449646,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 12423
    },
    {
      "epoch": 12.664627930682977,
      "grad_norm": 0.09200893342494965,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 12424
    },
    {
      "epoch": 12.665647298674822,
      "grad_norm": 0.07762525230646133,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12425
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.12140445411205292,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 12426
    },
    {
      "epoch": 12.667686034658512,
      "grad_norm": 0.06420821696519852,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 12427
    },
    {
      "epoch": 12.668705402650357,
      "grad_norm": 0.07734870165586472,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 12428
    },
    {
      "epoch": 12.669724770642201,
      "grad_norm": 0.09553104639053345,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 12429
    },
    {
      "epoch": 12.670744138634047,
      "grad_norm": 0.15122586488723755,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12430
    },
    {
      "epoch": 12.671763506625892,
      "grad_norm": 0.13190461695194244,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 12431
    },
    {
      "epoch": 12.672782874617736,
      "grad_norm": 0.14286412298679352,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 12432
    },
    {
      "epoch": 12.673802242609582,
      "grad_norm": 0.08634674549102783,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12433
    },
    {
      "epoch": 12.674821610601427,
      "grad_norm": 0.06789657473564148,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12434
    },
    {
      "epoch": 12.675840978593271,
      "grad_norm": 0.08278053253889084,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 12435
    },
    {
      "epoch": 12.676860346585118,
      "grad_norm": 0.04857897758483887,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12436
    },
    {
      "epoch": 12.677879714576962,
      "grad_norm": 0.03751832991838455,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 12437
    },
    {
      "epoch": 12.678899082568808,
      "grad_norm": 0.0680157020688057,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 12438
    },
    {
      "epoch": 12.679918450560653,
      "grad_norm": 0.1393754482269287,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12439
    },
    {
      "epoch": 12.680937818552497,
      "grad_norm": 0.10190721601247787,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12440
    },
    {
      "epoch": 12.681957186544343,
      "grad_norm": 0.10923052579164505,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 12441
    },
    {
      "epoch": 12.682976554536188,
      "grad_norm": 0.06743550300598145,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 12442
    },
    {
      "epoch": 12.683995922528032,
      "grad_norm": 0.0911719799041748,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12443
    },
    {
      "epoch": 12.685015290519878,
      "grad_norm": 0.051005229353904724,
      "learning_rate": 0.001,
      "loss": 0.1613,
      "step": 12444
    },
    {
      "epoch": 12.686034658511723,
      "grad_norm": 0.061524175107479095,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12445
    },
    {
      "epoch": 12.687054026503567,
      "grad_norm": 0.08597391843795776,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 12446
    },
    {
      "epoch": 12.688073394495413,
      "grad_norm": 0.055853553116321564,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12447
    },
    {
      "epoch": 12.689092762487258,
      "grad_norm": 0.11830256879329681,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 12448
    },
    {
      "epoch": 12.690112130479102,
      "grad_norm": 0.10600146651268005,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12449
    },
    {
      "epoch": 12.691131498470948,
      "grad_norm": 0.06503622978925705,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 12450
    },
    {
      "epoch": 12.692150866462793,
      "grad_norm": 0.056392788887023926,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 12451
    },
    {
      "epoch": 12.693170234454637,
      "grad_norm": 0.1257820427417755,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 12452
    },
    {
      "epoch": 12.694189602446484,
      "grad_norm": 0.1255647987127304,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 12453
    },
    {
      "epoch": 12.695208970438328,
      "grad_norm": 0.1462278813123703,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 12454
    },
    {
      "epoch": 12.696228338430174,
      "grad_norm": 0.15387095510959625,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 12455
    },
    {
      "epoch": 12.697247706422019,
      "grad_norm": 0.09613623470067978,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 12456
    },
    {
      "epoch": 12.698267074413863,
      "grad_norm": 0.09702996909618378,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 12457
    },
    {
      "epoch": 12.69928644240571,
      "grad_norm": 0.06709956377744675,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12458
    },
    {
      "epoch": 12.700305810397554,
      "grad_norm": 0.11832137405872345,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 12459
    },
    {
      "epoch": 12.701325178389398,
      "grad_norm": 0.08280865848064423,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12460
    },
    {
      "epoch": 12.702344546381244,
      "grad_norm": 0.1923716962337494,
      "learning_rate": 0.001,
      "loss": 0.1575,
      "step": 12461
    },
    {
      "epoch": 12.703363914373089,
      "grad_norm": 0.09720085561275482,
      "learning_rate": 0.001,
      "loss": 0.1543,
      "step": 12462
    },
    {
      "epoch": 12.704383282364933,
      "grad_norm": 0.08612674474716187,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 12463
    },
    {
      "epoch": 12.70540265035678,
      "grad_norm": 0.07446381449699402,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12464
    },
    {
      "epoch": 12.706422018348624,
      "grad_norm": 0.06924521923065186,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 12465
    },
    {
      "epoch": 12.707441386340468,
      "grad_norm": 0.15322771668434143,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 12466
    },
    {
      "epoch": 12.708460754332314,
      "grad_norm": 0.042587295174598694,
      "learning_rate": 0.001,
      "loss": 0.1595,
      "step": 12467
    },
    {
      "epoch": 12.709480122324159,
      "grad_norm": 0.034173063933849335,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 12468
    },
    {
      "epoch": 12.710499490316003,
      "grad_norm": 0.08800483494997025,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 12469
    },
    {
      "epoch": 12.71151885830785,
      "grad_norm": 0.08706408739089966,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12470
    },
    {
      "epoch": 12.712538226299694,
      "grad_norm": 0.1073555275797844,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 12471
    },
    {
      "epoch": 12.713557594291538,
      "grad_norm": 0.1237412616610527,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 12472
    },
    {
      "epoch": 12.714576962283385,
      "grad_norm": 0.15116281807422638,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12473
    },
    {
      "epoch": 12.715596330275229,
      "grad_norm": 0.039102911949157715,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 12474
    },
    {
      "epoch": 12.716615698267073,
      "grad_norm": 0.08455460518598557,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 12475
    },
    {
      "epoch": 12.71763506625892,
      "grad_norm": 0.027240576222538948,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 12476
    },
    {
      "epoch": 12.718654434250764,
      "grad_norm": 0.04195505380630493,
      "learning_rate": 0.001,
      "loss": 0.1588,
      "step": 12477
    },
    {
      "epoch": 12.71967380224261,
      "grad_norm": 0.03609102591872215,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 12478
    },
    {
      "epoch": 12.720693170234455,
      "grad_norm": 0.42164871096611023,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 12479
    },
    {
      "epoch": 12.7217125382263,
      "grad_norm": 0.07778074592351913,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 12480
    },
    {
      "epoch": 12.722731906218145,
      "grad_norm": 0.10564718395471573,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12481
    },
    {
      "epoch": 12.72375127420999,
      "grad_norm": 0.13012053072452545,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 12482
    },
    {
      "epoch": 12.724770642201834,
      "grad_norm": 0.04520031064748764,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12483
    },
    {
      "epoch": 12.72579001019368,
      "grad_norm": 0.10892362892627716,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12484
    },
    {
      "epoch": 12.726809378185525,
      "grad_norm": 0.11729127168655396,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 12485
    },
    {
      "epoch": 12.72782874617737,
      "grad_norm": 0.11909348517656326,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 12486
    },
    {
      "epoch": 12.728848114169216,
      "grad_norm": 0.1981552690267563,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12487
    },
    {
      "epoch": 12.72986748216106,
      "grad_norm": 0.06679674237966537,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 12488
    },
    {
      "epoch": 12.730886850152904,
      "grad_norm": 0.10874870419502258,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 12489
    },
    {
      "epoch": 12.73190621814475,
      "grad_norm": 0.13075444102287292,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 12490
    },
    {
      "epoch": 12.732925586136595,
      "grad_norm": 0.3847915828227997,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 12491
    },
    {
      "epoch": 12.73394495412844,
      "grad_norm": 0.11665650457143784,
      "learning_rate": 0.001,
      "loss": 0.1656,
      "step": 12492
    },
    {
      "epoch": 12.734964322120286,
      "grad_norm": 0.10340310633182526,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12493
    },
    {
      "epoch": 12.73598369011213,
      "grad_norm": 0.23639681935310364,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 12494
    },
    {
      "epoch": 12.737003058103976,
      "grad_norm": 0.107681505382061,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12495
    },
    {
      "epoch": 12.73802242609582,
      "grad_norm": 0.1607314646244049,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 12496
    },
    {
      "epoch": 12.739041794087665,
      "grad_norm": 0.1941891759634018,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 12497
    },
    {
      "epoch": 12.740061162079511,
      "grad_norm": 0.08028757572174072,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12498
    },
    {
      "epoch": 12.741080530071356,
      "grad_norm": 0.09626945853233337,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 12499
    },
    {
      "epoch": 12.7420998980632,
      "grad_norm": 0.09671196341514587,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12500
    },
    {
      "epoch": 12.743119266055047,
      "grad_norm": 0.09652535617351532,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12501
    },
    {
      "epoch": 12.744138634046891,
      "grad_norm": 0.08706111460924149,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 12502
    },
    {
      "epoch": 12.745158002038735,
      "grad_norm": 0.0774998664855957,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 12503
    },
    {
      "epoch": 12.746177370030582,
      "grad_norm": 0.06780023872852325,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 12504
    },
    {
      "epoch": 12.747196738022426,
      "grad_norm": 0.1825219839811325,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 12505
    },
    {
      "epoch": 12.74821610601427,
      "grad_norm": 0.05517013743519783,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 12506
    },
    {
      "epoch": 12.749235474006117,
      "grad_norm": 0.05629914253950119,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 12507
    },
    {
      "epoch": 12.750254841997961,
      "grad_norm": 0.06164121627807617,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 12508
    },
    {
      "epoch": 12.751274209989806,
      "grad_norm": 0.08466460555791855,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 12509
    },
    {
      "epoch": 12.752293577981652,
      "grad_norm": 0.06722134351730347,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 12510
    },
    {
      "epoch": 12.753312945973496,
      "grad_norm": 0.12904655933380127,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 12511
    },
    {
      "epoch": 12.754332313965342,
      "grad_norm": 0.06274008750915527,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 12512
    },
    {
      "epoch": 12.755351681957187,
      "grad_norm": 0.0733090192079544,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 12513
    },
    {
      "epoch": 12.756371049949031,
      "grad_norm": 0.09677230566740036,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12514
    },
    {
      "epoch": 12.757390417940877,
      "grad_norm": 0.09028381109237671,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12515
    },
    {
      "epoch": 12.758409785932722,
      "grad_norm": 0.06365925818681717,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 12516
    },
    {
      "epoch": 12.759429153924566,
      "grad_norm": 0.05986369028687477,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 12517
    },
    {
      "epoch": 12.760448521916413,
      "grad_norm": 0.09981752932071686,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12518
    },
    {
      "epoch": 12.761467889908257,
      "grad_norm": 0.07772846519947052,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 12519
    },
    {
      "epoch": 12.762487257900101,
      "grad_norm": 0.1061563789844513,
      "learning_rate": 0.001,
      "loss": 0.1654,
      "step": 12520
    },
    {
      "epoch": 12.763506625891948,
      "grad_norm": 0.05221845954656601,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12521
    },
    {
      "epoch": 12.764525993883792,
      "grad_norm": 0.09263380616903305,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 12522
    },
    {
      "epoch": 12.765545361875636,
      "grad_norm": 0.06976991891860962,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 12523
    },
    {
      "epoch": 12.766564729867483,
      "grad_norm": 0.07651913911104202,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 12524
    },
    {
      "epoch": 12.767584097859327,
      "grad_norm": 0.1072232574224472,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 12525
    },
    {
      "epoch": 12.768603465851172,
      "grad_norm": 0.18678537011146545,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 12526
    },
    {
      "epoch": 12.769622833843018,
      "grad_norm": 0.14617300033569336,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 12527
    },
    {
      "epoch": 12.770642201834862,
      "grad_norm": 0.10815416276454926,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 12528
    },
    {
      "epoch": 12.771661569826707,
      "grad_norm": 0.13103324174880981,
      "learning_rate": 0.001,
      "loss": 0.1588,
      "step": 12529
    },
    {
      "epoch": 12.772680937818553,
      "grad_norm": 0.06213910132646561,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12530
    },
    {
      "epoch": 12.773700305810397,
      "grad_norm": 0.18432234227657318,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 12531
    },
    {
      "epoch": 12.774719673802242,
      "grad_norm": 0.33783718943595886,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 12532
    },
    {
      "epoch": 12.775739041794088,
      "grad_norm": 0.06073756888508797,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12533
    },
    {
      "epoch": 12.776758409785932,
      "grad_norm": 0.12410085648298264,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 12534
    },
    {
      "epoch": 12.777777777777779,
      "grad_norm": 0.0720137283205986,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12535
    },
    {
      "epoch": 12.778797145769623,
      "grad_norm": 0.07618485391139984,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12536
    },
    {
      "epoch": 12.779816513761467,
      "grad_norm": 0.12230336666107178,
      "learning_rate": 0.001,
      "loss": 0.2054,
      "step": 12537
    },
    {
      "epoch": 12.780835881753314,
      "grad_norm": 0.08768939226865768,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12538
    },
    {
      "epoch": 12.781855249745158,
      "grad_norm": 0.13655388355255127,
      "learning_rate": 0.001,
      "loss": 0.2107,
      "step": 12539
    },
    {
      "epoch": 12.782874617737003,
      "grad_norm": 0.07730740308761597,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 12540
    },
    {
      "epoch": 12.783893985728849,
      "grad_norm": 0.35834890604019165,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 12541
    },
    {
      "epoch": 12.784913353720693,
      "grad_norm": 0.11547987908124924,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12542
    },
    {
      "epoch": 12.785932721712538,
      "grad_norm": 0.25250256061553955,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 12543
    },
    {
      "epoch": 12.786952089704384,
      "grad_norm": 0.0986722856760025,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12544
    },
    {
      "epoch": 12.787971457696228,
      "grad_norm": 0.11497592180967331,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 12545
    },
    {
      "epoch": 12.788990825688073,
      "grad_norm": 0.0663505494594574,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 12546
    },
    {
      "epoch": 12.790010193679919,
      "grad_norm": 0.0842474102973938,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 12547
    },
    {
      "epoch": 12.791029561671763,
      "grad_norm": 0.07589474320411682,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 12548
    },
    {
      "epoch": 12.792048929663608,
      "grad_norm": 0.0786130353808403,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 12549
    },
    {
      "epoch": 12.793068297655454,
      "grad_norm": 0.0625726580619812,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12550
    },
    {
      "epoch": 12.794087665647298,
      "grad_norm": 0.1297713667154312,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 12551
    },
    {
      "epoch": 12.795107033639145,
      "grad_norm": 0.14293378591537476,
      "learning_rate": 0.001,
      "loss": 0.1996,
      "step": 12552
    },
    {
      "epoch": 12.796126401630989,
      "grad_norm": 0.12658511102199554,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 12553
    },
    {
      "epoch": 12.797145769622833,
      "grad_norm": 0.12791074812412262,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 12554
    },
    {
      "epoch": 12.79816513761468,
      "grad_norm": 0.6515362858772278,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 12555
    },
    {
      "epoch": 12.799184505606524,
      "grad_norm": 0.05733770132064819,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 12556
    },
    {
      "epoch": 12.800203873598369,
      "grad_norm": 0.07961740344762802,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12557
    },
    {
      "epoch": 12.801223241590215,
      "grad_norm": 0.14648760855197906,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12558
    },
    {
      "epoch": 12.80224260958206,
      "grad_norm": 0.09831752628087997,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 12559
    },
    {
      "epoch": 12.803261977573904,
      "grad_norm": 0.15044300258159637,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 12560
    },
    {
      "epoch": 12.80428134556575,
      "grad_norm": 0.06047604978084564,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12561
    },
    {
      "epoch": 12.805300713557594,
      "grad_norm": 0.10039375722408295,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 12562
    },
    {
      "epoch": 12.806320081549439,
      "grad_norm": 0.0647314265370369,
      "learning_rate": 0.001,
      "loss": 0.2009,
      "step": 12563
    },
    {
      "epoch": 12.807339449541285,
      "grad_norm": 0.09586123377084732,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 12564
    },
    {
      "epoch": 12.80835881753313,
      "grad_norm": 0.07286964356899261,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 12565
    },
    {
      "epoch": 12.809378185524974,
      "grad_norm": 0.13704465329647064,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 12566
    },
    {
      "epoch": 12.81039755351682,
      "grad_norm": 0.108768530189991,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 12567
    },
    {
      "epoch": 12.811416921508664,
      "grad_norm": 0.09940202534198761,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 12568
    },
    {
      "epoch": 12.81243628950051,
      "grad_norm": 0.07936882227659225,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 12569
    },
    {
      "epoch": 12.813455657492355,
      "grad_norm": 0.17016039788722992,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12570
    },
    {
      "epoch": 12.8144750254842,
      "grad_norm": 0.08120778948068619,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12571
    },
    {
      "epoch": 12.815494393476044,
      "grad_norm": 0.30941420793533325,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 12572
    },
    {
      "epoch": 12.81651376146789,
      "grad_norm": 0.10166353732347488,
      "learning_rate": 0.001,
      "loss": 0.1658,
      "step": 12573
    },
    {
      "epoch": 12.817533129459735,
      "grad_norm": 0.07194598764181137,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12574
    },
    {
      "epoch": 12.81855249745158,
      "grad_norm": 0.13091953098773956,
      "learning_rate": 0.001,
      "loss": 0.2087,
      "step": 12575
    },
    {
      "epoch": 12.819571865443425,
      "grad_norm": 0.16341274976730347,
      "learning_rate": 0.001,
      "loss": 0.2046,
      "step": 12576
    },
    {
      "epoch": 12.82059123343527,
      "grad_norm": 0.10582683235406876,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12577
    },
    {
      "epoch": 12.821610601427116,
      "grad_norm": 0.1440746784210205,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 12578
    },
    {
      "epoch": 12.82262996941896,
      "grad_norm": 0.12302142381668091,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12579
    },
    {
      "epoch": 12.823649337410805,
      "grad_norm": 0.09513068944215775,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 12580
    },
    {
      "epoch": 12.824668705402651,
      "grad_norm": 0.13750065863132477,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 12581
    },
    {
      "epoch": 12.825688073394495,
      "grad_norm": 0.05392591655254364,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 12582
    },
    {
      "epoch": 12.82670744138634,
      "grad_norm": 0.12960486114025116,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 12583
    },
    {
      "epoch": 12.827726809378186,
      "grad_norm": 0.15029482543468475,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 12584
    },
    {
      "epoch": 12.82874617737003,
      "grad_norm": 0.08495119959115982,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 12585
    },
    {
      "epoch": 12.829765545361875,
      "grad_norm": 0.10440335422754288,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 12586
    },
    {
      "epoch": 12.830784913353721,
      "grad_norm": 0.06553998589515686,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 12587
    },
    {
      "epoch": 12.831804281345565,
      "grad_norm": 0.13005104660987854,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 12588
    },
    {
      "epoch": 12.83282364933741,
      "grad_norm": 0.12632246315479279,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12589
    },
    {
      "epoch": 12.833843017329256,
      "grad_norm": 0.11809572577476501,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 12590
    },
    {
      "epoch": 12.8348623853211,
      "grad_norm": 0.06651610881090164,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 12591
    },
    {
      "epoch": 12.835881753312947,
      "grad_norm": 0.16746298968791962,
      "learning_rate": 0.001,
      "loss": 0.2118,
      "step": 12592
    },
    {
      "epoch": 12.836901121304791,
      "grad_norm": 0.11641997843980789,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12593
    },
    {
      "epoch": 12.837920489296636,
      "grad_norm": 0.12841521203517914,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 12594
    },
    {
      "epoch": 12.838939857288482,
      "grad_norm": 0.2131105661392212,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 12595
    },
    {
      "epoch": 12.839959225280326,
      "grad_norm": 0.09403806924819946,
      "learning_rate": 0.001,
      "loss": 0.2036,
      "step": 12596
    },
    {
      "epoch": 12.84097859327217,
      "grad_norm": 0.07474641501903534,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12597
    },
    {
      "epoch": 12.841997961264017,
      "grad_norm": 0.06959876418113708,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 12598
    },
    {
      "epoch": 12.843017329255861,
      "grad_norm": 0.10035455971956253,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 12599
    },
    {
      "epoch": 12.844036697247706,
      "grad_norm": 0.07676618546247482,
      "learning_rate": 0.001,
      "loss": 0.1952,
      "step": 12600
    },
    {
      "epoch": 12.845056065239552,
      "grad_norm": 0.4068395793437958,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12601
    },
    {
      "epoch": 12.846075433231396,
      "grad_norm": 0.08936744183301926,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12602
    },
    {
      "epoch": 12.84709480122324,
      "grad_norm": 0.13195928931236267,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 12603
    },
    {
      "epoch": 12.848114169215087,
      "grad_norm": 0.1207842081785202,
      "learning_rate": 0.001,
      "loss": 0.198,
      "step": 12604
    },
    {
      "epoch": 12.849133537206932,
      "grad_norm": 0.11888832598924637,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 12605
    },
    {
      "epoch": 12.850152905198776,
      "grad_norm": 0.39974597096443176,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 12606
    },
    {
      "epoch": 12.851172273190622,
      "grad_norm": 0.07440781593322754,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12607
    },
    {
      "epoch": 12.852191641182467,
      "grad_norm": 0.07480879127979279,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12608
    },
    {
      "epoch": 12.853211009174313,
      "grad_norm": 0.1751941293478012,
      "learning_rate": 0.001,
      "loss": 0.2083,
      "step": 12609
    },
    {
      "epoch": 12.854230377166157,
      "grad_norm": 0.07996134459972382,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 12610
    },
    {
      "epoch": 12.855249745158002,
      "grad_norm": 0.04044332355260849,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 12611
    },
    {
      "epoch": 12.856269113149848,
      "grad_norm": 0.12039210647344589,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 12612
    },
    {
      "epoch": 12.857288481141692,
      "grad_norm": 0.07268153876066208,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12613
    },
    {
      "epoch": 12.858307849133537,
      "grad_norm": 0.06767699867486954,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 12614
    },
    {
      "epoch": 12.859327217125383,
      "grad_norm": 0.16919143497943878,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 12615
    },
    {
      "epoch": 12.860346585117227,
      "grad_norm": 0.10139990597963333,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12616
    },
    {
      "epoch": 12.861365953109072,
      "grad_norm": 0.10580852627754211,
      "learning_rate": 0.001,
      "loss": 0.1965,
      "step": 12617
    },
    {
      "epoch": 12.862385321100918,
      "grad_norm": 0.10488928109407425,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 12618
    },
    {
      "epoch": 12.863404689092762,
      "grad_norm": 0.10436534881591797,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 12619
    },
    {
      "epoch": 12.864424057084607,
      "grad_norm": 0.0480039119720459,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 12620
    },
    {
      "epoch": 12.865443425076453,
      "grad_norm": 0.09990007430315018,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12621
    },
    {
      "epoch": 12.866462793068298,
      "grad_norm": 0.08599527925252914,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 12622
    },
    {
      "epoch": 12.867482161060142,
      "grad_norm": 0.11816195398569107,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 12623
    },
    {
      "epoch": 12.868501529051988,
      "grad_norm": 0.06759466230869293,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 12624
    },
    {
      "epoch": 12.869520897043833,
      "grad_norm": 0.1149679571390152,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 12625
    },
    {
      "epoch": 12.870540265035677,
      "grad_norm": 0.17021723091602325,
      "learning_rate": 0.001,
      "loss": 0.21,
      "step": 12626
    },
    {
      "epoch": 12.871559633027523,
      "grad_norm": 0.07903562486171722,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12627
    },
    {
      "epoch": 12.872579001019368,
      "grad_norm": 0.11744152754545212,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 12628
    },
    {
      "epoch": 12.873598369011212,
      "grad_norm": 0.05158371850848198,
      "learning_rate": 0.001,
      "loss": 0.1855,
      "step": 12629
    },
    {
      "epoch": 12.874617737003058,
      "grad_norm": 0.04822302982211113,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 12630
    },
    {
      "epoch": 12.875637104994903,
      "grad_norm": 0.11266569793224335,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 12631
    },
    {
      "epoch": 12.876656472986749,
      "grad_norm": 0.0843450129032135,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 12632
    },
    {
      "epoch": 12.877675840978593,
      "grad_norm": 0.11967481672763824,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 12633
    },
    {
      "epoch": 12.878695208970438,
      "grad_norm": 0.13387571275234222,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 12634
    },
    {
      "epoch": 12.879714576962284,
      "grad_norm": 0.16547338664531708,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12635
    },
    {
      "epoch": 12.880733944954128,
      "grad_norm": 0.2147941291332245,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 12636
    },
    {
      "epoch": 12.881753312945973,
      "grad_norm": 0.08390891551971436,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 12637
    },
    {
      "epoch": 12.88277268093782,
      "grad_norm": 0.11387847363948822,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12638
    },
    {
      "epoch": 12.883792048929664,
      "grad_norm": 0.073909230530262,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 12639
    },
    {
      "epoch": 12.884811416921508,
      "grad_norm": 0.09155839681625366,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 12640
    },
    {
      "epoch": 12.885830784913354,
      "grad_norm": 0.06883695721626282,
      "learning_rate": 0.001,
      "loss": 0.2076,
      "step": 12641
    },
    {
      "epoch": 12.886850152905199,
      "grad_norm": 0.08024518191814423,
      "learning_rate": 0.001,
      "loss": 0.1511,
      "step": 12642
    },
    {
      "epoch": 12.887869520897043,
      "grad_norm": 0.08311424404382706,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 12643
    },
    {
      "epoch": 12.88888888888889,
      "grad_norm": 0.13802610337734222,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 12644
    },
    {
      "epoch": 12.889908256880734,
      "grad_norm": 0.11803719401359558,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 12645
    },
    {
      "epoch": 12.890927624872578,
      "grad_norm": 0.24489383399486542,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 12646
    },
    {
      "epoch": 12.891946992864424,
      "grad_norm": 0.13371895253658295,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 12647
    },
    {
      "epoch": 12.892966360856269,
      "grad_norm": 0.07014355808496475,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12648
    },
    {
      "epoch": 12.893985728848115,
      "grad_norm": 0.08845201134681702,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 12649
    },
    {
      "epoch": 12.89500509683996,
      "grad_norm": 0.1605663001537323,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 12650
    },
    {
      "epoch": 12.896024464831804,
      "grad_norm": 0.21275340020656586,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12651
    },
    {
      "epoch": 12.89704383282365,
      "grad_norm": 0.08694334328174591,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 12652
    },
    {
      "epoch": 12.898063200815495,
      "grad_norm": 0.09225112199783325,
      "learning_rate": 0.001,
      "loss": 0.2028,
      "step": 12653
    },
    {
      "epoch": 12.899082568807339,
      "grad_norm": 0.14886736869812012,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 12654
    },
    {
      "epoch": 12.900101936799185,
      "grad_norm": 0.09150435775518417,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12655
    },
    {
      "epoch": 12.90112130479103,
      "grad_norm": 0.04944624751806259,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 12656
    },
    {
      "epoch": 12.902140672782874,
      "grad_norm": 0.10842189192771912,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 12657
    },
    {
      "epoch": 12.90316004077472,
      "grad_norm": 0.10817056894302368,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12658
    },
    {
      "epoch": 12.904179408766565,
      "grad_norm": 0.10715840011835098,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 12659
    },
    {
      "epoch": 12.905198776758409,
      "grad_norm": 0.09708254784345627,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 12660
    },
    {
      "epoch": 12.906218144750255,
      "grad_norm": 0.18147012591362,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 12661
    },
    {
      "epoch": 12.9072375127421,
      "grad_norm": 0.04312644153833389,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 12662
    },
    {
      "epoch": 12.908256880733944,
      "grad_norm": 0.11918316036462784,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 12663
    },
    {
      "epoch": 12.90927624872579,
      "grad_norm": 0.05592096224427223,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12664
    },
    {
      "epoch": 12.910295616717635,
      "grad_norm": 0.09569007158279419,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 12665
    },
    {
      "epoch": 12.911314984709481,
      "grad_norm": 0.039571087807416916,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 12666
    },
    {
      "epoch": 12.912334352701325,
      "grad_norm": 0.07615227997303009,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 12667
    },
    {
      "epoch": 12.91335372069317,
      "grad_norm": 0.08327120542526245,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 12668
    },
    {
      "epoch": 12.914373088685016,
      "grad_norm": 0.08804801106452942,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 12669
    },
    {
      "epoch": 12.91539245667686,
      "grad_norm": 0.09948316961526871,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 12670
    },
    {
      "epoch": 12.916411824668705,
      "grad_norm": 0.14540112018585205,
      "learning_rate": 0.001,
      "loss": 0.2062,
      "step": 12671
    },
    {
      "epoch": 12.917431192660551,
      "grad_norm": 0.09276378154754639,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 12672
    },
    {
      "epoch": 12.918450560652396,
      "grad_norm": 0.0831165760755539,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 12673
    },
    {
      "epoch": 12.91946992864424,
      "grad_norm": 0.09604136645793915,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12674
    },
    {
      "epoch": 12.920489296636086,
      "grad_norm": 0.12888634204864502,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 12675
    },
    {
      "epoch": 12.92150866462793,
      "grad_norm": 0.14378339052200317,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 12676
    },
    {
      "epoch": 12.922528032619775,
      "grad_norm": 0.09833823144435883,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 12677
    },
    {
      "epoch": 12.923547400611621,
      "grad_norm": 0.12211956083774567,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 12678
    },
    {
      "epoch": 12.924566768603466,
      "grad_norm": 0.0886073186993599,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 12679
    },
    {
      "epoch": 12.92558613659531,
      "grad_norm": 0.12207596004009247,
      "learning_rate": 0.001,
      "loss": 0.2073,
      "step": 12680
    },
    {
      "epoch": 12.926605504587156,
      "grad_norm": 0.047158218920230865,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 12681
    },
    {
      "epoch": 12.927624872579,
      "grad_norm": 0.12132419645786285,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12682
    },
    {
      "epoch": 12.928644240570845,
      "grad_norm": 0.15432122349739075,
      "learning_rate": 0.001,
      "loss": 0.1979,
      "step": 12683
    },
    {
      "epoch": 12.929663608562691,
      "grad_norm": 0.12146461755037308,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 12684
    },
    {
      "epoch": 12.930682976554536,
      "grad_norm": 0.0897793248295784,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12685
    },
    {
      "epoch": 12.93170234454638,
      "grad_norm": 0.07241374254226685,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12686
    },
    {
      "epoch": 12.932721712538227,
      "grad_norm": 0.07806842029094696,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 12687
    },
    {
      "epoch": 12.933741080530071,
      "grad_norm": 0.12031260877847672,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 12688
    },
    {
      "epoch": 12.934760448521917,
      "grad_norm": 0.08266709744930267,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12689
    },
    {
      "epoch": 12.935779816513762,
      "grad_norm": 0.07189648598432541,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 12690
    },
    {
      "epoch": 12.936799184505606,
      "grad_norm": 0.049609776586294174,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 12691
    },
    {
      "epoch": 12.937818552497452,
      "grad_norm": 0.10250139981508255,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 12692
    },
    {
      "epoch": 12.938837920489297,
      "grad_norm": 0.20822258293628693,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 12693
    },
    {
      "epoch": 12.939857288481141,
      "grad_norm": 0.052512720227241516,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 12694
    },
    {
      "epoch": 12.940876656472987,
      "grad_norm": 0.08441995829343796,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 12695
    },
    {
      "epoch": 12.941896024464832,
      "grad_norm": 0.1679629236459732,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 12696
    },
    {
      "epoch": 12.942915392456676,
      "grad_norm": 0.07451093196868896,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12697
    },
    {
      "epoch": 12.943934760448522,
      "grad_norm": 0.06349106132984161,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 12698
    },
    {
      "epoch": 12.944954128440367,
      "grad_norm": 0.11426202207803726,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 12699
    },
    {
      "epoch": 12.945973496432211,
      "grad_norm": 0.09083280712366104,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 12700
    },
    {
      "epoch": 12.946992864424058,
      "grad_norm": 0.1446656733751297,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12701
    },
    {
      "epoch": 12.948012232415902,
      "grad_norm": 0.08607278019189835,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 12702
    },
    {
      "epoch": 12.949031600407746,
      "grad_norm": 0.1154739111661911,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 12703
    },
    {
      "epoch": 12.950050968399593,
      "grad_norm": 0.11509006470441818,
      "learning_rate": 0.001,
      "loss": 0.202,
      "step": 12704
    },
    {
      "epoch": 12.951070336391437,
      "grad_norm": 0.12424933910369873,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 12705
    },
    {
      "epoch": 12.952089704383283,
      "grad_norm": 0.14700809121131897,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 12706
    },
    {
      "epoch": 12.953109072375128,
      "grad_norm": 0.06675932556390762,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 12707
    },
    {
      "epoch": 12.954128440366972,
      "grad_norm": 0.11867663264274597,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 12708
    },
    {
      "epoch": 12.955147808358818,
      "grad_norm": 0.07102683186531067,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 12709
    },
    {
      "epoch": 12.956167176350663,
      "grad_norm": 0.08487655222415924,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 12710
    },
    {
      "epoch": 12.957186544342507,
      "grad_norm": 0.0499553382396698,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 12711
    },
    {
      "epoch": 12.958205912334353,
      "grad_norm": 0.11724399775266647,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12712
    },
    {
      "epoch": 12.959225280326198,
      "grad_norm": 0.12964051961898804,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 12713
    },
    {
      "epoch": 12.960244648318042,
      "grad_norm": 0.11680849641561508,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 12714
    },
    {
      "epoch": 12.961264016309888,
      "grad_norm": 0.09352895617485046,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 12715
    },
    {
      "epoch": 12.962283384301733,
      "grad_norm": 0.05807951092720032,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12716
    },
    {
      "epoch": 12.963302752293577,
      "grad_norm": 0.0737704485654831,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 12717
    },
    {
      "epoch": 12.964322120285424,
      "grad_norm": 0.12489336729049683,
      "learning_rate": 0.001,
      "loss": 0.2061,
      "step": 12718
    },
    {
      "epoch": 12.965341488277268,
      "grad_norm": 0.05853046476840973,
      "learning_rate": 0.001,
      "loss": 0.1584,
      "step": 12719
    },
    {
      "epoch": 12.966360856269112,
      "grad_norm": 0.13139459490776062,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12720
    },
    {
      "epoch": 12.967380224260959,
      "grad_norm": 0.06941884756088257,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 12721
    },
    {
      "epoch": 12.968399592252803,
      "grad_norm": 0.043718405067920685,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12722
    },
    {
      "epoch": 12.96941896024465,
      "grad_norm": 0.10087943077087402,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12723
    },
    {
      "epoch": 12.970438328236494,
      "grad_norm": 0.1003955528140068,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 12724
    },
    {
      "epoch": 12.971457696228338,
      "grad_norm": 0.0838439017534256,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 12725
    },
    {
      "epoch": 12.972477064220184,
      "grad_norm": 0.0546262301504612,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 12726
    },
    {
      "epoch": 12.973496432212029,
      "grad_norm": 0.09557534009218216,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 12727
    },
    {
      "epoch": 12.974515800203873,
      "grad_norm": 0.04758404940366745,
      "learning_rate": 0.001,
      "loss": 0.155,
      "step": 12728
    },
    {
      "epoch": 12.97553516819572,
      "grad_norm": 0.1213349997997284,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 12729
    },
    {
      "epoch": 12.976554536187564,
      "grad_norm": 0.10391402244567871,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 12730
    },
    {
      "epoch": 12.977573904179408,
      "grad_norm": 0.20156852900981903,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12731
    },
    {
      "epoch": 12.978593272171254,
      "grad_norm": 0.04675282910466194,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 12732
    },
    {
      "epoch": 12.979612640163099,
      "grad_norm": 0.057267285883426666,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 12733
    },
    {
      "epoch": 12.980632008154943,
      "grad_norm": 0.07979042828083038,
      "learning_rate": 0.001,
      "loss": 0.1589,
      "step": 12734
    },
    {
      "epoch": 12.98165137614679,
      "grad_norm": 0.09317339956760406,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12735
    },
    {
      "epoch": 12.982670744138634,
      "grad_norm": 0.08000539243221283,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12736
    },
    {
      "epoch": 12.983690112130478,
      "grad_norm": 0.19816060364246368,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 12737
    },
    {
      "epoch": 12.984709480122325,
      "grad_norm": 0.0450742244720459,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 12738
    },
    {
      "epoch": 12.985728848114169,
      "grad_norm": 0.04161504656076431,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 12739
    },
    {
      "epoch": 12.986748216106013,
      "grad_norm": 0.0921381488442421,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 12740
    },
    {
      "epoch": 12.98776758409786,
      "grad_norm": 0.09350978583097458,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 12741
    },
    {
      "epoch": 12.988786952089704,
      "grad_norm": 0.1333632618188858,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 12742
    },
    {
      "epoch": 12.989806320081549,
      "grad_norm": 0.04882258549332619,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 12743
    },
    {
      "epoch": 12.990825688073395,
      "grad_norm": 0.14176906645298004,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 12744
    },
    {
      "epoch": 12.99184505606524,
      "grad_norm": 0.07314116507768631,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12745
    },
    {
      "epoch": 12.992864424057085,
      "grad_norm": 0.05920516699552536,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 12746
    },
    {
      "epoch": 12.99388379204893,
      "grad_norm": 0.08819939196109772,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 12747
    },
    {
      "epoch": 12.994903160040774,
      "grad_norm": 0.16246093809604645,
      "learning_rate": 0.001,
      "loss": 0.208,
      "step": 12748
    },
    {
      "epoch": 12.99592252803262,
      "grad_norm": 0.0642712190747261,
      "learning_rate": 0.001,
      "loss": 0.1605,
      "step": 12749
    },
    {
      "epoch": 12.996941896024465,
      "grad_norm": 0.0857495591044426,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 12750
    },
    {
      "epoch": 12.99796126401631,
      "grad_norm": 0.04197457432746887,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12751
    },
    {
      "epoch": 12.998980632008156,
      "grad_norm": 0.1961992383003235,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 12752
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.08128778636455536,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12753
    },
    {
      "epoch": 13.0,
      "eval_-_f1-score": 0.2692307692307692,
      "eval_-_precision": 0.23333333333333334,
      "eval_-_recall": 0.3181818181818182,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9658234383066597,
      "eval_<_precision": 0.9703319502074689,
      "eval_<_recall": 0.9613566289825283,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.811965811965812,
      "eval_=_precision": 0.8636363636363636,
      "eval_=_recall": 0.7661290322580645,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9662072485962225,
      "eval_>_precision": 0.9598377281947261,
      "eval_>_recall": 0.9726618705035971,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9606,
      "eval_loss": 0.10763359069824219,
      "eval_macro_avg_f1-score": 0.7533068170248658,
      "eval_macro_avg_precision": 0.7567848438429731,
      "eval_macro_avg_recall": 0.754582337481502,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.8569,
      "eval_samples_per_second": 777.791,
      "eval_steps_per_second": 3.111,
      "eval_weighted_avg_f1-score": 0.9606619890073119,
      "eval_weighted_avg_precision": 0.9609590636941829,
      "eval_weighted_avg_recall": 0.9606,
      "eval_weighted_avg_support": 10000.0,
      "step": 12753
    },
    {
      "epoch": 13.001019367991844,
      "grad_norm": 0.07316002249717712,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12754
    },
    {
      "epoch": 13.00203873598369,
      "grad_norm": 0.0348367802798748,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 12755
    },
    {
      "epoch": 13.003058103975535,
      "grad_norm": 0.07571807503700256,
      "learning_rate": 0.001,
      "loss": 0.1569,
      "step": 12756
    },
    {
      "epoch": 13.00407747196738,
      "grad_norm": 1.2629199028015137,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 12757
    },
    {
      "epoch": 13.005096839959226,
      "grad_norm": 0.1556091159582138,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 12758
    },
    {
      "epoch": 13.00611620795107,
      "grad_norm": 0.06088182330131531,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12759
    },
    {
      "epoch": 13.007135575942915,
      "grad_norm": 0.09026365727186203,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 12760
    },
    {
      "epoch": 13.00815494393476,
      "grad_norm": 0.1601184606552124,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 12761
    },
    {
      "epoch": 13.009174311926605,
      "grad_norm": 0.08026527613401413,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 12762
    },
    {
      "epoch": 13.010193679918451,
      "grad_norm": 0.12155252695083618,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 12763
    },
    {
      "epoch": 13.011213047910296,
      "grad_norm": 0.044280052185058594,
      "learning_rate": 0.001,
      "loss": 0.1729,
      "step": 12764
    },
    {
      "epoch": 13.01223241590214,
      "grad_norm": 0.06935954838991165,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 12765
    },
    {
      "epoch": 13.013251783893987,
      "grad_norm": 0.03805913031101227,
      "learning_rate": 0.001,
      "loss": 0.1592,
      "step": 12766
    },
    {
      "epoch": 13.014271151885831,
      "grad_norm": 0.056606270372867584,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12767
    },
    {
      "epoch": 13.015290519877675,
      "grad_norm": 0.07192099839448929,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12768
    },
    {
      "epoch": 13.016309887869522,
      "grad_norm": 0.11510930210351944,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 12769
    },
    {
      "epoch": 13.017329255861366,
      "grad_norm": 0.11557486653327942,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 12770
    },
    {
      "epoch": 13.01834862385321,
      "grad_norm": 0.07061320543289185,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 12771
    },
    {
      "epoch": 13.019367991845057,
      "grad_norm": 0.10573675483465195,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 12772
    },
    {
      "epoch": 13.020387359836901,
      "grad_norm": 0.10159187018871307,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 12773
    },
    {
      "epoch": 13.021406727828746,
      "grad_norm": 0.14913718402385712,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 12774
    },
    {
      "epoch": 13.022426095820592,
      "grad_norm": 0.07970254868268967,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12775
    },
    {
      "epoch": 13.023445463812436,
      "grad_norm": 0.14304882287979126,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12776
    },
    {
      "epoch": 13.02446483180428,
      "grad_norm": 0.11864766478538513,
      "learning_rate": 0.001,
      "loss": 0.1838,
      "step": 12777
    },
    {
      "epoch": 13.025484199796127,
      "grad_norm": 0.08249841630458832,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 12778
    },
    {
      "epoch": 13.026503567787971,
      "grad_norm": 0.05918692797422409,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 12779
    },
    {
      "epoch": 13.027522935779816,
      "grad_norm": 0.05710907280445099,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 12780
    },
    {
      "epoch": 13.028542303771662,
      "grad_norm": 0.06820684671401978,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12781
    },
    {
      "epoch": 13.029561671763506,
      "grad_norm": 0.14598655700683594,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 12782
    },
    {
      "epoch": 13.030581039755353,
      "grad_norm": 0.09276681393384933,
      "learning_rate": 0.001,
      "loss": 0.1671,
      "step": 12783
    },
    {
      "epoch": 13.031600407747197,
      "grad_norm": 0.05064784362912178,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 12784
    },
    {
      "epoch": 13.032619775739041,
      "grad_norm": 0.06572848558425903,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 12785
    },
    {
      "epoch": 13.033639143730888,
      "grad_norm": 0.132564976811409,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12786
    },
    {
      "epoch": 13.034658511722732,
      "grad_norm": 0.10052401572465897,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 12787
    },
    {
      "epoch": 13.035677879714576,
      "grad_norm": 0.062423937022686005,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12788
    },
    {
      "epoch": 13.036697247706423,
      "grad_norm": 0.09438396990299225,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 12789
    },
    {
      "epoch": 13.037716615698267,
      "grad_norm": 0.11152175068855286,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12790
    },
    {
      "epoch": 13.038735983690112,
      "grad_norm": 0.04609393700957298,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 12791
    },
    {
      "epoch": 13.039755351681958,
      "grad_norm": 0.16246025264263153,
      "learning_rate": 0.001,
      "loss": 0.2021,
      "step": 12792
    },
    {
      "epoch": 13.040774719673802,
      "grad_norm": 0.10080388933420181,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12793
    },
    {
      "epoch": 13.041794087665647,
      "grad_norm": 0.17156900465488434,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 12794
    },
    {
      "epoch": 13.042813455657493,
      "grad_norm": 0.10923890024423599,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 12795
    },
    {
      "epoch": 13.043832823649337,
      "grad_norm": 0.09266339242458344,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 12796
    },
    {
      "epoch": 13.044852191641182,
      "grad_norm": 0.17360664904117584,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 12797
    },
    {
      "epoch": 13.045871559633028,
      "grad_norm": 0.08477790653705597,
      "learning_rate": 0.001,
      "loss": 0.152,
      "step": 12798
    },
    {
      "epoch": 13.046890927624872,
      "grad_norm": 0.02479419857263565,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 12799
    },
    {
      "epoch": 13.047910295616717,
      "grad_norm": 0.1483299434185028,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 12800
    },
    {
      "epoch": 13.048929663608563,
      "grad_norm": 0.14117053151130676,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 12801
    },
    {
      "epoch": 13.049949031600407,
      "grad_norm": 0.062089014798402786,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 12802
    },
    {
      "epoch": 13.050968399592254,
      "grad_norm": 0.15437959134578705,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 12803
    },
    {
      "epoch": 13.051987767584098,
      "grad_norm": 0.22033222019672394,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12804
    },
    {
      "epoch": 13.053007135575942,
      "grad_norm": 0.17657190561294556,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 12805
    },
    {
      "epoch": 13.054026503567789,
      "grad_norm": 0.24631431698799133,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 12806
    },
    {
      "epoch": 13.055045871559633,
      "grad_norm": 0.0375894233584404,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 12807
    },
    {
      "epoch": 13.056065239551478,
      "grad_norm": 0.12080385535955429,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 12808
    },
    {
      "epoch": 13.057084607543324,
      "grad_norm": 0.052681323140859604,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 12809
    },
    {
      "epoch": 13.058103975535168,
      "grad_norm": 0.12550581991672516,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 12810
    },
    {
      "epoch": 13.059123343527013,
      "grad_norm": 0.08749982714653015,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12811
    },
    {
      "epoch": 13.060142711518859,
      "grad_norm": 0.10497952252626419,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 12812
    },
    {
      "epoch": 13.061162079510703,
      "grad_norm": 0.06334735453128815,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 12813
    },
    {
      "epoch": 13.062181447502548,
      "grad_norm": 0.14289791882038116,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 12814
    },
    {
      "epoch": 13.063200815494394,
      "grad_norm": 0.11243154108524323,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12815
    },
    {
      "epoch": 13.064220183486238,
      "grad_norm": 0.09180880337953568,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12816
    },
    {
      "epoch": 13.065239551478083,
      "grad_norm": 0.06655751913785934,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 12817
    },
    {
      "epoch": 13.066258919469929,
      "grad_norm": 0.13371627032756805,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 12818
    },
    {
      "epoch": 13.067278287461773,
      "grad_norm": 0.14479443430900574,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 12819
    },
    {
      "epoch": 13.068297655453618,
      "grad_norm": 0.09201312810182571,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 12820
    },
    {
      "epoch": 13.069317023445464,
      "grad_norm": 0.14941924810409546,
      "learning_rate": 0.001,
      "loss": 0.1705,
      "step": 12821
    },
    {
      "epoch": 13.070336391437309,
      "grad_norm": 0.12525922060012817,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 12822
    },
    {
      "epoch": 13.071355759429155,
      "grad_norm": 0.14274725317955017,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 12823
    },
    {
      "epoch": 13.072375127421,
      "grad_norm": 0.12545955181121826,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12824
    },
    {
      "epoch": 13.073394495412844,
      "grad_norm": 0.1786639392375946,
      "learning_rate": 0.001,
      "loss": 0.1991,
      "step": 12825
    },
    {
      "epoch": 13.07441386340469,
      "grad_norm": 0.1632155030965805,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12826
    },
    {
      "epoch": 13.075433231396534,
      "grad_norm": 0.08052477985620499,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 12827
    },
    {
      "epoch": 13.076452599388379,
      "grad_norm": 0.1315511018037796,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 12828
    },
    {
      "epoch": 13.077471967380225,
      "grad_norm": 0.0848165825009346,
      "learning_rate": 0.001,
      "loss": 0.1774,
      "step": 12829
    },
    {
      "epoch": 13.07849133537207,
      "grad_norm": 0.11041735857725143,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12830
    },
    {
      "epoch": 13.079510703363914,
      "grad_norm": 0.15577493607997894,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 12831
    },
    {
      "epoch": 13.08053007135576,
      "grad_norm": 0.08468535542488098,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 12832
    },
    {
      "epoch": 13.081549439347604,
      "grad_norm": 0.1664947122335434,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 12833
    },
    {
      "epoch": 13.082568807339449,
      "grad_norm": 0.1987500935792923,
      "learning_rate": 0.001,
      "loss": 0.2017,
      "step": 12834
    },
    {
      "epoch": 13.083588175331295,
      "grad_norm": 0.07035540044307709,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12835
    },
    {
      "epoch": 13.08460754332314,
      "grad_norm": 0.10994330048561096,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 12836
    },
    {
      "epoch": 13.085626911314984,
      "grad_norm": 0.08674116432666779,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 12837
    },
    {
      "epoch": 13.08664627930683,
      "grad_norm": 0.09219019114971161,
      "learning_rate": 0.001,
      "loss": 0.1932,
      "step": 12838
    },
    {
      "epoch": 13.087665647298675,
      "grad_norm": 0.09487798810005188,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12839
    },
    {
      "epoch": 13.08868501529052,
      "grad_norm": 0.14332495629787445,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 12840
    },
    {
      "epoch": 13.089704383282365,
      "grad_norm": 0.12938189506530762,
      "learning_rate": 0.001,
      "loss": 0.1917,
      "step": 12841
    },
    {
      "epoch": 13.09072375127421,
      "grad_norm": 0.1269652098417282,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 12842
    },
    {
      "epoch": 13.091743119266056,
      "grad_norm": 0.09803470969200134,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 12843
    },
    {
      "epoch": 13.0927624872579,
      "grad_norm": 0.07709421217441559,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 12844
    },
    {
      "epoch": 13.093781855249745,
      "grad_norm": 0.10995952039957047,
      "learning_rate": 0.001,
      "loss": 0.2018,
      "step": 12845
    },
    {
      "epoch": 13.094801223241591,
      "grad_norm": 0.18033459782600403,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 12846
    },
    {
      "epoch": 13.095820591233435,
      "grad_norm": 0.09788727760314941,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 12847
    },
    {
      "epoch": 13.09683995922528,
      "grad_norm": 0.12110450118780136,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 12848
    },
    {
      "epoch": 13.097859327217126,
      "grad_norm": 0.11133801937103271,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 12849
    },
    {
      "epoch": 13.09887869520897,
      "grad_norm": 0.14956028759479523,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12850
    },
    {
      "epoch": 13.099898063200815,
      "grad_norm": 0.22077012062072754,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 12851
    },
    {
      "epoch": 13.100917431192661,
      "grad_norm": 0.0838102176785469,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 12852
    },
    {
      "epoch": 13.101936799184505,
      "grad_norm": 0.11346321552991867,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 12853
    },
    {
      "epoch": 13.10295616717635,
      "grad_norm": 0.05462868884205818,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12854
    },
    {
      "epoch": 13.103975535168196,
      "grad_norm": 0.23758959770202637,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 12855
    },
    {
      "epoch": 13.10499490316004,
      "grad_norm": 0.09489528834819794,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12856
    },
    {
      "epoch": 13.106014271151885,
      "grad_norm": 0.04249752312898636,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 12857
    },
    {
      "epoch": 13.107033639143731,
      "grad_norm": 0.28905680775642395,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 12858
    },
    {
      "epoch": 13.108053007135576,
      "grad_norm": 0.125757098197937,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 12859
    },
    {
      "epoch": 13.109072375127422,
      "grad_norm": 0.12343515455722809,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 12860
    },
    {
      "epoch": 13.110091743119266,
      "grad_norm": 0.060947485268116,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 12861
    },
    {
      "epoch": 13.11111111111111,
      "grad_norm": 0.14212879538536072,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 12862
    },
    {
      "epoch": 13.112130479102957,
      "grad_norm": 0.05061892420053482,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12863
    },
    {
      "epoch": 13.113149847094801,
      "grad_norm": 0.1188049390912056,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 12864
    },
    {
      "epoch": 13.114169215086646,
      "grad_norm": 0.18982192873954773,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 12865
    },
    {
      "epoch": 13.115188583078492,
      "grad_norm": 0.06527587026357651,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 12866
    },
    {
      "epoch": 13.116207951070336,
      "grad_norm": 0.10343144088983536,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 12867
    },
    {
      "epoch": 13.11722731906218,
      "grad_norm": 0.02480478584766388,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 12868
    },
    {
      "epoch": 13.118246687054027,
      "grad_norm": 0.08905907720327377,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 12869
    },
    {
      "epoch": 13.119266055045872,
      "grad_norm": 0.16809634864330292,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 12870
    },
    {
      "epoch": 13.120285423037716,
      "grad_norm": 0.12426432967185974,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12871
    },
    {
      "epoch": 13.121304791029562,
      "grad_norm": 0.17284643650054932,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 12872
    },
    {
      "epoch": 13.122324159021407,
      "grad_norm": 0.1639573723077774,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 12873
    },
    {
      "epoch": 13.123343527013251,
      "grad_norm": 0.05652882531285286,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 12874
    },
    {
      "epoch": 13.124362895005097,
      "grad_norm": 0.058966994285583496,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12875
    },
    {
      "epoch": 13.125382262996942,
      "grad_norm": 0.059030670672655106,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12876
    },
    {
      "epoch": 13.126401630988786,
      "grad_norm": 0.18343086540699005,
      "learning_rate": 0.001,
      "loss": 0.2025,
      "step": 12877
    },
    {
      "epoch": 13.127420998980632,
      "grad_norm": 0.09096036106348038,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 12878
    },
    {
      "epoch": 13.128440366972477,
      "grad_norm": 0.09407988935709,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 12879
    },
    {
      "epoch": 13.129459734964323,
      "grad_norm": 0.15970605611801147,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 12880
    },
    {
      "epoch": 13.130479102956167,
      "grad_norm": 0.06764452159404755,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 12881
    },
    {
      "epoch": 13.131498470948012,
      "grad_norm": 0.175959974527359,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 12882
    },
    {
      "epoch": 13.132517838939858,
      "grad_norm": 0.12637807428836823,
      "learning_rate": 0.001,
      "loss": 0.1954,
      "step": 12883
    },
    {
      "epoch": 13.133537206931702,
      "grad_norm": 0.05819033458828926,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12884
    },
    {
      "epoch": 13.134556574923547,
      "grad_norm": 0.07942572981119156,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 12885
    },
    {
      "epoch": 13.135575942915393,
      "grad_norm": 0.10332964360713959,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12886
    },
    {
      "epoch": 13.136595310907238,
      "grad_norm": 0.15879018604755402,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 12887
    },
    {
      "epoch": 13.137614678899082,
      "grad_norm": 0.06059842184185982,
      "learning_rate": 0.001,
      "loss": 0.188,
      "step": 12888
    },
    {
      "epoch": 13.138634046890928,
      "grad_norm": 0.09720199555158615,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 12889
    },
    {
      "epoch": 13.139653414882773,
      "grad_norm": 0.12315325438976288,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 12890
    },
    {
      "epoch": 13.140672782874617,
      "grad_norm": 0.09820891171693802,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 12891
    },
    {
      "epoch": 13.141692150866463,
      "grad_norm": 0.1330300271511078,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 12892
    },
    {
      "epoch": 13.142711518858308,
      "grad_norm": 0.07148677110671997,
      "learning_rate": 0.001,
      "loss": 0.1567,
      "step": 12893
    },
    {
      "epoch": 13.143730886850152,
      "grad_norm": 0.09201888740062714,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 12894
    },
    {
      "epoch": 13.144750254841998,
      "grad_norm": 0.06476966291666031,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 12895
    },
    {
      "epoch": 13.145769622833843,
      "grad_norm": 0.09380490332841873,
      "learning_rate": 0.001,
      "loss": 0.1974,
      "step": 12896
    },
    {
      "epoch": 13.146788990825687,
      "grad_norm": 0.05957704409956932,
      "learning_rate": 0.001,
      "loss": 0.157,
      "step": 12897
    },
    {
      "epoch": 13.147808358817533,
      "grad_norm": 0.06312351673841476,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 12898
    },
    {
      "epoch": 13.148827726809378,
      "grad_norm": 0.04132978245615959,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 12899
    },
    {
      "epoch": 13.149847094801224,
      "grad_norm": 0.21334810554981232,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12900
    },
    {
      "epoch": 13.150866462793068,
      "grad_norm": 0.05490889772772789,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 12901
    },
    {
      "epoch": 13.151885830784913,
      "grad_norm": 0.12852707505226135,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 12902
    },
    {
      "epoch": 13.15290519877676,
      "grad_norm": 0.12791572511196136,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12903
    },
    {
      "epoch": 13.153924566768604,
      "grad_norm": 0.14657270908355713,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 12904
    },
    {
      "epoch": 13.154943934760448,
      "grad_norm": 0.10191110521554947,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12905
    },
    {
      "epoch": 13.155963302752294,
      "grad_norm": 0.07114250957965851,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 12906
    },
    {
      "epoch": 13.156982670744139,
      "grad_norm": 0.13209085166454315,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 12907
    },
    {
      "epoch": 13.158002038735983,
      "grad_norm": 0.0944974422454834,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 12908
    },
    {
      "epoch": 13.15902140672783,
      "grad_norm": 0.15965555608272552,
      "learning_rate": 0.001,
      "loss": 0.1936,
      "step": 12909
    },
    {
      "epoch": 13.160040774719674,
      "grad_norm": 0.07371574640274048,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 12910
    },
    {
      "epoch": 13.161060142711518,
      "grad_norm": 0.05992717295885086,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 12911
    },
    {
      "epoch": 13.162079510703364,
      "grad_norm": 0.08908800780773163,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 12912
    },
    {
      "epoch": 13.163098878695209,
      "grad_norm": 0.1284000426530838,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 12913
    },
    {
      "epoch": 13.164118246687053,
      "grad_norm": 0.14179489016532898,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 12914
    },
    {
      "epoch": 13.1651376146789,
      "grad_norm": 0.07841594517230988,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 12915
    },
    {
      "epoch": 13.166156982670744,
      "grad_norm": 0.10829930752515793,
      "learning_rate": 0.001,
      "loss": 0.1981,
      "step": 12916
    },
    {
      "epoch": 13.16717635066259,
      "grad_norm": 0.12061115354299545,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 12917
    },
    {
      "epoch": 13.168195718654435,
      "grad_norm": 0.057553574442863464,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 12918
    },
    {
      "epoch": 13.169215086646279,
      "grad_norm": 0.06776261329650879,
      "learning_rate": 0.001,
      "loss": 0.1985,
      "step": 12919
    },
    {
      "epoch": 13.170234454638125,
      "grad_norm": 0.054616302251815796,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 12920
    },
    {
      "epoch": 13.17125382262997,
      "grad_norm": 0.1453475058078766,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 12921
    },
    {
      "epoch": 13.172273190621814,
      "grad_norm": 0.09531309455633163,
      "learning_rate": 0.001,
      "loss": 0.2113,
      "step": 12922
    },
    {
      "epoch": 13.17329255861366,
      "grad_norm": 0.11668141931295395,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 12923
    },
    {
      "epoch": 13.174311926605505,
      "grad_norm": 0.09921672195196152,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 12924
    },
    {
      "epoch": 13.175331294597349,
      "grad_norm": 0.07583515346050262,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 12925
    },
    {
      "epoch": 13.176350662589195,
      "grad_norm": 0.08504108339548111,
      "learning_rate": 0.001,
      "loss": 0.1802,
      "step": 12926
    },
    {
      "epoch": 13.17737003058104,
      "grad_norm": 0.07120279967784882,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 12927
    },
    {
      "epoch": 13.178389398572884,
      "grad_norm": 0.09969594329595566,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 12928
    },
    {
      "epoch": 13.17940876656473,
      "grad_norm": 0.09572087973356247,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 12929
    },
    {
      "epoch": 13.180428134556575,
      "grad_norm": 0.16454076766967773,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 12930
    },
    {
      "epoch": 13.18144750254842,
      "grad_norm": 0.0851132720708847,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 12931
    },
    {
      "epoch": 13.182466870540265,
      "grad_norm": 0.08695537596940994,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 12932
    },
    {
      "epoch": 13.18348623853211,
      "grad_norm": 0.10177304595708847,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 12933
    },
    {
      "epoch": 13.184505606523954,
      "grad_norm": 0.06564678996801376,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 12934
    },
    {
      "epoch": 13.1855249745158,
      "grad_norm": 0.09030415862798691,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12935
    },
    {
      "epoch": 13.186544342507645,
      "grad_norm": 0.10490396618843079,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 12936
    },
    {
      "epoch": 13.187563710499491,
      "grad_norm": 0.1251877248287201,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 12937
    },
    {
      "epoch": 13.188583078491336,
      "grad_norm": 0.16771280765533447,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 12938
    },
    {
      "epoch": 13.18960244648318,
      "grad_norm": 0.12662744522094727,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 12939
    },
    {
      "epoch": 13.190621814475026,
      "grad_norm": 0.0635446235537529,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 12940
    },
    {
      "epoch": 13.19164118246687,
      "grad_norm": 0.06389696896076202,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 12941
    },
    {
      "epoch": 13.192660550458715,
      "grad_norm": 0.16316725313663483,
      "learning_rate": 0.001,
      "loss": 0.2126,
      "step": 12942
    },
    {
      "epoch": 13.193679918450561,
      "grad_norm": 0.06558556854724884,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 12943
    },
    {
      "epoch": 13.194699286442406,
      "grad_norm": 0.13000302016735077,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12944
    },
    {
      "epoch": 13.19571865443425,
      "grad_norm": 0.07400141656398773,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 12945
    },
    {
      "epoch": 13.196738022426096,
      "grad_norm": 0.11904396861791611,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 12946
    },
    {
      "epoch": 13.19775739041794,
      "grad_norm": 0.1026511937379837,
      "learning_rate": 0.001,
      "loss": 0.203,
      "step": 12947
    },
    {
      "epoch": 13.198776758409785,
      "grad_norm": 0.12704765796661377,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 12948
    },
    {
      "epoch": 13.199796126401631,
      "grad_norm": 0.3154039680957794,
      "learning_rate": 0.001,
      "loss": 0.2133,
      "step": 12949
    },
    {
      "epoch": 13.200815494393476,
      "grad_norm": 0.045985884964466095,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12950
    },
    {
      "epoch": 13.20183486238532,
      "grad_norm": 0.11997667700052261,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 12951
    },
    {
      "epoch": 13.202854230377167,
      "grad_norm": 0.3038763105869293,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 12952
    },
    {
      "epoch": 13.203873598369011,
      "grad_norm": 0.1265062838792801,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 12953
    },
    {
      "epoch": 13.204892966360855,
      "grad_norm": 0.08632469177246094,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 12954
    },
    {
      "epoch": 13.205912334352702,
      "grad_norm": 0.1350608766078949,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 12955
    },
    {
      "epoch": 13.206931702344546,
      "grad_norm": 0.1070978119969368,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 12956
    },
    {
      "epoch": 13.207951070336392,
      "grad_norm": 0.08154139667749405,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 12957
    },
    {
      "epoch": 13.208970438328237,
      "grad_norm": 0.11688011884689331,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 12958
    },
    {
      "epoch": 13.209989806320081,
      "grad_norm": 0.07898259162902832,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 12959
    },
    {
      "epoch": 13.211009174311927,
      "grad_norm": 0.04821644723415375,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 12960
    },
    {
      "epoch": 13.212028542303772,
      "grad_norm": 0.05954711139202118,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 12961
    },
    {
      "epoch": 13.213047910295616,
      "grad_norm": 0.12708407640457153,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 12962
    },
    {
      "epoch": 13.214067278287462,
      "grad_norm": 0.1949893683195114,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 12963
    },
    {
      "epoch": 13.215086646279307,
      "grad_norm": 0.1039082333445549,
      "learning_rate": 0.001,
      "loss": 0.184,
      "step": 12964
    },
    {
      "epoch": 13.216106014271151,
      "grad_norm": 0.1075231283903122,
      "learning_rate": 0.001,
      "loss": 0.2026,
      "step": 12965
    },
    {
      "epoch": 13.217125382262997,
      "grad_norm": 0.14146016538143158,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 12966
    },
    {
      "epoch": 13.218144750254842,
      "grad_norm": 0.1151997372508049,
      "learning_rate": 0.001,
      "loss": 0.1893,
      "step": 12967
    },
    {
      "epoch": 13.219164118246686,
      "grad_norm": 0.08182118088006973,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12968
    },
    {
      "epoch": 13.220183486238533,
      "grad_norm": 0.1227303221821785,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 12969
    },
    {
      "epoch": 13.221202854230377,
      "grad_norm": 0.1480671614408493,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 12970
    },
    {
      "epoch": 13.222222222222221,
      "grad_norm": 0.0766511857509613,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 12971
    },
    {
      "epoch": 13.223241590214068,
      "grad_norm": 0.06589215993881226,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 12972
    },
    {
      "epoch": 13.224260958205912,
      "grad_norm": 0.08286707103252411,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 12973
    },
    {
      "epoch": 13.225280326197758,
      "grad_norm": 0.062410902231931686,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 12974
    },
    {
      "epoch": 13.226299694189603,
      "grad_norm": 0.07878421992063522,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 12975
    },
    {
      "epoch": 13.227319062181447,
      "grad_norm": 0.06837941706180573,
      "learning_rate": 0.001,
      "loss": 0.1608,
      "step": 12976
    },
    {
      "epoch": 13.228338430173293,
      "grad_norm": 0.08999069035053253,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 12977
    },
    {
      "epoch": 13.229357798165138,
      "grad_norm": 0.08221092075109482,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 12978
    },
    {
      "epoch": 13.230377166156982,
      "grad_norm": 0.07362951338291168,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 12979
    },
    {
      "epoch": 13.231396534148828,
      "grad_norm": 0.27201053500175476,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 12980
    },
    {
      "epoch": 13.232415902140673,
      "grad_norm": 0.03781644627451897,
      "learning_rate": 0.001,
      "loss": 0.1533,
      "step": 12981
    },
    {
      "epoch": 13.233435270132517,
      "grad_norm": 0.05327900871634483,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 12982
    },
    {
      "epoch": 13.234454638124364,
      "grad_norm": 0.1304522156715393,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 12983
    },
    {
      "epoch": 13.235474006116208,
      "grad_norm": 0.11242622882127762,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 12984
    },
    {
      "epoch": 13.236493374108052,
      "grad_norm": 0.08974561095237732,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 12985
    },
    {
      "epoch": 13.237512742099899,
      "grad_norm": 0.08042093366384506,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 12986
    },
    {
      "epoch": 13.238532110091743,
      "grad_norm": 0.10520358383655548,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 12987
    },
    {
      "epoch": 13.239551478083587,
      "grad_norm": 0.10396351665258408,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 12988
    },
    {
      "epoch": 13.240570846075434,
      "grad_norm": 0.07445475459098816,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 12989
    },
    {
      "epoch": 13.241590214067278,
      "grad_norm": 0.07244601845741272,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 12990
    },
    {
      "epoch": 13.242609582059123,
      "grad_norm": 0.06962832063436508,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 12991
    },
    {
      "epoch": 13.243628950050969,
      "grad_norm": 0.0868261381983757,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 12992
    },
    {
      "epoch": 13.244648318042813,
      "grad_norm": 0.040600795298814774,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 12993
    },
    {
      "epoch": 13.24566768603466,
      "grad_norm": 0.0548095740377903,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 12994
    },
    {
      "epoch": 13.246687054026504,
      "grad_norm": 0.04692879319190979,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 12995
    },
    {
      "epoch": 13.247706422018348,
      "grad_norm": 0.07475738972425461,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 12996
    },
    {
      "epoch": 13.248725790010194,
      "grad_norm": 0.12154285609722137,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 12997
    },
    {
      "epoch": 13.249745158002039,
      "grad_norm": 0.10535729676485062,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 12998
    },
    {
      "epoch": 13.250764525993883,
      "grad_norm": 0.0645180493593216,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 12999
    },
    {
      "epoch": 13.25178389398573,
      "grad_norm": 0.10383781045675278,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 13000
    },
    {
      "epoch": 13.252803261977574,
      "grad_norm": 0.08092604577541351,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 13001
    },
    {
      "epoch": 13.253822629969418,
      "grad_norm": 0.0696827843785286,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 13002
    },
    {
      "epoch": 13.254841997961265,
      "grad_norm": 0.10762210190296173,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 13003
    },
    {
      "epoch": 13.255861365953109,
      "grad_norm": 0.0566144734621048,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 13004
    },
    {
      "epoch": 13.256880733944953,
      "grad_norm": 0.07252219319343567,
      "learning_rate": 0.001,
      "loss": 0.201,
      "step": 13005
    },
    {
      "epoch": 13.2579001019368,
      "grad_norm": 0.0674058347940445,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 13006
    },
    {
      "epoch": 13.258919469928644,
      "grad_norm": 0.13154813647270203,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 13007
    },
    {
      "epoch": 13.259938837920489,
      "grad_norm": 0.06014736369252205,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 13008
    },
    {
      "epoch": 13.260958205912335,
      "grad_norm": 0.06461352854967117,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 13009
    },
    {
      "epoch": 13.26197757390418,
      "grad_norm": 0.11886529624462128,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 13010
    },
    {
      "epoch": 13.262996941896024,
      "grad_norm": 0.1085401102900505,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 13011
    },
    {
      "epoch": 13.26401630988787,
      "grad_norm": 0.08229003101587296,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 13012
    },
    {
      "epoch": 13.265035677879714,
      "grad_norm": 0.14787718653678894,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 13013
    },
    {
      "epoch": 13.26605504587156,
      "grad_norm": 0.10573417693376541,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13014
    },
    {
      "epoch": 13.267074413863405,
      "grad_norm": 0.08626687526702881,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 13015
    },
    {
      "epoch": 13.26809378185525,
      "grad_norm": 0.10898735374212265,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 13016
    },
    {
      "epoch": 13.269113149847096,
      "grad_norm": 0.16052491962909698,
      "learning_rate": 0.001,
      "loss": 0.1942,
      "step": 13017
    },
    {
      "epoch": 13.27013251783894,
      "grad_norm": 0.10546571761369705,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 13018
    },
    {
      "epoch": 13.271151885830784,
      "grad_norm": 0.1066904217004776,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 13019
    },
    {
      "epoch": 13.27217125382263,
      "grad_norm": 0.07621936500072479,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 13020
    },
    {
      "epoch": 13.273190621814475,
      "grad_norm": 0.040882501751184464,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 13021
    },
    {
      "epoch": 13.27420998980632,
      "grad_norm": 0.07332555204629898,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 13022
    },
    {
      "epoch": 13.275229357798166,
      "grad_norm": 0.10447134077548981,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 13023
    },
    {
      "epoch": 13.27624872579001,
      "grad_norm": 0.07830841839313507,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 13024
    },
    {
      "epoch": 13.277268093781855,
      "grad_norm": 0.0715809017419815,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 13025
    },
    {
      "epoch": 13.2782874617737,
      "grad_norm": 0.07111514359712601,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13026
    },
    {
      "epoch": 13.279306829765545,
      "grad_norm": 0.11959458887577057,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 13027
    },
    {
      "epoch": 13.28032619775739,
      "grad_norm": 0.08566263318061829,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 13028
    },
    {
      "epoch": 13.281345565749236,
      "grad_norm": 0.07600822299718857,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 13029
    },
    {
      "epoch": 13.28236493374108,
      "grad_norm": 0.0616774819791317,
      "learning_rate": 0.001,
      "loss": 0.1672,
      "step": 13030
    },
    {
      "epoch": 13.283384301732925,
      "grad_norm": 0.06809493899345398,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 13031
    },
    {
      "epoch": 13.284403669724771,
      "grad_norm": 0.08038070052862167,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 13032
    },
    {
      "epoch": 13.285423037716615,
      "grad_norm": 0.0570640042424202,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 13033
    },
    {
      "epoch": 13.286442405708462,
      "grad_norm": 0.05931977555155754,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 13034
    },
    {
      "epoch": 13.287461773700306,
      "grad_norm": 0.1241585984826088,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 13035
    },
    {
      "epoch": 13.28848114169215,
      "grad_norm": 0.09581846743822098,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 13036
    },
    {
      "epoch": 13.289500509683997,
      "grad_norm": 0.08675608038902283,
      "learning_rate": 0.001,
      "loss": 0.1976,
      "step": 13037
    },
    {
      "epoch": 13.290519877675841,
      "grad_norm": 0.07352489233016968,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 13038
    },
    {
      "epoch": 13.291539245667686,
      "grad_norm": 0.0837816521525383,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 13039
    },
    {
      "epoch": 13.292558613659532,
      "grad_norm": 0.041454896330833435,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13040
    },
    {
      "epoch": 13.293577981651376,
      "grad_norm": 0.06857415288686752,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 13041
    },
    {
      "epoch": 13.29459734964322,
      "grad_norm": 0.14696753025054932,
      "learning_rate": 0.001,
      "loss": 0.2092,
      "step": 13042
    },
    {
      "epoch": 13.295616717635067,
      "grad_norm": 0.059452153742313385,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 13043
    },
    {
      "epoch": 13.296636085626911,
      "grad_norm": 0.04370616376399994,
      "learning_rate": 0.001,
      "loss": 0.1467,
      "step": 13044
    },
    {
      "epoch": 13.297655453618756,
      "grad_norm": 0.12170562148094177,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 13045
    },
    {
      "epoch": 13.298674821610602,
      "grad_norm": 0.059958864003419876,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 13046
    },
    {
      "epoch": 13.299694189602446,
      "grad_norm": 0.08506963402032852,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 13047
    },
    {
      "epoch": 13.30071355759429,
      "grad_norm": 0.10725542157888412,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 13048
    },
    {
      "epoch": 13.301732925586137,
      "grad_norm": 0.049421101808547974,
      "learning_rate": 0.001,
      "loss": 0.1595,
      "step": 13049
    },
    {
      "epoch": 13.302752293577981,
      "grad_norm": 0.06202901527285576,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 13050
    },
    {
      "epoch": 13.303771661569826,
      "grad_norm": 0.05469777062535286,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 13051
    },
    {
      "epoch": 13.304791029561672,
      "grad_norm": 0.1560232937335968,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13052
    },
    {
      "epoch": 13.305810397553516,
      "grad_norm": 0.0792309120297432,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 13053
    },
    {
      "epoch": 13.306829765545363,
      "grad_norm": 0.06499814987182617,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 13054
    },
    {
      "epoch": 13.307849133537207,
      "grad_norm": 0.08854915201663971,
      "learning_rate": 0.001,
      "loss": 0.1626,
      "step": 13055
    },
    {
      "epoch": 13.308868501529052,
      "grad_norm": 0.04260867461562157,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 13056
    },
    {
      "epoch": 13.309887869520898,
      "grad_norm": 0.07049989700317383,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 13057
    },
    {
      "epoch": 13.310907237512742,
      "grad_norm": 0.06435539573431015,
      "learning_rate": 0.001,
      "loss": 0.1545,
      "step": 13058
    },
    {
      "epoch": 13.311926605504587,
      "grad_norm": 0.09469731152057648,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 13059
    },
    {
      "epoch": 13.312945973496433,
      "grad_norm": 0.07941145449876785,
      "learning_rate": 0.001,
      "loss": 0.157,
      "step": 13060
    },
    {
      "epoch": 13.313965341488277,
      "grad_norm": 0.09564753621816635,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 13061
    },
    {
      "epoch": 13.314984709480122,
      "grad_norm": 0.08880598098039627,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 13062
    },
    {
      "epoch": 13.316004077471968,
      "grad_norm": 0.09920258074998856,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 13063
    },
    {
      "epoch": 13.317023445463812,
      "grad_norm": 0.02610774151980877,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 13064
    },
    {
      "epoch": 13.318042813455657,
      "grad_norm": 0.09365266561508179,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 13065
    },
    {
      "epoch": 13.319062181447503,
      "grad_norm": 0.061407025903463364,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 13066
    },
    {
      "epoch": 13.320081549439347,
      "grad_norm": 0.04351561889052391,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 13067
    },
    {
      "epoch": 13.321100917431192,
      "grad_norm": 0.13616430759429932,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 13068
    },
    {
      "epoch": 13.322120285423038,
      "grad_norm": 0.15121348202228546,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 13069
    },
    {
      "epoch": 13.323139653414882,
      "grad_norm": 0.15759778022766113,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 13070
    },
    {
      "epoch": 13.324159021406729,
      "grad_norm": 0.12712706625461578,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 13071
    },
    {
      "epoch": 13.325178389398573,
      "grad_norm": 0.08605466783046722,
      "learning_rate": 0.001,
      "loss": 0.1852,
      "step": 13072
    },
    {
      "epoch": 13.326197757390418,
      "grad_norm": 0.07993757724761963,
      "learning_rate": 0.001,
      "loss": 0.1978,
      "step": 13073
    },
    {
      "epoch": 13.327217125382264,
      "grad_norm": 0.08702325820922852,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13074
    },
    {
      "epoch": 13.328236493374108,
      "grad_norm": 0.10456553101539612,
      "learning_rate": 0.001,
      "loss": 0.1655,
      "step": 13075
    },
    {
      "epoch": 13.329255861365953,
      "grad_norm": 0.055959753692150116,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 13076
    },
    {
      "epoch": 13.330275229357799,
      "grad_norm": 0.17546959221363068,
      "learning_rate": 0.001,
      "loss": 0.1884,
      "step": 13077
    },
    {
      "epoch": 13.331294597349643,
      "grad_norm": 0.09732471406459808,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 13078
    },
    {
      "epoch": 13.332313965341488,
      "grad_norm": 0.09686025977134705,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 13079
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.20455440878868103,
      "learning_rate": 0.001,
      "loss": 0.1892,
      "step": 13080
    },
    {
      "epoch": 13.334352701325178,
      "grad_norm": 0.08931979537010193,
      "learning_rate": 0.001,
      "loss": 0.1841,
      "step": 13081
    },
    {
      "epoch": 13.335372069317023,
      "grad_norm": 0.11923487484455109,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 13082
    },
    {
      "epoch": 13.336391437308869,
      "grad_norm": 0.06422679871320724,
      "learning_rate": 0.001,
      "loss": 0.1555,
      "step": 13083
    },
    {
      "epoch": 13.337410805300713,
      "grad_norm": 0.20846059918403625,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 13084
    },
    {
      "epoch": 13.338430173292558,
      "grad_norm": 0.11900264024734497,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 13085
    },
    {
      "epoch": 13.339449541284404,
      "grad_norm": 0.08475349843502045,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 13086
    },
    {
      "epoch": 13.340468909276249,
      "grad_norm": 0.06661390513181686,
      "learning_rate": 0.001,
      "loss": 0.1534,
      "step": 13087
    },
    {
      "epoch": 13.341488277268093,
      "grad_norm": 0.03849590942263603,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 13088
    },
    {
      "epoch": 13.34250764525994,
      "grad_norm": 0.15441979467868805,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 13089
    },
    {
      "epoch": 13.343527013251784,
      "grad_norm": 0.06478704512119293,
      "learning_rate": 0.001,
      "loss": 0.1575,
      "step": 13090
    },
    {
      "epoch": 13.34454638124363,
      "grad_norm": 0.09661403298377991,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 13091
    },
    {
      "epoch": 13.345565749235474,
      "grad_norm": 0.06126701086759567,
      "learning_rate": 0.001,
      "loss": 0.1598,
      "step": 13092
    },
    {
      "epoch": 13.346585117227319,
      "grad_norm": 0.12935671210289001,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 13093
    },
    {
      "epoch": 13.347604485219165,
      "grad_norm": 0.0663711279630661,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 13094
    },
    {
      "epoch": 13.34862385321101,
      "grad_norm": 0.1052951067686081,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 13095
    },
    {
      "epoch": 13.349643221202854,
      "grad_norm": 0.04713510349392891,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 13096
    },
    {
      "epoch": 13.3506625891947,
      "grad_norm": 0.07870861142873764,
      "learning_rate": 0.001,
      "loss": 0.2052,
      "step": 13097
    },
    {
      "epoch": 13.351681957186544,
      "grad_norm": 0.09577654302120209,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 13098
    },
    {
      "epoch": 13.352701325178389,
      "grad_norm": 0.0690719485282898,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 13099
    },
    {
      "epoch": 13.353720693170235,
      "grad_norm": 0.08711358904838562,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 13100
    },
    {
      "epoch": 13.35474006116208,
      "grad_norm": 0.061724793165922165,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13101
    },
    {
      "epoch": 13.355759429153924,
      "grad_norm": 0.08907154947519302,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 13102
    },
    {
      "epoch": 13.35677879714577,
      "grad_norm": 0.07391811907291412,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 13103
    },
    {
      "epoch": 13.357798165137615,
      "grad_norm": 0.08578399568796158,
      "learning_rate": 0.001,
      "loss": 0.1874,
      "step": 13104
    },
    {
      "epoch": 13.358817533129459,
      "grad_norm": 0.07120922952890396,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 13105
    },
    {
      "epoch": 13.359836901121305,
      "grad_norm": 0.03724590688943863,
      "learning_rate": 0.001,
      "loss": 0.1755,
      "step": 13106
    },
    {
      "epoch": 13.36085626911315,
      "grad_norm": 0.11044508963823318,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 13107
    },
    {
      "epoch": 13.361875637104994,
      "grad_norm": 0.12719416618347168,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 13108
    },
    {
      "epoch": 13.36289500509684,
      "grad_norm": 0.11518461257219315,
      "learning_rate": 0.001,
      "loss": 0.1998,
      "step": 13109
    },
    {
      "epoch": 13.363914373088685,
      "grad_norm": 0.04141899198293686,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 13110
    },
    {
      "epoch": 13.364933741080531,
      "grad_norm": 0.10434188693761826,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 13111
    },
    {
      "epoch": 13.365953109072375,
      "grad_norm": 0.14063072204589844,
      "learning_rate": 0.001,
      "loss": 0.1982,
      "step": 13112
    },
    {
      "epoch": 13.36697247706422,
      "grad_norm": 0.07461690902709961,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 13113
    },
    {
      "epoch": 13.367991845056066,
      "grad_norm": 0.06974136829376221,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 13114
    },
    {
      "epoch": 13.36901121304791,
      "grad_norm": 0.11471980065107346,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 13115
    },
    {
      "epoch": 13.370030581039755,
      "grad_norm": 0.08524306863546371,
      "learning_rate": 0.001,
      "loss": 0.1879,
      "step": 13116
    },
    {
      "epoch": 13.371049949031601,
      "grad_norm": 0.06006616726517677,
      "learning_rate": 0.001,
      "loss": 0.1614,
      "step": 13117
    },
    {
      "epoch": 13.372069317023445,
      "grad_norm": 0.08239338546991348,
      "learning_rate": 0.001,
      "loss": 0.1951,
      "step": 13118
    },
    {
      "epoch": 13.37308868501529,
      "grad_norm": 0.09483129531145096,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 13119
    },
    {
      "epoch": 13.374108053007136,
      "grad_norm": 0.2206522673368454,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 13120
    },
    {
      "epoch": 13.37512742099898,
      "grad_norm": 0.046503014862537384,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 13121
    },
    {
      "epoch": 13.376146788990825,
      "grad_norm": 0.08853758871555328,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 13122
    },
    {
      "epoch": 13.377166156982671,
      "grad_norm": 0.07090337574481964,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 13123
    },
    {
      "epoch": 13.378185524974516,
      "grad_norm": 0.08507373929023743,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 13124
    },
    {
      "epoch": 13.37920489296636,
      "grad_norm": 0.10052283853292465,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 13125
    },
    {
      "epoch": 13.380224260958206,
      "grad_norm": 0.07817967981100082,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 13126
    },
    {
      "epoch": 13.38124362895005,
      "grad_norm": 0.07959092408418655,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 13127
    },
    {
      "epoch": 13.382262996941897,
      "grad_norm": 0.15204694867134094,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13128
    },
    {
      "epoch": 13.383282364933741,
      "grad_norm": 0.06670694798231125,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 13129
    },
    {
      "epoch": 13.384301732925586,
      "grad_norm": 0.07678660750389099,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 13130
    },
    {
      "epoch": 13.385321100917432,
      "grad_norm": 0.13386356830596924,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 13131
    },
    {
      "epoch": 13.386340468909276,
      "grad_norm": 0.05880266800522804,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 13132
    },
    {
      "epoch": 13.38735983690112,
      "grad_norm": 0.04226972907781601,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13133
    },
    {
      "epoch": 13.388379204892967,
      "grad_norm": 0.0875314325094223,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 13134
    },
    {
      "epoch": 13.389398572884812,
      "grad_norm": 0.09657861292362213,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13135
    },
    {
      "epoch": 13.390417940876656,
      "grad_norm": 0.09101942181587219,
      "learning_rate": 0.001,
      "loss": 0.1558,
      "step": 13136
    },
    {
      "epoch": 13.391437308868502,
      "grad_norm": 0.0872059315443039,
      "learning_rate": 0.001,
      "loss": 0.1909,
      "step": 13137
    },
    {
      "epoch": 13.392456676860347,
      "grad_norm": 0.023055484518408775,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 13138
    },
    {
      "epoch": 13.393476044852191,
      "grad_norm": 0.13724029064178467,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 13139
    },
    {
      "epoch": 13.394495412844037,
      "grad_norm": 0.024867376312613487,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 13140
    },
    {
      "epoch": 13.395514780835882,
      "grad_norm": 0.07873374968767166,
      "learning_rate": 0.001,
      "loss": 0.1639,
      "step": 13141
    },
    {
      "epoch": 13.396534148827726,
      "grad_norm": 0.1526869237422943,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 13142
    },
    {
      "epoch": 13.397553516819572,
      "grad_norm": 0.08337629586458206,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 13143
    },
    {
      "epoch": 13.398572884811417,
      "grad_norm": 0.11925619095563889,
      "learning_rate": 0.001,
      "loss": 0.2057,
      "step": 13144
    },
    {
      "epoch": 13.399592252803261,
      "grad_norm": 0.08325207978487015,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 13145
    },
    {
      "epoch": 13.400611620795107,
      "grad_norm": 0.0705198124051094,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 13146
    },
    {
      "epoch": 13.401630988786952,
      "grad_norm": 0.060897018760442734,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 13147
    },
    {
      "epoch": 13.402650356778796,
      "grad_norm": 0.05720354989171028,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13148
    },
    {
      "epoch": 13.403669724770642,
      "grad_norm": 0.060940466821193695,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 13149
    },
    {
      "epoch": 13.404689092762487,
      "grad_norm": 0.11572512239217758,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 13150
    },
    {
      "epoch": 13.405708460754333,
      "grad_norm": 0.17208649218082428,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 13151
    },
    {
      "epoch": 13.406727828746178,
      "grad_norm": 0.11819469183683395,
      "learning_rate": 0.001,
      "loss": 0.1873,
      "step": 13152
    },
    {
      "epoch": 13.407747196738022,
      "grad_norm": 0.14802630245685577,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 13153
    },
    {
      "epoch": 13.408766564729868,
      "grad_norm": 0.06375259906053543,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 13154
    },
    {
      "epoch": 13.409785932721713,
      "grad_norm": 0.0893457755446434,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 13155
    },
    {
      "epoch": 13.410805300713557,
      "grad_norm": 0.15164080262184143,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13156
    },
    {
      "epoch": 13.411824668705403,
      "grad_norm": 0.032984659075737,
      "learning_rate": 0.001,
      "loss": 0.1573,
      "step": 13157
    },
    {
      "epoch": 13.412844036697248,
      "grad_norm": 0.05040929466485977,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 13158
    },
    {
      "epoch": 13.413863404689092,
      "grad_norm": 0.04766647517681122,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13159
    },
    {
      "epoch": 13.414882772680938,
      "grad_norm": 0.08015258610248566,
      "learning_rate": 0.001,
      "loss": 0.1903,
      "step": 13160
    },
    {
      "epoch": 13.415902140672783,
      "grad_norm": 0.0952436774969101,
      "learning_rate": 0.001,
      "loss": 0.1941,
      "step": 13161
    },
    {
      "epoch": 13.416921508664627,
      "grad_norm": 0.08636126667261124,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 13162
    },
    {
      "epoch": 13.417940876656473,
      "grad_norm": 0.10836461931467056,
      "learning_rate": 0.001,
      "loss": 0.1635,
      "step": 13163
    },
    {
      "epoch": 13.418960244648318,
      "grad_norm": 0.06631549447774887,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 13164
    },
    {
      "epoch": 13.419979612640162,
      "grad_norm": 0.25650304555892944,
      "learning_rate": 0.001,
      "loss": 0.2063,
      "step": 13165
    },
    {
      "epoch": 13.420998980632008,
      "grad_norm": 0.049077704548835754,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 13166
    },
    {
      "epoch": 13.422018348623853,
      "grad_norm": 0.034813594073057175,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 13167
    },
    {
      "epoch": 13.423037716615699,
      "grad_norm": 0.05735768750309944,
      "learning_rate": 0.001,
      "loss": 0.1908,
      "step": 13168
    },
    {
      "epoch": 13.424057084607544,
      "grad_norm": 0.030286619439721107,
      "learning_rate": 0.001,
      "loss": 0.1605,
      "step": 13169
    },
    {
      "epoch": 13.425076452599388,
      "grad_norm": 0.054373204708099365,
      "learning_rate": 0.001,
      "loss": 0.1566,
      "step": 13170
    },
    {
      "epoch": 13.426095820591234,
      "grad_norm": 0.06490272283554077,
      "learning_rate": 0.001,
      "loss": 0.1548,
      "step": 13171
    },
    {
      "epoch": 13.427115188583079,
      "grad_norm": 0.043656885623931885,
      "learning_rate": 0.001,
      "loss": 0.1572,
      "step": 13172
    },
    {
      "epoch": 13.428134556574923,
      "grad_norm": 0.06027518957853317,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 13173
    },
    {
      "epoch": 13.42915392456677,
      "grad_norm": 0.06359962373971939,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 13174
    },
    {
      "epoch": 13.430173292558614,
      "grad_norm": 0.11114993691444397,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 13175
    },
    {
      "epoch": 13.431192660550458,
      "grad_norm": 0.11339844763278961,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13176
    },
    {
      "epoch": 13.432212028542304,
      "grad_norm": 0.04512868821620941,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 13177
    },
    {
      "epoch": 13.433231396534149,
      "grad_norm": 0.14295384287834167,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 13178
    },
    {
      "epoch": 13.434250764525993,
      "grad_norm": 0.08051356673240662,
      "learning_rate": 0.001,
      "loss": 0.1665,
      "step": 13179
    },
    {
      "epoch": 13.43527013251784,
      "grad_norm": 0.43550923466682434,
      "learning_rate": 0.001,
      "loss": 0.2109,
      "step": 13180
    },
    {
      "epoch": 13.436289500509684,
      "grad_norm": 0.040935218334198,
      "learning_rate": 0.001,
      "loss": 0.1642,
      "step": 13181
    },
    {
      "epoch": 13.437308868501528,
      "grad_norm": 0.0736231878399849,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 13182
    },
    {
      "epoch": 13.438328236493374,
      "grad_norm": 0.08612002432346344,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 13183
    },
    {
      "epoch": 13.439347604485219,
      "grad_norm": 0.1292898952960968,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 13184
    },
    {
      "epoch": 13.440366972477065,
      "grad_norm": 0.060093700885772705,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13185
    },
    {
      "epoch": 13.44138634046891,
      "grad_norm": 0.04729227349162102,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 13186
    },
    {
      "epoch": 13.442405708460754,
      "grad_norm": 0.04477008432149887,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 13187
    },
    {
      "epoch": 13.4434250764526,
      "grad_norm": 0.07532801479101181,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 13188
    },
    {
      "epoch": 13.444444444444445,
      "grad_norm": 0.08706074208021164,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 13189
    },
    {
      "epoch": 13.445463812436289,
      "grad_norm": 0.04712292551994324,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13190
    },
    {
      "epoch": 13.446483180428135,
      "grad_norm": 0.17976006865501404,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 13191
    },
    {
      "epoch": 13.44750254841998,
      "grad_norm": 0.1270158737897873,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13192
    },
    {
      "epoch": 13.448521916411824,
      "grad_norm": 0.07422205060720444,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 13193
    },
    {
      "epoch": 13.44954128440367,
      "grad_norm": 0.04479733482003212,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 13194
    },
    {
      "epoch": 13.450560652395515,
      "grad_norm": 0.09810401499271393,
      "learning_rate": 0.001,
      "loss": 0.1931,
      "step": 13195
    },
    {
      "epoch": 13.45158002038736,
      "grad_norm": 0.1460338681936264,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 13196
    },
    {
      "epoch": 13.452599388379205,
      "grad_norm": 0.1187731921672821,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 13197
    },
    {
      "epoch": 13.45361875637105,
      "grad_norm": 0.13945290446281433,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 13198
    },
    {
      "epoch": 13.454638124362894,
      "grad_norm": 0.14538368582725525,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 13199
    },
    {
      "epoch": 13.45565749235474,
      "grad_norm": 0.07130662351846695,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 13200
    },
    {
      "epoch": 13.456676860346585,
      "grad_norm": 0.06858640909194946,
      "learning_rate": 0.001,
      "loss": 0.1647,
      "step": 13201
    },
    {
      "epoch": 13.45769622833843,
      "grad_norm": 0.07386041432619095,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13202
    },
    {
      "epoch": 13.458715596330276,
      "grad_norm": 0.06984110921621323,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13203
    },
    {
      "epoch": 13.45973496432212,
      "grad_norm": 0.07543426752090454,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13204
    },
    {
      "epoch": 13.460754332313964,
      "grad_norm": 0.10158701986074448,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 13205
    },
    {
      "epoch": 13.46177370030581,
      "grad_norm": 0.10652119666337967,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 13206
    },
    {
      "epoch": 13.462793068297655,
      "grad_norm": 0.12973183393478394,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 13207
    },
    {
      "epoch": 13.463812436289501,
      "grad_norm": 0.13021217286586761,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 13208
    },
    {
      "epoch": 13.464831804281346,
      "grad_norm": 0.0470062680542469,
      "learning_rate": 0.001,
      "loss": 0.167,
      "step": 13209
    },
    {
      "epoch": 13.46585117227319,
      "grad_norm": 0.19976608455181122,
      "learning_rate": 0.001,
      "loss": 0.1865,
      "step": 13210
    },
    {
      "epoch": 13.466870540265036,
      "grad_norm": 0.13641631603240967,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 13211
    },
    {
      "epoch": 13.46788990825688,
      "grad_norm": 0.15785469114780426,
      "learning_rate": 0.001,
      "loss": 0.1661,
      "step": 13212
    },
    {
      "epoch": 13.468909276248725,
      "grad_norm": 0.10733424127101898,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 13213
    },
    {
      "epoch": 13.469928644240571,
      "grad_norm": 0.056659478694200516,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 13214
    },
    {
      "epoch": 13.470948012232416,
      "grad_norm": 0.06704892218112946,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 13215
    },
    {
      "epoch": 13.47196738022426,
      "grad_norm": 0.07343737781047821,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13216
    },
    {
      "epoch": 13.472986748216107,
      "grad_norm": 0.11001428961753845,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 13217
    },
    {
      "epoch": 13.474006116207951,
      "grad_norm": 0.08603549748659134,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 13218
    },
    {
      "epoch": 13.475025484199795,
      "grad_norm": 0.10754278302192688,
      "learning_rate": 0.001,
      "loss": 0.1863,
      "step": 13219
    },
    {
      "epoch": 13.476044852191642,
      "grad_norm": 0.041243888437747955,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 13220
    },
    {
      "epoch": 13.477064220183486,
      "grad_norm": 0.13071079552173615,
      "learning_rate": 0.001,
      "loss": 0.1937,
      "step": 13221
    },
    {
      "epoch": 13.47808358817533,
      "grad_norm": 0.05011680722236633,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 13222
    },
    {
      "epoch": 13.479102956167177,
      "grad_norm": 0.09268707782030106,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 13223
    },
    {
      "epoch": 13.480122324159021,
      "grad_norm": 0.07802178710699081,
      "learning_rate": 0.001,
      "loss": 0.1842,
      "step": 13224
    },
    {
      "epoch": 13.481141692150867,
      "grad_norm": 0.07269261032342911,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 13225
    },
    {
      "epoch": 13.482161060142712,
      "grad_norm": 0.07211434096097946,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 13226
    },
    {
      "epoch": 13.483180428134556,
      "grad_norm": 0.04571777209639549,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13227
    },
    {
      "epoch": 13.484199796126402,
      "grad_norm": 0.0773390606045723,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 13228
    },
    {
      "epoch": 13.485219164118247,
      "grad_norm": 0.08089666813611984,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 13229
    },
    {
      "epoch": 13.486238532110091,
      "grad_norm": 0.03602975979447365,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 13230
    },
    {
      "epoch": 13.487257900101937,
      "grad_norm": 0.09477696567773819,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 13231
    },
    {
      "epoch": 13.488277268093782,
      "grad_norm": 0.13770432770252228,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 13232
    },
    {
      "epoch": 13.489296636085626,
      "grad_norm": 0.13229279220104218,
      "learning_rate": 0.001,
      "loss": 0.1677,
      "step": 13233
    },
    {
      "epoch": 13.490316004077473,
      "grad_norm": 0.05189412087202072,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 13234
    },
    {
      "epoch": 13.491335372069317,
      "grad_norm": 0.11200905591249466,
      "learning_rate": 0.001,
      "loss": 0.1962,
      "step": 13235
    },
    {
      "epoch": 13.492354740061161,
      "grad_norm": 0.10240349918603897,
      "learning_rate": 0.001,
      "loss": 0.1624,
      "step": 13236
    },
    {
      "epoch": 13.493374108053008,
      "grad_norm": 0.05588291212916374,
      "learning_rate": 0.001,
      "loss": 0.1958,
      "step": 13237
    },
    {
      "epoch": 13.494393476044852,
      "grad_norm": 0.03951532393693924,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 13238
    },
    {
      "epoch": 13.495412844036696,
      "grad_norm": 0.10341347754001617,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 13239
    },
    {
      "epoch": 13.496432212028543,
      "grad_norm": 0.045269038528203964,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 13240
    },
    {
      "epoch": 13.497451580020387,
      "grad_norm": 0.11536158621311188,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13241
    },
    {
      "epoch": 13.498470948012232,
      "grad_norm": 0.1610402911901474,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 13242
    },
    {
      "epoch": 13.499490316004078,
      "grad_norm": 0.14771749079227448,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 13243
    },
    {
      "epoch": 13.500509683995922,
      "grad_norm": 0.04894658923149109,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 13244
    },
    {
      "epoch": 13.501529051987767,
      "grad_norm": 0.14769186079502106,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 13245
    },
    {
      "epoch": 13.502548419979613,
      "grad_norm": 0.023271918296813965,
      "learning_rate": 0.001,
      "loss": 0.1659,
      "step": 13246
    },
    {
      "epoch": 13.503567787971457,
      "grad_norm": 0.12019550800323486,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 13247
    },
    {
      "epoch": 13.504587155963304,
      "grad_norm": 0.11226840317249298,
      "learning_rate": 0.001,
      "loss": 0.1875,
      "step": 13248
    },
    {
      "epoch": 13.505606523955148,
      "grad_norm": 0.16125640273094177,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 13249
    },
    {
      "epoch": 13.506625891946992,
      "grad_norm": 0.12077020108699799,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 13250
    },
    {
      "epoch": 13.507645259938839,
      "grad_norm": 0.05983002856373787,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 13251
    },
    {
      "epoch": 13.508664627930683,
      "grad_norm": 0.09053204953670502,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 13252
    },
    {
      "epoch": 13.509683995922527,
      "grad_norm": 0.0865890309214592,
      "learning_rate": 0.001,
      "loss": 0.1708,
      "step": 13253
    },
    {
      "epoch": 13.510703363914374,
      "grad_norm": 0.04456237331032753,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 13254
    },
    {
      "epoch": 13.511722731906218,
      "grad_norm": 0.039625782519578934,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 13255
    },
    {
      "epoch": 13.512742099898063,
      "grad_norm": 0.13948778808116913,
      "learning_rate": 0.001,
      "loss": 0.2129,
      "step": 13256
    },
    {
      "epoch": 13.513761467889909,
      "grad_norm": 0.05011368170380592,
      "learning_rate": 0.001,
      "loss": 0.1638,
      "step": 13257
    },
    {
      "epoch": 13.514780835881753,
      "grad_norm": 0.035314448177814484,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 13258
    },
    {
      "epoch": 13.515800203873598,
      "grad_norm": 0.06767068803310394,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 13259
    },
    {
      "epoch": 13.516819571865444,
      "grad_norm": 0.0860741138458252,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 13260
    },
    {
      "epoch": 13.517838939857288,
      "grad_norm": 0.11648716032505035,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 13261
    },
    {
      "epoch": 13.518858307849133,
      "grad_norm": 0.1546829491853714,
      "learning_rate": 0.001,
      "loss": 0.1913,
      "step": 13262
    },
    {
      "epoch": 13.519877675840979,
      "grad_norm": 0.0816613957285881,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 13263
    },
    {
      "epoch": 13.520897043832823,
      "grad_norm": 0.046331584453582764,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 13264
    },
    {
      "epoch": 13.52191641182467,
      "grad_norm": 0.11648530513048172,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 13265
    },
    {
      "epoch": 13.522935779816514,
      "grad_norm": 0.13616935908794403,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 13266
    },
    {
      "epoch": 13.523955147808358,
      "grad_norm": 0.07928244769573212,
      "learning_rate": 0.001,
      "loss": 0.1787,
      "step": 13267
    },
    {
      "epoch": 13.524974515800205,
      "grad_norm": 0.09888412803411484,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 13268
    },
    {
      "epoch": 13.525993883792049,
      "grad_norm": 0.07975858449935913,
      "learning_rate": 0.001,
      "loss": 0.1888,
      "step": 13269
    },
    {
      "epoch": 13.527013251783893,
      "grad_norm": 0.1739301234483719,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13270
    },
    {
      "epoch": 13.52803261977574,
      "grad_norm": 0.11993008852005005,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 13271
    },
    {
      "epoch": 13.529051987767584,
      "grad_norm": 0.03737032786011696,
      "learning_rate": 0.001,
      "loss": 0.1548,
      "step": 13272
    },
    {
      "epoch": 13.530071355759429,
      "grad_norm": 0.1663709580898285,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 13273
    },
    {
      "epoch": 13.531090723751275,
      "grad_norm": 0.06810805946588516,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 13274
    },
    {
      "epoch": 13.53211009174312,
      "grad_norm": 0.09566172957420349,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 13275
    },
    {
      "epoch": 13.533129459734964,
      "grad_norm": 0.08761937916278839,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 13276
    },
    {
      "epoch": 13.53414882772681,
      "grad_norm": 0.12014038115739822,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 13277
    },
    {
      "epoch": 13.535168195718654,
      "grad_norm": 0.048353880643844604,
      "learning_rate": 0.001,
      "loss": 0.1733,
      "step": 13278
    },
    {
      "epoch": 13.536187563710499,
      "grad_norm": 0.03169313445687294,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 13279
    },
    {
      "epoch": 13.537206931702345,
      "grad_norm": 0.07931747287511826,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 13280
    },
    {
      "epoch": 13.53822629969419,
      "grad_norm": 0.14961819350719452,
      "learning_rate": 0.001,
      "loss": 0.1715,
      "step": 13281
    },
    {
      "epoch": 13.539245667686036,
      "grad_norm": 0.07540220022201538,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 13282
    },
    {
      "epoch": 13.54026503567788,
      "grad_norm": 0.05933666229248047,
      "learning_rate": 0.001,
      "loss": 0.1698,
      "step": 13283
    },
    {
      "epoch": 13.541284403669724,
      "grad_norm": 0.06411439925432205,
      "learning_rate": 0.001,
      "loss": 0.1603,
      "step": 13284
    },
    {
      "epoch": 13.54230377166157,
      "grad_norm": 0.045656125992536545,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13285
    },
    {
      "epoch": 13.543323139653415,
      "grad_norm": 0.09610524773597717,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 13286
    },
    {
      "epoch": 13.54434250764526,
      "grad_norm": 0.047942329198122025,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 13287
    },
    {
      "epoch": 13.545361875637106,
      "grad_norm": 0.13331905007362366,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 13288
    },
    {
      "epoch": 13.54638124362895,
      "grad_norm": 0.07274028658866882,
      "learning_rate": 0.001,
      "loss": 0.2102,
      "step": 13289
    },
    {
      "epoch": 13.547400611620795,
      "grad_norm": 0.08833044767379761,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 13290
    },
    {
      "epoch": 13.54841997961264,
      "grad_norm": 0.07349817454814911,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 13291
    },
    {
      "epoch": 13.549439347604485,
      "grad_norm": 0.06710047274827957,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 13292
    },
    {
      "epoch": 13.55045871559633,
      "grad_norm": 0.05836251750588417,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 13293
    },
    {
      "epoch": 13.551478083588176,
      "grad_norm": 0.03926503285765648,
      "learning_rate": 0.001,
      "loss": 0.1632,
      "step": 13294
    },
    {
      "epoch": 13.55249745158002,
      "grad_norm": 0.037731945514678955,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 13295
    },
    {
      "epoch": 13.553516819571865,
      "grad_norm": 0.0945587083697319,
      "learning_rate": 0.001,
      "loss": 0.187,
      "step": 13296
    },
    {
      "epoch": 13.554536187563711,
      "grad_norm": 0.10122554749250412,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 13297
    },
    {
      "epoch": 13.555555555555555,
      "grad_norm": 0.1051977202296257,
      "learning_rate": 0.001,
      "loss": 0.1792,
      "step": 13298
    },
    {
      "epoch": 13.5565749235474,
      "grad_norm": 0.08379556983709335,
      "learning_rate": 0.001,
      "loss": 0.1639,
      "step": 13299
    },
    {
      "epoch": 13.557594291539246,
      "grad_norm": 0.11200862377882004,
      "learning_rate": 0.001,
      "loss": 0.1718,
      "step": 13300
    },
    {
      "epoch": 13.55861365953109,
      "grad_norm": 0.046363186091184616,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13301
    },
    {
      "epoch": 13.559633027522935,
      "grad_norm": 0.05462104454636574,
      "learning_rate": 0.001,
      "loss": 0.1713,
      "step": 13302
    },
    {
      "epoch": 13.560652395514781,
      "grad_norm": 0.029147835448384285,
      "learning_rate": 0.001,
      "loss": 0.1631,
      "step": 13303
    },
    {
      "epoch": 13.561671763506626,
      "grad_norm": 0.17956149578094482,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 13304
    },
    {
      "epoch": 13.562691131498472,
      "grad_norm": 0.06559499353170395,
      "learning_rate": 0.001,
      "loss": 0.165,
      "step": 13305
    },
    {
      "epoch": 13.563710499490316,
      "grad_norm": 0.10945363342761993,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 13306
    },
    {
      "epoch": 13.56472986748216,
      "grad_norm": 0.1576032042503357,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 13307
    },
    {
      "epoch": 13.565749235474007,
      "grad_norm": 0.15596377849578857,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 13308
    },
    {
      "epoch": 13.566768603465851,
      "grad_norm": 0.12145046889781952,
      "learning_rate": 0.001,
      "loss": 0.1945,
      "step": 13309
    },
    {
      "epoch": 13.567787971457696,
      "grad_norm": 0.12214232236146927,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 13310
    },
    {
      "epoch": 13.568807339449542,
      "grad_norm": 0.11121699213981628,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 13311
    },
    {
      "epoch": 13.569826707441386,
      "grad_norm": 0.2010241001844406,
      "learning_rate": 0.001,
      "loss": 0.1948,
      "step": 13312
    },
    {
      "epoch": 13.57084607543323,
      "grad_norm": 0.06716363877058029,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 13313
    },
    {
      "epoch": 13.571865443425077,
      "grad_norm": 0.0464579313993454,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 13314
    },
    {
      "epoch": 13.572884811416921,
      "grad_norm": 0.05995730310678482,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 13315
    },
    {
      "epoch": 13.573904179408766,
      "grad_norm": 0.09682891517877579,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 13316
    },
    {
      "epoch": 13.574923547400612,
      "grad_norm": 0.04733549803495407,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 13317
    },
    {
      "epoch": 13.575942915392456,
      "grad_norm": 0.12091706693172455,
      "learning_rate": 0.001,
      "loss": 0.1907,
      "step": 13318
    },
    {
      "epoch": 13.576962283384301,
      "grad_norm": 0.175675630569458,
      "learning_rate": 0.001,
      "loss": 0.1997,
      "step": 13319
    },
    {
      "epoch": 13.577981651376147,
      "grad_norm": 0.07520192116498947,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13320
    },
    {
      "epoch": 13.579001019367992,
      "grad_norm": 0.08949539065361023,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 13321
    },
    {
      "epoch": 13.580020387359838,
      "grad_norm": 0.07150208204984665,
      "learning_rate": 0.001,
      "loss": 0.1606,
      "step": 13322
    },
    {
      "epoch": 13.581039755351682,
      "grad_norm": 0.04830486699938774,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 13323
    },
    {
      "epoch": 13.582059123343527,
      "grad_norm": 0.042692530900239944,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 13324
    },
    {
      "epoch": 13.583078491335373,
      "grad_norm": 0.1207146868109703,
      "learning_rate": 0.001,
      "loss": 0.1904,
      "step": 13325
    },
    {
      "epoch": 13.584097859327217,
      "grad_norm": 0.03604967147111893,
      "learning_rate": 0.001,
      "loss": 0.1617,
      "step": 13326
    },
    {
      "epoch": 13.585117227319062,
      "grad_norm": 0.09520619362592697,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13327
    },
    {
      "epoch": 13.586136595310908,
      "grad_norm": 0.06247539818286896,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 13328
    },
    {
      "epoch": 13.587155963302752,
      "grad_norm": 0.08928540349006653,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 13329
    },
    {
      "epoch": 13.588175331294597,
      "grad_norm": 0.14021973311901093,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13330
    },
    {
      "epoch": 13.589194699286443,
      "grad_norm": 0.06272228062152863,
      "learning_rate": 0.001,
      "loss": 0.1594,
      "step": 13331
    },
    {
      "epoch": 13.590214067278287,
      "grad_norm": 0.09976910799741745,
      "learning_rate": 0.001,
      "loss": 0.1765,
      "step": 13332
    },
    {
      "epoch": 13.591233435270132,
      "grad_norm": 0.09459236264228821,
      "learning_rate": 0.001,
      "loss": 0.1561,
      "step": 13333
    },
    {
      "epoch": 13.592252803261978,
      "grad_norm": 0.07464664429426193,
      "learning_rate": 0.001,
      "loss": 0.176,
      "step": 13334
    },
    {
      "epoch": 13.593272171253822,
      "grad_norm": 0.0670173242688179,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13335
    },
    {
      "epoch": 13.594291539245667,
      "grad_norm": 0.059514399617910385,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 13336
    },
    {
      "epoch": 13.595310907237513,
      "grad_norm": 0.10884208977222443,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13337
    },
    {
      "epoch": 13.596330275229358,
      "grad_norm": 0.054119277745485306,
      "learning_rate": 0.001,
      "loss": 0.1785,
      "step": 13338
    },
    {
      "epoch": 13.597349643221204,
      "grad_norm": 0.17217053472995758,
      "learning_rate": 0.001,
      "loss": 0.1989,
      "step": 13339
    },
    {
      "epoch": 13.598369011213048,
      "grad_norm": 0.1219855546951294,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 13340
    },
    {
      "epoch": 13.599388379204893,
      "grad_norm": 0.0634642019867897,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 13341
    },
    {
      "epoch": 13.600407747196739,
      "grad_norm": 0.051541101187467575,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 13342
    },
    {
      "epoch": 13.601427115188583,
      "grad_norm": 0.12904532253742218,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 13343
    },
    {
      "epoch": 13.602446483180428,
      "grad_norm": 0.07037170976400375,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 13344
    },
    {
      "epoch": 13.603465851172274,
      "grad_norm": 0.12910938262939453,
      "learning_rate": 0.001,
      "loss": 0.1804,
      "step": 13345
    },
    {
      "epoch": 13.604485219164118,
      "grad_norm": 0.0837639644742012,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 13346
    },
    {
      "epoch": 13.605504587155963,
      "grad_norm": 0.04921485856175423,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13347
    },
    {
      "epoch": 13.606523955147809,
      "grad_norm": 0.09501850605010986,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 13348
    },
    {
      "epoch": 13.607543323139653,
      "grad_norm": 0.0705108791589737,
      "learning_rate": 0.001,
      "loss": 0.1631,
      "step": 13349
    },
    {
      "epoch": 13.608562691131498,
      "grad_norm": 0.1069389134645462,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 13350
    },
    {
      "epoch": 13.609582059123344,
      "grad_norm": 0.07360554486513138,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 13351
    },
    {
      "epoch": 13.610601427115188,
      "grad_norm": 0.0607755146920681,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 13352
    },
    {
      "epoch": 13.611620795107033,
      "grad_norm": 0.08423514664173126,
      "learning_rate": 0.001,
      "loss": 0.1669,
      "step": 13353
    },
    {
      "epoch": 13.61264016309888,
      "grad_norm": 0.10414279252290726,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 13354
    },
    {
      "epoch": 13.613659531090724,
      "grad_norm": 0.05343609303236008,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 13355
    },
    {
      "epoch": 13.614678899082568,
      "grad_norm": 0.07578939199447632,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 13356
    },
    {
      "epoch": 13.615698267074414,
      "grad_norm": 0.08924398571252823,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 13357
    },
    {
      "epoch": 13.616717635066259,
      "grad_norm": 0.09841734170913696,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 13358
    },
    {
      "epoch": 13.617737003058103,
      "grad_norm": 0.0766109898686409,
      "learning_rate": 0.001,
      "loss": 0.1644,
      "step": 13359
    },
    {
      "epoch": 13.61875637104995,
      "grad_norm": 0.08813581615686417,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 13360
    },
    {
      "epoch": 13.619775739041794,
      "grad_norm": 0.0853528156876564,
      "learning_rate": 0.001,
      "loss": 0.2004,
      "step": 13361
    },
    {
      "epoch": 13.62079510703364,
      "grad_norm": 0.05014961212873459,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 13362
    },
    {
      "epoch": 13.621814475025484,
      "grad_norm": 0.10960638523101807,
      "learning_rate": 0.001,
      "loss": 0.194,
      "step": 13363
    },
    {
      "epoch": 13.622833843017329,
      "grad_norm": 0.09885721653699875,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 13364
    },
    {
      "epoch": 13.623853211009175,
      "grad_norm": 0.09042443335056305,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 13365
    },
    {
      "epoch": 13.62487257900102,
      "grad_norm": 0.05426604673266411,
      "learning_rate": 0.001,
      "loss": 0.1637,
      "step": 13366
    },
    {
      "epoch": 13.625891946992864,
      "grad_norm": 0.08624782413244247,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13367
    },
    {
      "epoch": 13.62691131498471,
      "grad_norm": 0.026652740314602852,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 13368
    },
    {
      "epoch": 13.627930682976555,
      "grad_norm": 0.039567332714796066,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 13369
    },
    {
      "epoch": 13.628950050968399,
      "grad_norm": 0.11791142076253891,
      "learning_rate": 0.001,
      "loss": 0.189,
      "step": 13370
    },
    {
      "epoch": 13.629969418960245,
      "grad_norm": 0.12201609462499619,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 13371
    },
    {
      "epoch": 13.63098878695209,
      "grad_norm": 0.10879180580377579,
      "learning_rate": 0.001,
      "loss": 0.1766,
      "step": 13372
    },
    {
      "epoch": 13.632008154943934,
      "grad_norm": 0.06851622462272644,
      "learning_rate": 0.001,
      "loss": 0.1914,
      "step": 13373
    },
    {
      "epoch": 13.63302752293578,
      "grad_norm": 0.05499257892370224,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 13374
    },
    {
      "epoch": 13.634046890927625,
      "grad_norm": 0.05481753498315811,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 13375
    },
    {
      "epoch": 13.635066258919469,
      "grad_norm": 0.16567599773406982,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 13376
    },
    {
      "epoch": 13.636085626911315,
      "grad_norm": 0.06946852803230286,
      "learning_rate": 0.001,
      "loss": 0.1691,
      "step": 13377
    },
    {
      "epoch": 13.63710499490316,
      "grad_norm": 0.14200375974178314,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 13378
    },
    {
      "epoch": 13.638124362895006,
      "grad_norm": 0.10713117569684982,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 13379
    },
    {
      "epoch": 13.63914373088685,
      "grad_norm": 0.11545348912477493,
      "learning_rate": 0.001,
      "loss": 0.1622,
      "step": 13380
    },
    {
      "epoch": 13.640163098878695,
      "grad_norm": 0.17224963009357452,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 13381
    },
    {
      "epoch": 13.641182466870541,
      "grad_norm": 0.07805332541465759,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 13382
    },
    {
      "epoch": 13.642201834862385,
      "grad_norm": 0.05972982197999954,
      "learning_rate": 0.001,
      "loss": 0.1779,
      "step": 13383
    },
    {
      "epoch": 13.64322120285423,
      "grad_norm": 0.019952984526753426,
      "learning_rate": 0.001,
      "loss": 0.1688,
      "step": 13384
    },
    {
      "epoch": 13.644240570846076,
      "grad_norm": 0.10714132338762283,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13385
    },
    {
      "epoch": 13.64525993883792,
      "grad_norm": 0.08630583435297012,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 13386
    },
    {
      "epoch": 13.646279306829765,
      "grad_norm": 0.13417796790599823,
      "learning_rate": 0.001,
      "loss": 0.2096,
      "step": 13387
    },
    {
      "epoch": 13.647298674821611,
      "grad_norm": 0.10473208874464035,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 13388
    },
    {
      "epoch": 13.648318042813456,
      "grad_norm": 0.13895954191684723,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13389
    },
    {
      "epoch": 13.6493374108053,
      "grad_norm": 0.0689205676317215,
      "learning_rate": 0.001,
      "loss": 0.196,
      "step": 13390
    },
    {
      "epoch": 13.650356778797146,
      "grad_norm": 0.04855812340974808,
      "learning_rate": 0.001,
      "loss": 0.1581,
      "step": 13391
    },
    {
      "epoch": 13.65137614678899,
      "grad_norm": 0.05151928588747978,
      "learning_rate": 0.001,
      "loss": 0.1747,
      "step": 13392
    },
    {
      "epoch": 13.652395514780835,
      "grad_norm": 0.1351676881313324,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 13393
    },
    {
      "epoch": 13.653414882772681,
      "grad_norm": 0.0972631424665451,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 13394
    },
    {
      "epoch": 13.654434250764526,
      "grad_norm": 0.14614702761173248,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13395
    },
    {
      "epoch": 13.655453618756372,
      "grad_norm": 0.06756764650344849,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 13396
    },
    {
      "epoch": 13.656472986748216,
      "grad_norm": 0.0524476133286953,
      "learning_rate": 0.001,
      "loss": 0.1919,
      "step": 13397
    },
    {
      "epoch": 13.65749235474006,
      "grad_norm": 0.045260872691869736,
      "learning_rate": 0.001,
      "loss": 0.1584,
      "step": 13398
    },
    {
      "epoch": 13.658511722731905,
      "grad_norm": 0.13670368492603302,
      "learning_rate": 0.001,
      "loss": 0.181,
      "step": 13399
    },
    {
      "epoch": 13.659531090723751,
      "grad_norm": 0.09143274277448654,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 13400
    },
    {
      "epoch": 13.660550458715596,
      "grad_norm": 0.09502064436674118,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 13401
    },
    {
      "epoch": 13.661569826707442,
      "grad_norm": 0.0788932666182518,
      "learning_rate": 0.001,
      "loss": 0.1741,
      "step": 13402
    },
    {
      "epoch": 13.662589194699287,
      "grad_norm": 0.04805399850010872,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 13403
    },
    {
      "epoch": 13.663608562691131,
      "grad_norm": 0.05490454286336899,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 13404
    },
    {
      "epoch": 13.664627930682977,
      "grad_norm": 0.1092119887471199,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 13405
    },
    {
      "epoch": 13.665647298674822,
      "grad_norm": 0.06859041750431061,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 13406
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.0734369084239006,
      "learning_rate": 0.001,
      "loss": 0.1975,
      "step": 13407
    },
    {
      "epoch": 13.667686034658512,
      "grad_norm": 0.12045489251613617,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 13408
    },
    {
      "epoch": 13.668705402650357,
      "grad_norm": 0.03451396897435188,
      "learning_rate": 0.001,
      "loss": 0.1831,
      "step": 13409
    },
    {
      "epoch": 13.669724770642201,
      "grad_norm": 0.054589081555604935,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 13410
    },
    {
      "epoch": 13.670744138634047,
      "grad_norm": 0.09505229443311691,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 13411
    },
    {
      "epoch": 13.671763506625892,
      "grad_norm": 0.10253222286701202,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 13412
    },
    {
      "epoch": 13.672782874617736,
      "grad_norm": 0.36519885063171387,
      "learning_rate": 0.001,
      "loss": 0.1763,
      "step": 13413
    },
    {
      "epoch": 13.673802242609582,
      "grad_norm": 0.11999333649873734,
      "learning_rate": 0.001,
      "loss": 0.1749,
      "step": 13414
    },
    {
      "epoch": 13.674821610601427,
      "grad_norm": 0.07942324131727219,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 13415
    },
    {
      "epoch": 13.675840978593271,
      "grad_norm": 0.10512817651033401,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13416
    },
    {
      "epoch": 13.676860346585118,
      "grad_norm": 0.07181596755981445,
      "learning_rate": 0.001,
      "loss": 0.1643,
      "step": 13417
    },
    {
      "epoch": 13.677879714576962,
      "grad_norm": 0.06873561441898346,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 13418
    },
    {
      "epoch": 13.678899082568808,
      "grad_norm": 0.14131490886211395,
      "learning_rate": 0.001,
      "loss": 0.1826,
      "step": 13419
    },
    {
      "epoch": 13.679918450560653,
      "grad_norm": 0.06867049634456635,
      "learning_rate": 0.001,
      "loss": 0.1771,
      "step": 13420
    },
    {
      "epoch": 13.680937818552497,
      "grad_norm": 0.14119665324687958,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 13421
    },
    {
      "epoch": 13.681957186544343,
      "grad_norm": 0.078907810151577,
      "learning_rate": 0.001,
      "loss": 0.1957,
      "step": 13422
    },
    {
      "epoch": 13.682976554536188,
      "grad_norm": 0.06179879233241081,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 13423
    },
    {
      "epoch": 13.683995922528032,
      "grad_norm": 0.10846734046936035,
      "learning_rate": 0.001,
      "loss": 0.1809,
      "step": 13424
    },
    {
      "epoch": 13.685015290519878,
      "grad_norm": 0.044284652918577194,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 13425
    },
    {
      "epoch": 13.686034658511723,
      "grad_norm": 0.14429469406604767,
      "learning_rate": 0.001,
      "loss": 0.2047,
      "step": 13426
    },
    {
      "epoch": 13.687054026503567,
      "grad_norm": 0.09733039140701294,
      "learning_rate": 0.001,
      "loss": 0.1781,
      "step": 13427
    },
    {
      "epoch": 13.688073394495413,
      "grad_norm": 0.230205699801445,
      "learning_rate": 0.001,
      "loss": 0.1807,
      "step": 13428
    },
    {
      "epoch": 13.689092762487258,
      "grad_norm": 0.09154423326253891,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 13429
    },
    {
      "epoch": 13.690112130479102,
      "grad_norm": 0.05123124271631241,
      "learning_rate": 0.001,
      "loss": 0.1722,
      "step": 13430
    },
    {
      "epoch": 13.691131498470948,
      "grad_norm": 0.06965561211109161,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 13431
    },
    {
      "epoch": 13.692150866462793,
      "grad_norm": 0.09013668447732925,
      "learning_rate": 0.001,
      "loss": 0.1918,
      "step": 13432
    },
    {
      "epoch": 13.693170234454637,
      "grad_norm": 0.07773982733488083,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 13433
    },
    {
      "epoch": 13.694189602446484,
      "grad_norm": 0.042219266295433044,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 13434
    },
    {
      "epoch": 13.695208970438328,
      "grad_norm": 0.09548594057559967,
      "learning_rate": 0.001,
      "loss": 0.192,
      "step": 13435
    },
    {
      "epoch": 13.696228338430174,
      "grad_norm": 0.1526024043560028,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13436
    },
    {
      "epoch": 13.697247706422019,
      "grad_norm": 0.10597680509090424,
      "learning_rate": 0.001,
      "loss": 0.197,
      "step": 13437
    },
    {
      "epoch": 13.698267074413863,
      "grad_norm": 0.10046734660863876,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 13438
    },
    {
      "epoch": 13.69928644240571,
      "grad_norm": 0.04643573611974716,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 13439
    },
    {
      "epoch": 13.700305810397554,
      "grad_norm": 0.11163055151700974,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 13440
    },
    {
      "epoch": 13.701325178389398,
      "grad_norm": 0.08679851144552231,
      "learning_rate": 0.001,
      "loss": 0.1829,
      "step": 13441
    },
    {
      "epoch": 13.702344546381244,
      "grad_norm": 0.0755058154463768,
      "learning_rate": 0.001,
      "loss": 0.1678,
      "step": 13442
    },
    {
      "epoch": 13.703363914373089,
      "grad_norm": 0.050625722855329514,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 13443
    },
    {
      "epoch": 13.704383282364933,
      "grad_norm": 0.12154141068458557,
      "learning_rate": 0.001,
      "loss": 0.193,
      "step": 13444
    },
    {
      "epoch": 13.70540265035678,
      "grad_norm": 0.10161290317773819,
      "learning_rate": 0.001,
      "loss": 0.1697,
      "step": 13445
    },
    {
      "epoch": 13.706422018348624,
      "grad_norm": 0.09633778035640717,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13446
    },
    {
      "epoch": 13.707441386340468,
      "grad_norm": 0.09884528815746307,
      "learning_rate": 0.001,
      "loss": 0.1711,
      "step": 13447
    },
    {
      "epoch": 13.708460754332314,
      "grad_norm": 0.06090825796127319,
      "learning_rate": 0.001,
      "loss": 0.1793,
      "step": 13448
    },
    {
      "epoch": 13.709480122324159,
      "grad_norm": 0.13892759382724762,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 13449
    },
    {
      "epoch": 13.710499490316003,
      "grad_norm": 0.08861719816923141,
      "learning_rate": 0.001,
      "loss": 0.17,
      "step": 13450
    },
    {
      "epoch": 13.71151885830785,
      "grad_norm": 0.4122765362262726,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13451
    },
    {
      "epoch": 13.712538226299694,
      "grad_norm": 0.1269349902868271,
      "learning_rate": 0.001,
      "loss": 0.1836,
      "step": 13452
    },
    {
      "epoch": 13.713557594291538,
      "grad_norm": 0.11685345321893692,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13453
    },
    {
      "epoch": 13.714576962283385,
      "grad_norm": 0.1085323914885521,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 13454
    },
    {
      "epoch": 13.715596330275229,
      "grad_norm": 0.132137268781662,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 13455
    },
    {
      "epoch": 13.716615698267073,
      "grad_norm": 0.11311158537864685,
      "learning_rate": 0.001,
      "loss": 0.1986,
      "step": 13456
    },
    {
      "epoch": 13.71763506625892,
      "grad_norm": 0.06507385522127151,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 13457
    },
    {
      "epoch": 13.718654434250764,
      "grad_norm": 0.0432736836373806,
      "learning_rate": 0.001,
      "loss": 0.1608,
      "step": 13458
    },
    {
      "epoch": 13.71967380224261,
      "grad_norm": 0.10431564599275589,
      "learning_rate": 0.001,
      "loss": 0.1853,
      "step": 13459
    },
    {
      "epoch": 13.720693170234455,
      "grad_norm": 0.07228706032037735,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13460
    },
    {
      "epoch": 13.7217125382263,
      "grad_norm": 0.09349380433559418,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 13461
    },
    {
      "epoch": 13.722731906218145,
      "grad_norm": 0.11570427566766739,
      "learning_rate": 0.001,
      "loss": 0.1758,
      "step": 13462
    },
    {
      "epoch": 13.72375127420999,
      "grad_norm": 0.049550611525774,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13463
    },
    {
      "epoch": 13.724770642201834,
      "grad_norm": 0.0803544893860817,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 13464
    },
    {
      "epoch": 13.72579001019368,
      "grad_norm": 0.08526352792978287,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 13465
    },
    {
      "epoch": 13.726809378185525,
      "grad_norm": 0.1560305953025818,
      "learning_rate": 0.001,
      "loss": 0.1915,
      "step": 13466
    },
    {
      "epoch": 13.72782874617737,
      "grad_norm": 0.11647943407297134,
      "learning_rate": 0.001,
      "loss": 0.1621,
      "step": 13467
    },
    {
      "epoch": 13.728848114169216,
      "grad_norm": 0.12613919377326965,
      "learning_rate": 0.001,
      "loss": 0.1906,
      "step": 13468
    },
    {
      "epoch": 13.72986748216106,
      "grad_norm": 0.06983751058578491,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13469
    },
    {
      "epoch": 13.730886850152904,
      "grad_norm": 0.07186121493577957,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 13470
    },
    {
      "epoch": 13.73190621814475,
      "grad_norm": 0.06999979168176651,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 13471
    },
    {
      "epoch": 13.732925586136595,
      "grad_norm": 0.08846984058618546,
      "learning_rate": 0.001,
      "loss": 0.1702,
      "step": 13472
    },
    {
      "epoch": 13.73394495412844,
      "grad_norm": 0.12368008494377136,
      "learning_rate": 0.001,
      "loss": 0.1498,
      "step": 13473
    },
    {
      "epoch": 13.734964322120286,
      "grad_norm": 0.06255458295345306,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 13474
    },
    {
      "epoch": 13.73598369011213,
      "grad_norm": 0.0846235454082489,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 13475
    },
    {
      "epoch": 13.737003058103976,
      "grad_norm": 0.055076565593481064,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13476
    },
    {
      "epoch": 13.73802242609582,
      "grad_norm": 0.09844706952571869,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 13477
    },
    {
      "epoch": 13.739041794087665,
      "grad_norm": 0.05612358823418617,
      "learning_rate": 0.001,
      "loss": 0.1724,
      "step": 13478
    },
    {
      "epoch": 13.740061162079511,
      "grad_norm": 0.07052657753229141,
      "learning_rate": 0.001,
      "loss": 0.1864,
      "step": 13479
    },
    {
      "epoch": 13.741080530071356,
      "grad_norm": 0.050128404051065445,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 13480
    },
    {
      "epoch": 13.7420998980632,
      "grad_norm": 0.0406780019402504,
      "learning_rate": 0.001,
      "loss": 0.172,
      "step": 13481
    },
    {
      "epoch": 13.743119266055047,
      "grad_norm": 0.11202818900346756,
      "learning_rate": 0.001,
      "loss": 0.1813,
      "step": 13482
    },
    {
      "epoch": 13.744138634046891,
      "grad_norm": 0.0424988679587841,
      "learning_rate": 0.001,
      "loss": 0.1631,
      "step": 13483
    },
    {
      "epoch": 13.745158002038735,
      "grad_norm": 0.11570896953344345,
      "learning_rate": 0.001,
      "loss": 0.1798,
      "step": 13484
    },
    {
      "epoch": 13.746177370030582,
      "grad_norm": 0.05021200701594353,
      "learning_rate": 0.001,
      "loss": 0.1581,
      "step": 13485
    },
    {
      "epoch": 13.747196738022426,
      "grad_norm": 0.056372061371803284,
      "learning_rate": 0.001,
      "loss": 0.1653,
      "step": 13486
    },
    {
      "epoch": 13.74821610601427,
      "grad_norm": 0.08959711343050003,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13487
    },
    {
      "epoch": 13.749235474006117,
      "grad_norm": 0.12388885766267776,
      "learning_rate": 0.001,
      "loss": 0.1899,
      "step": 13488
    },
    {
      "epoch": 13.750254841997961,
      "grad_norm": 0.17345383763313293,
      "learning_rate": 0.001,
      "loss": 0.1676,
      "step": 13489
    },
    {
      "epoch": 13.751274209989806,
      "grad_norm": 0.06811296194791794,
      "learning_rate": 0.001,
      "loss": 0.1675,
      "step": 13490
    },
    {
      "epoch": 13.752293577981652,
      "grad_norm": 0.08916302025318146,
      "learning_rate": 0.001,
      "loss": 0.1943,
      "step": 13491
    },
    {
      "epoch": 13.753312945973496,
      "grad_norm": 0.12679608166217804,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 13492
    },
    {
      "epoch": 13.754332313965342,
      "grad_norm": 0.30568721890449524,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 13493
    },
    {
      "epoch": 13.755351681957187,
      "grad_norm": 0.0720006600022316,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13494
    },
    {
      "epoch": 13.756371049949031,
      "grad_norm": 0.07507413625717163,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 13495
    },
    {
      "epoch": 13.757390417940877,
      "grad_norm": 0.0906706228852272,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 13496
    },
    {
      "epoch": 13.758409785932722,
      "grad_norm": 0.05660134181380272,
      "learning_rate": 0.001,
      "loss": 0.1743,
      "step": 13497
    },
    {
      "epoch": 13.759429153924566,
      "grad_norm": 0.06737291812896729,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 13498
    },
    {
      "epoch": 13.760448521916413,
      "grad_norm": 0.1156701073050499,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 13499
    },
    {
      "epoch": 13.761467889908257,
      "grad_norm": 0.13115571439266205,
      "learning_rate": 0.001,
      "loss": 0.1901,
      "step": 13500
    },
    {
      "epoch": 13.762487257900101,
      "grad_norm": 0.44237619638442993,
      "learning_rate": 0.001,
      "loss": 0.1963,
      "step": 13501
    },
    {
      "epoch": 13.763506625891948,
      "grad_norm": 0.11775900423526764,
      "learning_rate": 0.001,
      "loss": 0.161,
      "step": 13502
    },
    {
      "epoch": 13.764525993883792,
      "grad_norm": 0.10082400590181351,
      "learning_rate": 0.001,
      "loss": 0.2002,
      "step": 13503
    },
    {
      "epoch": 13.765545361875636,
      "grad_norm": 0.09501049667596817,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13504
    },
    {
      "epoch": 13.766564729867483,
      "grad_norm": 0.05110885947942734,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 13505
    },
    {
      "epoch": 13.767584097859327,
      "grad_norm": 0.15202920138835907,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13506
    },
    {
      "epoch": 13.768603465851172,
      "grad_norm": 0.1223117858171463,
      "learning_rate": 0.001,
      "loss": 0.1796,
      "step": 13507
    },
    {
      "epoch": 13.769622833843018,
      "grad_norm": 0.06144648417830467,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 13508
    },
    {
      "epoch": 13.770642201834862,
      "grad_norm": 0.0997605100274086,
      "learning_rate": 0.001,
      "loss": 0.1821,
      "step": 13509
    },
    {
      "epoch": 13.771661569826707,
      "grad_norm": 0.1293424516916275,
      "learning_rate": 0.001,
      "loss": 0.2035,
      "step": 13510
    },
    {
      "epoch": 13.772680937818553,
      "grad_norm": 0.0959949642419815,
      "learning_rate": 0.001,
      "loss": 0.177,
      "step": 13511
    },
    {
      "epoch": 13.773700305810397,
      "grad_norm": 0.09268182516098022,
      "learning_rate": 0.001,
      "loss": 0.1953,
      "step": 13512
    },
    {
      "epoch": 13.774719673802242,
      "grad_norm": 0.060941148549318314,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 13513
    },
    {
      "epoch": 13.775739041794088,
      "grad_norm": 0.08065047860145569,
      "learning_rate": 0.001,
      "loss": 0.1699,
      "step": 13514
    },
    {
      "epoch": 13.776758409785932,
      "grad_norm": 0.10846025496721268,
      "learning_rate": 0.001,
      "loss": 0.1768,
      "step": 13515
    },
    {
      "epoch": 13.777777777777779,
      "grad_norm": 0.056496281176805496,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 13516
    },
    {
      "epoch": 13.778797145769623,
      "grad_norm": 0.08595398813486099,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 13517
    },
    {
      "epoch": 13.779816513761467,
      "grad_norm": 0.08111728727817535,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 13518
    },
    {
      "epoch": 13.780835881753314,
      "grad_norm": 0.07330943644046783,
      "learning_rate": 0.001,
      "loss": 0.2013,
      "step": 13519
    },
    {
      "epoch": 13.781855249745158,
      "grad_norm": 0.10247377306222916,
      "learning_rate": 0.001,
      "loss": 0.1934,
      "step": 13520
    },
    {
      "epoch": 13.782874617737003,
      "grad_norm": 0.10219229012727737,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 13521
    },
    {
      "epoch": 13.783893985728849,
      "grad_norm": 0.10849040001630783,
      "learning_rate": 0.001,
      "loss": 0.204,
      "step": 13522
    },
    {
      "epoch": 13.784913353720693,
      "grad_norm": 0.06860625743865967,
      "learning_rate": 0.001,
      "loss": 0.1846,
      "step": 13523
    },
    {
      "epoch": 13.785932721712538,
      "grad_norm": 0.07390522956848145,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 13524
    },
    {
      "epoch": 13.786952089704384,
      "grad_norm": 0.09515208005905151,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 13525
    },
    {
      "epoch": 13.787971457696228,
      "grad_norm": 0.06405224651098251,
      "learning_rate": 0.001,
      "loss": 0.1646,
      "step": 13526
    },
    {
      "epoch": 13.788990825688073,
      "grad_norm": 0.11113637685775757,
      "learning_rate": 0.001,
      "loss": 0.1871,
      "step": 13527
    },
    {
      "epoch": 13.790010193679919,
      "grad_norm": 0.09937143325805664,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 13528
    },
    {
      "epoch": 13.791029561671763,
      "grad_norm": 0.0547700934112072,
      "learning_rate": 0.001,
      "loss": 0.1726,
      "step": 13529
    },
    {
      "epoch": 13.792048929663608,
      "grad_norm": 0.09242567420005798,
      "learning_rate": 0.001,
      "loss": 0.1685,
      "step": 13530
    },
    {
      "epoch": 13.793068297655454,
      "grad_norm": 0.0913543775677681,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 13531
    },
    {
      "epoch": 13.794087665647298,
      "grad_norm": 0.07016316801309586,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13532
    },
    {
      "epoch": 13.795107033639145,
      "grad_norm": 0.09274463355541229,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 13533
    },
    {
      "epoch": 13.796126401630989,
      "grad_norm": 0.09602323174476624,
      "learning_rate": 0.001,
      "loss": 0.1964,
      "step": 13534
    },
    {
      "epoch": 13.797145769622833,
      "grad_norm": 0.10590215772390366,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 13535
    },
    {
      "epoch": 13.79816513761468,
      "grad_norm": 0.10692839324474335,
      "learning_rate": 0.001,
      "loss": 0.1667,
      "step": 13536
    },
    {
      "epoch": 13.799184505606524,
      "grad_norm": 0.06714539229869843,
      "learning_rate": 0.001,
      "loss": 0.1633,
      "step": 13537
    },
    {
      "epoch": 13.800203873598369,
      "grad_norm": 0.04419749230146408,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13538
    },
    {
      "epoch": 13.801223241590215,
      "grad_norm": 0.07278956472873688,
      "learning_rate": 0.001,
      "loss": 0.1812,
      "step": 13539
    },
    {
      "epoch": 13.80224260958206,
      "grad_norm": 0.07901837676763535,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 13540
    },
    {
      "epoch": 13.803261977573904,
      "grad_norm": 0.04768725112080574,
      "learning_rate": 0.001,
      "loss": 0.1703,
      "step": 13541
    },
    {
      "epoch": 13.80428134556575,
      "grad_norm": 0.08128678798675537,
      "learning_rate": 0.001,
      "loss": 0.1692,
      "step": 13542
    },
    {
      "epoch": 13.805300713557594,
      "grad_norm": 0.0926239863038063,
      "learning_rate": 0.001,
      "loss": 0.1735,
      "step": 13543
    },
    {
      "epoch": 13.806320081549439,
      "grad_norm": 0.11180686205625534,
      "learning_rate": 0.001,
      "loss": 0.168,
      "step": 13544
    },
    {
      "epoch": 13.807339449541285,
      "grad_norm": 0.11389761418104172,
      "learning_rate": 0.001,
      "loss": 0.1753,
      "step": 13545
    },
    {
      "epoch": 13.80835881753313,
      "grad_norm": 0.10584411025047302,
      "learning_rate": 0.001,
      "loss": 0.1543,
      "step": 13546
    },
    {
      "epoch": 13.809378185524974,
      "grad_norm": 0.07548460364341736,
      "learning_rate": 0.001,
      "loss": 0.1886,
      "step": 13547
    },
    {
      "epoch": 13.81039755351682,
      "grad_norm": 0.041377607733011246,
      "learning_rate": 0.001,
      "loss": 0.179,
      "step": 13548
    },
    {
      "epoch": 13.811416921508664,
      "grad_norm": 0.06543202698230743,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 13549
    },
    {
      "epoch": 13.81243628950051,
      "grad_norm": 0.1587114781141281,
      "learning_rate": 0.001,
      "loss": 0.183,
      "step": 13550
    },
    {
      "epoch": 13.813455657492355,
      "grad_norm": 0.030824843794107437,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 13551
    },
    {
      "epoch": 13.8144750254842,
      "grad_norm": 0.10427630692720413,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 13552
    },
    {
      "epoch": 13.815494393476044,
      "grad_norm": 0.07774548977613449,
      "learning_rate": 0.001,
      "loss": 0.1782,
      "step": 13553
    },
    {
      "epoch": 13.81651376146789,
      "grad_norm": 0.08257846534252167,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 13554
    },
    {
      "epoch": 13.817533129459735,
      "grad_norm": 0.044234614819288254,
      "learning_rate": 0.001,
      "loss": 0.1597,
      "step": 13555
    },
    {
      "epoch": 13.81855249745158,
      "grad_norm": 0.06842486560344696,
      "learning_rate": 0.001,
      "loss": 0.1615,
      "step": 13556
    },
    {
      "epoch": 13.819571865443425,
      "grad_norm": 0.046987585723400116,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 13557
    },
    {
      "epoch": 13.82059123343527,
      "grad_norm": 0.09670396149158478,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 13558
    },
    {
      "epoch": 13.821610601427116,
      "grad_norm": 0.11146816611289978,
      "learning_rate": 0.001,
      "loss": 0.1876,
      "step": 13559
    },
    {
      "epoch": 13.82262996941896,
      "grad_norm": 0.0712408721446991,
      "learning_rate": 0.001,
      "loss": 0.163,
      "step": 13560
    },
    {
      "epoch": 13.823649337410805,
      "grad_norm": 0.06657252460718155,
      "learning_rate": 0.001,
      "loss": 0.1926,
      "step": 13561
    },
    {
      "epoch": 13.824668705402651,
      "grad_norm": 0.10083216428756714,
      "learning_rate": 0.001,
      "loss": 0.1833,
      "step": 13562
    },
    {
      "epoch": 13.825688073394495,
      "grad_norm": 0.055043432861566544,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 13563
    },
    {
      "epoch": 13.82670744138634,
      "grad_norm": 0.12442353367805481,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13564
    },
    {
      "epoch": 13.827726809378186,
      "grad_norm": 0.08192595839500427,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 13565
    },
    {
      "epoch": 13.82874617737003,
      "grad_norm": 0.08261242508888245,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 13566
    },
    {
      "epoch": 13.829765545361875,
      "grad_norm": 0.0698036327958107,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13567
    },
    {
      "epoch": 13.830784913353721,
      "grad_norm": 0.05026565119624138,
      "learning_rate": 0.001,
      "loss": 0.1851,
      "step": 13568
    },
    {
      "epoch": 13.831804281345565,
      "grad_norm": 0.09538804739713669,
      "learning_rate": 0.001,
      "loss": 0.1566,
      "step": 13569
    },
    {
      "epoch": 13.83282364933741,
      "grad_norm": 0.15065011382102966,
      "learning_rate": 0.001,
      "loss": 0.1732,
      "step": 13570
    },
    {
      "epoch": 13.833843017329256,
      "grad_norm": 0.03719312697649002,
      "learning_rate": 0.001,
      "loss": 0.1515,
      "step": 13571
    },
    {
      "epoch": 13.8348623853211,
      "grad_norm": 0.09480933099985123,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 13572
    },
    {
      "epoch": 13.835881753312947,
      "grad_norm": 0.10814476758241653,
      "learning_rate": 0.001,
      "loss": 0.1923,
      "step": 13573
    },
    {
      "epoch": 13.836901121304791,
      "grad_norm": 0.05804264917969704,
      "learning_rate": 0.001,
      "loss": 0.1772,
      "step": 13574
    },
    {
      "epoch": 13.837920489296636,
      "grad_norm": 0.14494062960147858,
      "learning_rate": 0.001,
      "loss": 0.1727,
      "step": 13575
    },
    {
      "epoch": 13.838939857288482,
      "grad_norm": 0.03372786566615105,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 13576
    },
    {
      "epoch": 13.839959225280326,
      "grad_norm": 0.09883107990026474,
      "learning_rate": 0.001,
      "loss": 0.1927,
      "step": 13577
    },
    {
      "epoch": 13.84097859327217,
      "grad_norm": 0.11191365867853165,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 13578
    },
    {
      "epoch": 13.841997961264017,
      "grad_norm": 0.07885098457336426,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13579
    },
    {
      "epoch": 13.843017329255861,
      "grad_norm": 0.09510454535484314,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13580
    },
    {
      "epoch": 13.844036697247706,
      "grad_norm": 0.10084585100412369,
      "learning_rate": 0.001,
      "loss": 0.1898,
      "step": 13581
    },
    {
      "epoch": 13.845056065239552,
      "grad_norm": 0.05348047614097595,
      "learning_rate": 0.001,
      "loss": 0.1604,
      "step": 13582
    },
    {
      "epoch": 13.846075433231396,
      "grad_norm": 0.09130919724702835,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13583
    },
    {
      "epoch": 13.84709480122324,
      "grad_norm": 0.1160249412059784,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 13584
    },
    {
      "epoch": 13.848114169215087,
      "grad_norm": 0.10244419425725937,
      "learning_rate": 0.001,
      "loss": 0.1686,
      "step": 13585
    },
    {
      "epoch": 13.849133537206932,
      "grad_norm": 0.1340150684118271,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 13586
    },
    {
      "epoch": 13.850152905198776,
      "grad_norm": 0.08544231206178665,
      "learning_rate": 0.001,
      "loss": 0.191,
      "step": 13587
    },
    {
      "epoch": 13.851172273190622,
      "grad_norm": 0.0993102639913559,
      "learning_rate": 0.001,
      "loss": 0.1877,
      "step": 13588
    },
    {
      "epoch": 13.852191641182467,
      "grad_norm": 0.11248821765184402,
      "learning_rate": 0.001,
      "loss": 0.1769,
      "step": 13589
    },
    {
      "epoch": 13.853211009174313,
      "grad_norm": 0.10658753663301468,
      "learning_rate": 0.001,
      "loss": 0.2001,
      "step": 13590
    },
    {
      "epoch": 13.854230377166157,
      "grad_norm": 0.13458916544914246,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 13591
    },
    {
      "epoch": 13.855249745158002,
      "grad_norm": 0.04653004929423332,
      "learning_rate": 0.001,
      "loss": 0.1799,
      "step": 13592
    },
    {
      "epoch": 13.856269113149848,
      "grad_norm": 0.04756258800625801,
      "learning_rate": 0.001,
      "loss": 0.1887,
      "step": 13593
    },
    {
      "epoch": 13.857288481141692,
      "grad_norm": 0.08953589200973511,
      "learning_rate": 0.001,
      "loss": 0.1719,
      "step": 13594
    },
    {
      "epoch": 13.858307849133537,
      "grad_norm": 0.055476896464824677,
      "learning_rate": 0.001,
      "loss": 0.1689,
      "step": 13595
    },
    {
      "epoch": 13.859327217125383,
      "grad_norm": 0.18247734010219574,
      "learning_rate": 0.001,
      "loss": 0.158,
      "step": 13596
    },
    {
      "epoch": 13.860346585117227,
      "grad_norm": 0.17184646427631378,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 13597
    },
    {
      "epoch": 13.861365953109072,
      "grad_norm": 0.09464877098798752,
      "learning_rate": 0.001,
      "loss": 0.1866,
      "step": 13598
    },
    {
      "epoch": 13.862385321100918,
      "grad_norm": 0.09782978892326355,
      "learning_rate": 0.001,
      "loss": 0.1832,
      "step": 13599
    },
    {
      "epoch": 13.863404689092762,
      "grad_norm": 0.0728350356221199,
      "learning_rate": 0.001,
      "loss": 0.1783,
      "step": 13600
    },
    {
      "epoch": 13.864424057084607,
      "grad_norm": 0.051982332020998,
      "learning_rate": 0.001,
      "loss": 0.1716,
      "step": 13601
    },
    {
      "epoch": 13.865443425076453,
      "grad_norm": 0.039777278900146484,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 13602
    },
    {
      "epoch": 13.866462793068298,
      "grad_norm": 0.09842068701982498,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 13603
    },
    {
      "epoch": 13.867482161060142,
      "grad_norm": 0.11686798185110092,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 13604
    },
    {
      "epoch": 13.868501529051988,
      "grad_norm": 0.10283474624156952,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 13605
    },
    {
      "epoch": 13.869520897043833,
      "grad_norm": 0.0592314638197422,
      "learning_rate": 0.001,
      "loss": 0.1674,
      "step": 13606
    },
    {
      "epoch": 13.870540265035677,
      "grad_norm": 0.06577300280332565,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 13607
    },
    {
      "epoch": 13.871559633027523,
      "grad_norm": 0.08111495524644852,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 13608
    },
    {
      "epoch": 13.872579001019368,
      "grad_norm": 0.223584845662117,
      "learning_rate": 0.001,
      "loss": 0.1694,
      "step": 13609
    },
    {
      "epoch": 13.873598369011212,
      "grad_norm": 0.14788877964019775,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 13610
    },
    {
      "epoch": 13.874617737003058,
      "grad_norm": 0.127832293510437,
      "learning_rate": 0.001,
      "loss": 0.1797,
      "step": 13611
    },
    {
      "epoch": 13.875637104994903,
      "grad_norm": 0.10378089547157288,
      "learning_rate": 0.001,
      "loss": 0.1835,
      "step": 13612
    },
    {
      "epoch": 13.876656472986749,
      "grad_norm": 0.14978981018066406,
      "learning_rate": 0.001,
      "loss": 0.1987,
      "step": 13613
    },
    {
      "epoch": 13.877675840978593,
      "grad_norm": 0.1065155640244484,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 13614
    },
    {
      "epoch": 13.878695208970438,
      "grad_norm": 0.1313294768333435,
      "learning_rate": 0.001,
      "loss": 0.1599,
      "step": 13615
    },
    {
      "epoch": 13.879714576962284,
      "grad_norm": 0.08825165033340454,
      "learning_rate": 0.001,
      "loss": 0.1649,
      "step": 13616
    },
    {
      "epoch": 13.880733944954128,
      "grad_norm": 0.0647934228181839,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 13617
    },
    {
      "epoch": 13.881753312945973,
      "grad_norm": 0.0839243084192276,
      "learning_rate": 0.001,
      "loss": 0.1534,
      "step": 13618
    },
    {
      "epoch": 13.88277268093782,
      "grad_norm": 0.1354988068342209,
      "learning_rate": 0.001,
      "loss": 0.1967,
      "step": 13619
    },
    {
      "epoch": 13.883792048929664,
      "grad_norm": 0.06807858496904373,
      "learning_rate": 0.001,
      "loss": 0.1786,
      "step": 13620
    },
    {
      "epoch": 13.884811416921508,
      "grad_norm": 0.05004962906241417,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 13621
    },
    {
      "epoch": 13.885830784913354,
      "grad_norm": 0.1323360949754715,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13622
    },
    {
      "epoch": 13.886850152905199,
      "grad_norm": 0.07481160014867783,
      "learning_rate": 0.001,
      "loss": 0.1648,
      "step": 13623
    },
    {
      "epoch": 13.887869520897043,
      "grad_norm": 0.03450640290975571,
      "learning_rate": 0.001,
      "loss": 0.1593,
      "step": 13624
    },
    {
      "epoch": 13.88888888888889,
      "grad_norm": 0.12457878142595291,
      "learning_rate": 0.001,
      "loss": 0.186,
      "step": 13625
    },
    {
      "epoch": 13.889908256880734,
      "grad_norm": 0.11463680863380432,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 13626
    },
    {
      "epoch": 13.890927624872578,
      "grad_norm": 0.07093561440706253,
      "learning_rate": 0.001,
      "loss": 0.1709,
      "step": 13627
    },
    {
      "epoch": 13.891946992864424,
      "grad_norm": 0.08361802250146866,
      "learning_rate": 0.001,
      "loss": 0.1881,
      "step": 13628
    },
    {
      "epoch": 13.892966360856269,
      "grad_norm": 0.045035261660814285,
      "learning_rate": 0.001,
      "loss": 0.1738,
      "step": 13629
    },
    {
      "epoch": 13.893985728848115,
      "grad_norm": 0.13547179102897644,
      "learning_rate": 0.001,
      "loss": 0.1837,
      "step": 13630
    },
    {
      "epoch": 13.89500509683996,
      "grad_norm": 0.07070066034793854,
      "learning_rate": 0.001,
      "loss": 0.1794,
      "step": 13631
    },
    {
      "epoch": 13.896024464831804,
      "grad_norm": 0.05784151330590248,
      "learning_rate": 0.001,
      "loss": 0.1818,
      "step": 13632
    },
    {
      "epoch": 13.89704383282365,
      "grad_norm": 0.12322578579187393,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 13633
    },
    {
      "epoch": 13.898063200815495,
      "grad_norm": 0.06405993551015854,
      "learning_rate": 0.001,
      "loss": 0.157,
      "step": 13634
    },
    {
      "epoch": 13.899082568807339,
      "grad_norm": 0.06472006440162659,
      "learning_rate": 0.001,
      "loss": 0.1721,
      "step": 13635
    },
    {
      "epoch": 13.900101936799185,
      "grad_norm": 0.13295045495033264,
      "learning_rate": 0.001,
      "loss": 0.1947,
      "step": 13636
    },
    {
      "epoch": 13.90112130479103,
      "grad_norm": 0.0757853090763092,
      "learning_rate": 0.001,
      "loss": 0.1666,
      "step": 13637
    },
    {
      "epoch": 13.902140672782874,
      "grad_norm": 0.12676703929901123,
      "learning_rate": 0.001,
      "loss": 0.1868,
      "step": 13638
    },
    {
      "epoch": 13.90316004077472,
      "grad_norm": 0.1291479468345642,
      "learning_rate": 0.001,
      "loss": 0.1816,
      "step": 13639
    },
    {
      "epoch": 13.904179408766565,
      "grad_norm": 0.13319849967956543,
      "learning_rate": 0.001,
      "loss": 0.1746,
      "step": 13640
    },
    {
      "epoch": 13.905198776758409,
      "grad_norm": 0.09823473542928696,
      "learning_rate": 0.001,
      "loss": 0.1825,
      "step": 13641
    },
    {
      "epoch": 13.906218144750255,
      "grad_norm": 0.11987661570310593,
      "learning_rate": 0.001,
      "loss": 0.1752,
      "step": 13642
    },
    {
      "epoch": 13.9072375127421,
      "grad_norm": 0.07680920511484146,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 13643
    },
    {
      "epoch": 13.908256880733944,
      "grad_norm": 0.12845896184444427,
      "learning_rate": 0.001,
      "loss": 0.1815,
      "step": 13644
    },
    {
      "epoch": 13.90927624872579,
      "grad_norm": 0.1104230284690857,
      "learning_rate": 0.001,
      "loss": 0.1664,
      "step": 13645
    },
    {
      "epoch": 13.910295616717635,
      "grad_norm": 0.14078672230243683,
      "learning_rate": 0.001,
      "loss": 0.1891,
      "step": 13646
    },
    {
      "epoch": 13.911314984709481,
      "grad_norm": 0.06478453427553177,
      "learning_rate": 0.001,
      "loss": 0.1682,
      "step": 13647
    },
    {
      "epoch": 13.912334352701325,
      "grad_norm": 0.14184078574180603,
      "learning_rate": 0.001,
      "loss": 0.1736,
      "step": 13648
    },
    {
      "epoch": 13.91335372069317,
      "grad_norm": 0.05584728717803955,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13649
    },
    {
      "epoch": 13.914373088685016,
      "grad_norm": 0.06388602405786514,
      "learning_rate": 0.001,
      "loss": 0.161,
      "step": 13650
    },
    {
      "epoch": 13.91539245667686,
      "grad_norm": 0.06788270175457001,
      "learning_rate": 0.001,
      "loss": 0.1858,
      "step": 13651
    },
    {
      "epoch": 13.916411824668705,
      "grad_norm": 0.11858315765857697,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 13652
    },
    {
      "epoch": 13.917431192660551,
      "grad_norm": 0.08299604803323746,
      "learning_rate": 0.001,
      "loss": 0.1805,
      "step": 13653
    },
    {
      "epoch": 13.918450560652396,
      "grad_norm": 0.09490983188152313,
      "learning_rate": 0.001,
      "loss": 0.1885,
      "step": 13654
    },
    {
      "epoch": 13.91946992864424,
      "grad_norm": 0.12887215614318848,
      "learning_rate": 0.001,
      "loss": 0.2024,
      "step": 13655
    },
    {
      "epoch": 13.920489296636086,
      "grad_norm": 0.10836910456418991,
      "learning_rate": 0.001,
      "loss": 0.174,
      "step": 13656
    },
    {
      "epoch": 13.92150866462793,
      "grad_norm": 0.07195495069026947,
      "learning_rate": 0.001,
      "loss": 0.1895,
      "step": 13657
    },
    {
      "epoch": 13.922528032619775,
      "grad_norm": 0.17350423336029053,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 13658
    },
    {
      "epoch": 13.923547400611621,
      "grad_norm": 0.1016736701130867,
      "learning_rate": 0.001,
      "loss": 0.1627,
      "step": 13659
    },
    {
      "epoch": 13.924566768603466,
      "grad_norm": 0.06369717419147491,
      "learning_rate": 0.001,
      "loss": 0.1687,
      "step": 13660
    },
    {
      "epoch": 13.92558613659531,
      "grad_norm": 0.11360755562782288,
      "learning_rate": 0.001,
      "loss": 0.2114,
      "step": 13661
    },
    {
      "epoch": 13.926605504587156,
      "grad_norm": 0.0465543270111084,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 13662
    },
    {
      "epoch": 13.927624872579,
      "grad_norm": 0.10156634449958801,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 13663
    },
    {
      "epoch": 13.928644240570845,
      "grad_norm": 0.03546616807579994,
      "learning_rate": 0.001,
      "loss": 0.1737,
      "step": 13664
    },
    {
      "epoch": 13.929663608562691,
      "grad_norm": 0.09844224900007248,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 13665
    },
    {
      "epoch": 13.930682976554536,
      "grad_norm": 0.05985655263066292,
      "learning_rate": 0.001,
      "loss": 0.1946,
      "step": 13666
    },
    {
      "epoch": 13.93170234454638,
      "grad_norm": 0.07067648321390152,
      "learning_rate": 0.001,
      "loss": 0.1616,
      "step": 13667
    },
    {
      "epoch": 13.932721712538227,
      "grad_norm": 0.062045030295848846,
      "learning_rate": 0.001,
      "loss": 0.1823,
      "step": 13668
    },
    {
      "epoch": 13.933741080530071,
      "grad_norm": 0.07091446965932846,
      "learning_rate": 0.001,
      "loss": 0.1847,
      "step": 13669
    },
    {
      "epoch": 13.934760448521917,
      "grad_norm": 0.07139521092176437,
      "learning_rate": 0.001,
      "loss": 0.1776,
      "step": 13670
    },
    {
      "epoch": 13.935779816513762,
      "grad_norm": 0.06734143197536469,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 13671
    },
    {
      "epoch": 13.936799184505606,
      "grad_norm": 0.13662494719028473,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 13672
    },
    {
      "epoch": 13.937818552497452,
      "grad_norm": 0.04155779629945755,
      "learning_rate": 0.001,
      "loss": 0.1704,
      "step": 13673
    },
    {
      "epoch": 13.938837920489297,
      "grad_norm": 0.1023276075720787,
      "learning_rate": 0.001,
      "loss": 0.1707,
      "step": 13674
    },
    {
      "epoch": 13.939857288481141,
      "grad_norm": 0.06045079603791237,
      "learning_rate": 0.001,
      "loss": 0.1843,
      "step": 13675
    },
    {
      "epoch": 13.940876656472987,
      "grad_norm": 0.050894517451524734,
      "learning_rate": 0.001,
      "loss": 0.1844,
      "step": 13676
    },
    {
      "epoch": 13.941896024464832,
      "grad_norm": 0.14445418119430542,
      "learning_rate": 0.001,
      "loss": 0.1759,
      "step": 13677
    },
    {
      "epoch": 13.942915392456676,
      "grad_norm": 0.11018043756484985,
      "learning_rate": 0.001,
      "loss": 0.1921,
      "step": 13678
    },
    {
      "epoch": 13.943934760448522,
      "grad_norm": 0.07897733896970749,
      "learning_rate": 0.001,
      "loss": 0.1652,
      "step": 13679
    },
    {
      "epoch": 13.944954128440367,
      "grad_norm": 0.052122656255960464,
      "learning_rate": 0.001,
      "loss": 0.1882,
      "step": 13680
    },
    {
      "epoch": 13.945973496432211,
      "grad_norm": 0.12436819076538086,
      "learning_rate": 0.001,
      "loss": 0.1935,
      "step": 13681
    },
    {
      "epoch": 13.946992864424058,
      "grad_norm": 0.19879643619060516,
      "learning_rate": 0.001,
      "loss": 0.1896,
      "step": 13682
    },
    {
      "epoch": 13.948012232415902,
      "grad_norm": 0.09062371402978897,
      "learning_rate": 0.001,
      "loss": 0.1725,
      "step": 13683
    },
    {
      "epoch": 13.949031600407746,
      "grad_norm": 0.10516982525587082,
      "learning_rate": 0.001,
      "loss": 0.1714,
      "step": 13684
    },
    {
      "epoch": 13.950050968399593,
      "grad_norm": 0.10888094455003738,
      "learning_rate": 0.001,
      "loss": 0.1583,
      "step": 13685
    },
    {
      "epoch": 13.951070336391437,
      "grad_norm": 0.04656166583299637,
      "learning_rate": 0.001,
      "loss": 0.171,
      "step": 13686
    },
    {
      "epoch": 13.952089704383283,
      "grad_norm": 0.10957007110118866,
      "learning_rate": 0.001,
      "loss": 0.1857,
      "step": 13687
    },
    {
      "epoch": 13.953109072375128,
      "grad_norm": 0.07018613070249557,
      "learning_rate": 0.001,
      "loss": 0.1761,
      "step": 13688
    },
    {
      "epoch": 13.954128440366972,
      "grad_norm": 0.14141444861888885,
      "learning_rate": 0.001,
      "loss": 0.1938,
      "step": 13689
    },
    {
      "epoch": 13.955147808358818,
      "grad_norm": 0.029611103236675262,
      "learning_rate": 0.001,
      "loss": 0.1681,
      "step": 13690
    },
    {
      "epoch": 13.956167176350663,
      "grad_norm": 0.07583092153072357,
      "learning_rate": 0.001,
      "loss": 0.1777,
      "step": 13691
    },
    {
      "epoch": 13.957186544342507,
      "grad_norm": 0.07028496265411377,
      "learning_rate": 0.001,
      "loss": 0.182,
      "step": 13692
    },
    {
      "epoch": 13.958205912334353,
      "grad_norm": 0.1476503312587738,
      "learning_rate": 0.001,
      "loss": 0.1754,
      "step": 13693
    },
    {
      "epoch": 13.959225280326198,
      "grad_norm": 0.10119328647851944,
      "learning_rate": 0.001,
      "loss": 0.1929,
      "step": 13694
    },
    {
      "epoch": 13.960244648318042,
      "grad_norm": 0.08595531433820724,
      "learning_rate": 0.001,
      "loss": 0.1848,
      "step": 13695
    },
    {
      "epoch": 13.961264016309888,
      "grad_norm": 0.09194919466972351,
      "learning_rate": 0.001,
      "loss": 0.1663,
      "step": 13696
    },
    {
      "epoch": 13.962283384301733,
      "grad_norm": 0.06752263009548187,
      "learning_rate": 0.001,
      "loss": 0.1693,
      "step": 13697
    },
    {
      "epoch": 13.963302752293577,
      "grad_norm": 0.09972892701625824,
      "learning_rate": 0.001,
      "loss": 0.1827,
      "step": 13698
    },
    {
      "epoch": 13.964322120285424,
      "grad_norm": 0.08662000298500061,
      "learning_rate": 0.001,
      "loss": 0.1775,
      "step": 13699
    },
    {
      "epoch": 13.965341488277268,
      "grad_norm": 0.10421831905841827,
      "learning_rate": 0.001,
      "loss": 0.2014,
      "step": 13700
    },
    {
      "epoch": 13.966360856269112,
      "grad_norm": 0.09325562417507172,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 13701
    },
    {
      "epoch": 13.967380224260959,
      "grad_norm": 0.10267764329910278,
      "learning_rate": 0.001,
      "loss": 0.1803,
      "step": 13702
    },
    {
      "epoch": 13.968399592252803,
      "grad_norm": 0.07797172665596008,
      "learning_rate": 0.001,
      "loss": 0.1619,
      "step": 13703
    },
    {
      "epoch": 13.96941896024465,
      "grad_norm": 0.20637501776218414,
      "learning_rate": 0.001,
      "loss": 0.1819,
      "step": 13704
    },
    {
      "epoch": 13.970438328236494,
      "grad_norm": 0.08340989053249359,
      "learning_rate": 0.001,
      "loss": 0.178,
      "step": 13705
    },
    {
      "epoch": 13.971457696228338,
      "grad_norm": 0.09467492997646332,
      "learning_rate": 0.001,
      "loss": 0.1757,
      "step": 13706
    },
    {
      "epoch": 13.972477064220184,
      "grad_norm": 0.08035888522863388,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13707
    },
    {
      "epoch": 13.973496432212029,
      "grad_norm": 0.0641053318977356,
      "learning_rate": 0.001,
      "loss": 0.1748,
      "step": 13708
    },
    {
      "epoch": 13.974515800203873,
      "grad_norm": 0.06918718665838242,
      "learning_rate": 0.001,
      "loss": 0.1731,
      "step": 13709
    },
    {
      "epoch": 13.97553516819572,
      "grad_norm": 0.09393912553787231,
      "learning_rate": 0.001,
      "loss": 0.1995,
      "step": 13710
    },
    {
      "epoch": 13.976554536187564,
      "grad_norm": 0.12221253663301468,
      "learning_rate": 0.001,
      "loss": 0.1859,
      "step": 13711
    },
    {
      "epoch": 13.977573904179408,
      "grad_norm": 0.08013217151165009,
      "learning_rate": 0.001,
      "loss": 0.1902,
      "step": 13712
    },
    {
      "epoch": 13.978593272171254,
      "grad_norm": 0.10823037475347519,
      "learning_rate": 0.001,
      "loss": 0.1924,
      "step": 13713
    },
    {
      "epoch": 13.979612640163099,
      "grad_norm": 0.07328218966722488,
      "learning_rate": 0.001,
      "loss": 0.175,
      "step": 13714
    },
    {
      "epoch": 13.980632008154943,
      "grad_norm": 0.12765829265117645,
      "learning_rate": 0.001,
      "loss": 0.1925,
      "step": 13715
    },
    {
      "epoch": 13.98165137614679,
      "grad_norm": 0.0839533880352974,
      "learning_rate": 0.001,
      "loss": 0.173,
      "step": 13716
    },
    {
      "epoch": 13.982670744138634,
      "grad_norm": 0.08069943636655807,
      "learning_rate": 0.001,
      "loss": 0.1814,
      "step": 13717
    },
    {
      "epoch": 13.983690112130478,
      "grad_norm": 0.06474824994802475,
      "learning_rate": 0.001,
      "loss": 0.1801,
      "step": 13718
    },
    {
      "epoch": 13.984709480122325,
      "grad_norm": 0.10425273329019547,
      "learning_rate": 0.001,
      "loss": 0.1862,
      "step": 13719
    },
    {
      "epoch": 13.985728848114169,
      "grad_norm": 0.05081687122583389,
      "learning_rate": 0.001,
      "loss": 0.1764,
      "step": 13720
    },
    {
      "epoch": 13.986748216106013,
      "grad_norm": 0.10970292240381241,
      "learning_rate": 0.001,
      "loss": 0.1791,
      "step": 13721
    },
    {
      "epoch": 13.98776758409786,
      "grad_norm": 0.08350297063589096,
      "learning_rate": 0.001,
      "loss": 0.1949,
      "step": 13722
    },
    {
      "epoch": 13.988786952089704,
      "grad_norm": 0.11101261526346207,
      "learning_rate": 0.001,
      "loss": 0.1849,
      "step": 13723
    },
    {
      "epoch": 13.989806320081549,
      "grad_norm": 0.05756242945790291,
      "learning_rate": 0.001,
      "loss": 0.1742,
      "step": 13724
    },
    {
      "epoch": 13.990825688073395,
      "grad_norm": 0.11936969310045242,
      "learning_rate": 0.001,
      "loss": 0.1973,
      "step": 13725
    },
    {
      "epoch": 13.99184505606524,
      "grad_norm": 0.09029408544301987,
      "learning_rate": 0.001,
      "loss": 0.1824,
      "step": 13726
    },
    {
      "epoch": 13.992864424057085,
      "grad_norm": 0.09616007655858994,
      "learning_rate": 0.001,
      "loss": 0.1808,
      "step": 13727
    },
    {
      "epoch": 13.99388379204893,
      "grad_norm": 0.08101514726877213,
      "learning_rate": 0.001,
      "loss": 0.1956,
      "step": 13728
    },
    {
      "epoch": 13.994903160040774,
      "grad_norm": 0.13528916239738464,
      "learning_rate": 0.001,
      "loss": 0.1744,
      "step": 13729
    },
    {
      "epoch": 13.99592252803262,
      "grad_norm": 0.0908004641532898,
      "learning_rate": 0.001,
      "loss": 0.1788,
      "step": 13730
    },
    {
      "epoch": 13.996941896024465,
      "grad_norm": 0.06422871351242065,
      "learning_rate": 0.001,
      "loss": 0.1869,
      "step": 13731
    },
    {
      "epoch": 13.99796126401631,
      "grad_norm": 0.0830933228135109,
      "learning_rate": 0.001,
      "loss": 0.1696,
      "step": 13732
    },
    {
      "epoch": 13.998980632008156,
      "grad_norm": 0.11325728893280029,
      "learning_rate": 0.001,
      "loss": 0.1897,
      "step": 13733
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.08120033890008926,
      "learning_rate": 0.001,
      "loss": 0.1854,
      "step": 13734
    },
    {
      "epoch": 14.0,
      "eval_-_f1-score": 0.29411764705882354,
      "eval_-_precision": 0.4166666666666667,
      "eval_-_recall": 0.22727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9655100983946142,
      "eval_<_precision": 0.9730688935281837,
      "eval_<_recall": 0.9580678314491264,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8205128205128205,
      "eval_=_precision": 0.803088803088803,
      "eval_=_recall": 0.8387096774193549,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9657282741738066,
      "eval_>_precision": 0.9584936221907269,
      "eval_>_recall": 0.9730729701952724,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9608,
      "eval_loss": 0.10573984682559967,
      "eval_macro_avg_f1-score": 0.7614672100350162,
      "eval_macro_avg_precision": 0.7878294963685951,
      "eval_macro_avg_recall": 0.7492808015841202,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9476,
      "eval_samples_per_second": 772.347,
      "eval_steps_per_second": 3.089,
      "eval_weighted_avg_f1-score": 0.9605432450267839,
      "eval_weighted_avg_precision": 0.9605384328805189,
      "eval_weighted_avg_recall": 0.9608,
      "eval_weighted_avg_support": 10000.0,
      "step": 13734
    },
    {
      "epoch": 14.001019367991844,
      "grad_norm": 0.033853188157081604,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 13735
    },
    {
      "epoch": 14.00203873598369,
      "grad_norm": 0.11068993806838989,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 13736
    },
    {
      "epoch": 14.003058103975535,
      "grad_norm": 0.04554015025496483,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 13737
    },
    {
      "epoch": 14.00407747196738,
      "grad_norm": 0.10377804934978485,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 13738
    },
    {
      "epoch": 14.005096839959226,
      "grad_norm": 0.19813495874404907,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 13739
    },
    {
      "epoch": 14.00611620795107,
      "grad_norm": 0.029753556475043297,
      "learning_rate": 0.0005,
      "loss": 0.187,
      "step": 13740
    },
    {
      "epoch": 14.007135575942915,
      "grad_norm": 0.06074533611536026,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 13741
    },
    {
      "epoch": 14.00815494393476,
      "grad_norm": 0.05870538577437401,
      "learning_rate": 0.0005,
      "loss": 0.1895,
      "step": 13742
    },
    {
      "epoch": 14.009174311926605,
      "grad_norm": 0.1134781762957573,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 13743
    },
    {
      "epoch": 14.010193679918451,
      "grad_norm": 0.09924095869064331,
      "learning_rate": 0.0005,
      "loss": 0.1881,
      "step": 13744
    },
    {
      "epoch": 14.011213047910296,
      "grad_norm": 0.10987774282693863,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 13745
    },
    {
      "epoch": 14.01223241590214,
      "grad_norm": 0.04962547495961189,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 13746
    },
    {
      "epoch": 14.013251783893987,
      "grad_norm": 0.061015330255031586,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 13747
    },
    {
      "epoch": 14.014271151885831,
      "grad_norm": 0.053891632705926895,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 13748
    },
    {
      "epoch": 14.015290519877675,
      "grad_norm": 0.053252167999744415,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 13749
    },
    {
      "epoch": 14.016309887869522,
      "grad_norm": 0.061941325664520264,
      "learning_rate": 0.0005,
      "loss": 0.198,
      "step": 13750
    },
    {
      "epoch": 14.017329255861366,
      "grad_norm": 0.08680655807256699,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 13751
    },
    {
      "epoch": 14.01834862385321,
      "grad_norm": 0.028254924342036247,
      "learning_rate": 0.0005,
      "loss": 0.1552,
      "step": 13752
    },
    {
      "epoch": 14.019367991845057,
      "grad_norm": 0.09780745953321457,
      "learning_rate": 0.0005,
      "loss": 0.1978,
      "step": 13753
    },
    {
      "epoch": 14.020387359836901,
      "grad_norm": 0.05377962440252304,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 13754
    },
    {
      "epoch": 14.021406727828746,
      "grad_norm": 0.04492299631237984,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 13755
    },
    {
      "epoch": 14.022426095820592,
      "grad_norm": 0.10136670619249344,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 13756
    },
    {
      "epoch": 14.023445463812436,
      "grad_norm": 0.1408490389585495,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 13757
    },
    {
      "epoch": 14.02446483180428,
      "grad_norm": 0.06633391231298447,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 13758
    },
    {
      "epoch": 14.025484199796127,
      "grad_norm": 0.01947787031531334,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 13759
    },
    {
      "epoch": 14.026503567787971,
      "grad_norm": 0.03562727943062782,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 13760
    },
    {
      "epoch": 14.027522935779816,
      "grad_norm": 0.046511922031641006,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 13761
    },
    {
      "epoch": 14.028542303771662,
      "grad_norm": 0.07431154698133469,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 13762
    },
    {
      "epoch": 14.029561671763506,
      "grad_norm": 0.08050458133220673,
      "learning_rate": 0.0005,
      "loss": 0.1892,
      "step": 13763
    },
    {
      "epoch": 14.030581039755353,
      "grad_norm": 0.07867975533008575,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 13764
    },
    {
      "epoch": 14.031600407747197,
      "grad_norm": 0.11543599516153336,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 13765
    },
    {
      "epoch": 14.032619775739041,
      "grad_norm": 0.028608500957489014,
      "learning_rate": 0.0005,
      "loss": 0.1578,
      "step": 13766
    },
    {
      "epoch": 14.033639143730888,
      "grad_norm": 0.08077111095190048,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 13767
    },
    {
      "epoch": 14.034658511722732,
      "grad_norm": 0.07236527651548386,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 13768
    },
    {
      "epoch": 14.035677879714576,
      "grad_norm": 0.07012927532196045,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 13769
    },
    {
      "epoch": 14.036697247706423,
      "grad_norm": 0.0922207310795784,
      "learning_rate": 0.0005,
      "loss": 0.1876,
      "step": 13770
    },
    {
      "epoch": 14.037716615698267,
      "grad_norm": 0.1277630478143692,
      "learning_rate": 0.0005,
      "loss": 0.2048,
      "step": 13771
    },
    {
      "epoch": 14.038735983690112,
      "grad_norm": 0.0648135170340538,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 13772
    },
    {
      "epoch": 14.039755351681958,
      "grad_norm": 0.02845033071935177,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 13773
    },
    {
      "epoch": 14.040774719673802,
      "grad_norm": 0.04838608577847481,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 13774
    },
    {
      "epoch": 14.041794087665647,
      "grad_norm": 0.05656415596604347,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 13775
    },
    {
      "epoch": 14.042813455657493,
      "grad_norm": 0.06543012708425522,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 13776
    },
    {
      "epoch": 14.043832823649337,
      "grad_norm": 0.028737952932715416,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 13777
    },
    {
      "epoch": 14.044852191641182,
      "grad_norm": 0.13277143239974976,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 13778
    },
    {
      "epoch": 14.045871559633028,
      "grad_norm": 0.047385018318891525,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 13779
    },
    {
      "epoch": 14.046890927624872,
      "grad_norm": 0.10259649902582169,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 13780
    },
    {
      "epoch": 14.047910295616717,
      "grad_norm": 0.04611039534211159,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 13781
    },
    {
      "epoch": 14.048929663608563,
      "grad_norm": 0.041420936584472656,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 13782
    },
    {
      "epoch": 14.049949031600407,
      "grad_norm": 0.10503563284873962,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 13783
    },
    {
      "epoch": 14.050968399592254,
      "grad_norm": 0.05978912115097046,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 13784
    },
    {
      "epoch": 14.051987767584098,
      "grad_norm": 0.07610953599214554,
      "learning_rate": 0.0005,
      "loss": 0.1854,
      "step": 13785
    },
    {
      "epoch": 14.053007135575942,
      "grad_norm": 0.041478127241134644,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 13786
    },
    {
      "epoch": 14.054026503567789,
      "grad_norm": 0.09997407346963882,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 13787
    },
    {
      "epoch": 14.055045871559633,
      "grad_norm": 0.03537537530064583,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 13788
    },
    {
      "epoch": 14.056065239551478,
      "grad_norm": 0.07770439237356186,
      "learning_rate": 0.0005,
      "loss": 0.1882,
      "step": 13789
    },
    {
      "epoch": 14.057084607543324,
      "grad_norm": 0.06577011942863464,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 13790
    },
    {
      "epoch": 14.058103975535168,
      "grad_norm": 0.09726532548666,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 13791
    },
    {
      "epoch": 14.059123343527013,
      "grad_norm": 0.05149263143539429,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 13792
    },
    {
      "epoch": 14.060142711518859,
      "grad_norm": 0.031593818217515945,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 13793
    },
    {
      "epoch": 14.061162079510703,
      "grad_norm": 0.08306851238012314,
      "learning_rate": 0.0005,
      "loss": 0.1652,
      "step": 13794
    },
    {
      "epoch": 14.062181447502548,
      "grad_norm": 0.07303614914417267,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 13795
    },
    {
      "epoch": 14.063200815494394,
      "grad_norm": 0.07632153481245041,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 13796
    },
    {
      "epoch": 14.064220183486238,
      "grad_norm": 0.077260322868824,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 13797
    },
    {
      "epoch": 14.065239551478083,
      "grad_norm": 0.0771246999502182,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 13798
    },
    {
      "epoch": 14.066258919469929,
      "grad_norm": 0.05845888331532478,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 13799
    },
    {
      "epoch": 14.067278287461773,
      "grad_norm": 0.10455747693777084,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 13800
    },
    {
      "epoch": 14.068297655453618,
      "grad_norm": 0.0322902575135231,
      "learning_rate": 0.0005,
      "loss": 0.1467,
      "step": 13801
    },
    {
      "epoch": 14.069317023445464,
      "grad_norm": 0.2509032189846039,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 13802
    },
    {
      "epoch": 14.070336391437309,
      "grad_norm": 0.08735300600528717,
      "learning_rate": 0.0005,
      "loss": 0.1908,
      "step": 13803
    },
    {
      "epoch": 14.071355759429155,
      "grad_norm": 0.04095883667469025,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 13804
    },
    {
      "epoch": 14.072375127421,
      "grad_norm": 0.09344973415136337,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 13805
    },
    {
      "epoch": 14.073394495412844,
      "grad_norm": 0.06398075073957443,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 13806
    },
    {
      "epoch": 14.07441386340469,
      "grad_norm": 0.08191140741109848,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 13807
    },
    {
      "epoch": 14.075433231396534,
      "grad_norm": 0.10673483461141586,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 13808
    },
    {
      "epoch": 14.076452599388379,
      "grad_norm": 0.07055996358394623,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 13809
    },
    {
      "epoch": 14.077471967380225,
      "grad_norm": 0.10485762357711792,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 13810
    },
    {
      "epoch": 14.07849133537207,
      "grad_norm": 0.05121568962931633,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 13811
    },
    {
      "epoch": 14.079510703363914,
      "grad_norm": 0.09112505614757538,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 13812
    },
    {
      "epoch": 14.08053007135576,
      "grad_norm": 0.038819313049316406,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 13813
    },
    {
      "epoch": 14.081549439347604,
      "grad_norm": 0.047864023596048355,
      "learning_rate": 0.0005,
      "loss": 0.1578,
      "step": 13814
    },
    {
      "epoch": 14.082568807339449,
      "grad_norm": 0.030137140303850174,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 13815
    },
    {
      "epoch": 14.083588175331295,
      "grad_norm": 0.057974960654973984,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 13816
    },
    {
      "epoch": 14.08460754332314,
      "grad_norm": 0.11185508221387863,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 13817
    },
    {
      "epoch": 14.085626911314984,
      "grad_norm": 0.04040385037660599,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 13818
    },
    {
      "epoch": 14.08664627930683,
      "grad_norm": 0.11832775920629501,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 13819
    },
    {
      "epoch": 14.087665647298675,
      "grad_norm": 0.06912103295326233,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 13820
    },
    {
      "epoch": 14.08868501529052,
      "grad_norm": 0.058808453381061554,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 13821
    },
    {
      "epoch": 14.089704383282365,
      "grad_norm": 0.2052631378173828,
      "learning_rate": 0.0005,
      "loss": 0.1929,
      "step": 13822
    },
    {
      "epoch": 14.09072375127421,
      "grad_norm": 0.20021237432956696,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 13823
    },
    {
      "epoch": 14.091743119266056,
      "grad_norm": 0.06605812907218933,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 13824
    },
    {
      "epoch": 14.0927624872579,
      "grad_norm": 0.1261439174413681,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 13825
    },
    {
      "epoch": 14.093781855249745,
      "grad_norm": 0.05892510339617729,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 13826
    },
    {
      "epoch": 14.094801223241591,
      "grad_norm": 0.0725134089589119,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 13827
    },
    {
      "epoch": 14.095820591233435,
      "grad_norm": 0.07134682685136795,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 13828
    },
    {
      "epoch": 14.09683995922528,
      "grad_norm": 0.10773032158613205,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 13829
    },
    {
      "epoch": 14.097859327217126,
      "grad_norm": 0.1685415357351303,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 13830
    },
    {
      "epoch": 14.09887869520897,
      "grad_norm": 0.0997345894575119,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 13831
    },
    {
      "epoch": 14.099898063200815,
      "grad_norm": 0.08060193061828613,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 13832
    },
    {
      "epoch": 14.100917431192661,
      "grad_norm": 0.06143682077527046,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 13833
    },
    {
      "epoch": 14.101936799184505,
      "grad_norm": 0.06076774746179581,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 13834
    },
    {
      "epoch": 14.10295616717635,
      "grad_norm": 0.04744214937090874,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 13835
    },
    {
      "epoch": 14.103975535168196,
      "grad_norm": 0.07029864192008972,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 13836
    },
    {
      "epoch": 14.10499490316004,
      "grad_norm": 0.034305647015571594,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 13837
    },
    {
      "epoch": 14.106014271151885,
      "grad_norm": 0.1127973273396492,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 13838
    },
    {
      "epoch": 14.107033639143731,
      "grad_norm": 0.11834502965211868,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 13839
    },
    {
      "epoch": 14.108053007135576,
      "grad_norm": 0.05625366419553757,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 13840
    },
    {
      "epoch": 14.109072375127422,
      "grad_norm": 0.08695341646671295,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 13841
    },
    {
      "epoch": 14.110091743119266,
      "grad_norm": 0.3625844717025757,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 13842
    },
    {
      "epoch": 14.11111111111111,
      "grad_norm": 0.039530083537101746,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 13843
    },
    {
      "epoch": 14.112130479102957,
      "grad_norm": 0.09218665957450867,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 13844
    },
    {
      "epoch": 14.113149847094801,
      "grad_norm": 0.03825479373335838,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 13845
    },
    {
      "epoch": 14.114169215086646,
      "grad_norm": 0.06789305806159973,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 13846
    },
    {
      "epoch": 14.115188583078492,
      "grad_norm": 0.03698192536830902,
      "learning_rate": 0.0005,
      "loss": 0.1562,
      "step": 13847
    },
    {
      "epoch": 14.116207951070336,
      "grad_norm": 0.05687926709651947,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 13848
    },
    {
      "epoch": 14.11722731906218,
      "grad_norm": 0.035768136382102966,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 13849
    },
    {
      "epoch": 14.118246687054027,
      "grad_norm": 0.1243617907166481,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 13850
    },
    {
      "epoch": 14.119266055045872,
      "grad_norm": 0.0732666626572609,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 13851
    },
    {
      "epoch": 14.120285423037716,
      "grad_norm": 0.07151572406291962,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 13852
    },
    {
      "epoch": 14.121304791029562,
      "grad_norm": 0.05716169625520706,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 13853
    },
    {
      "epoch": 14.122324159021407,
      "grad_norm": 0.10409468412399292,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 13854
    },
    {
      "epoch": 14.123343527013251,
      "grad_norm": 0.05622395873069763,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 13855
    },
    {
      "epoch": 14.124362895005097,
      "grad_norm": 0.07986076176166534,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 13856
    },
    {
      "epoch": 14.125382262996942,
      "grad_norm": 0.04140755161643028,
      "learning_rate": 0.0005,
      "loss": 0.1514,
      "step": 13857
    },
    {
      "epoch": 14.126401630988786,
      "grad_norm": 0.15705984830856323,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 13858
    },
    {
      "epoch": 14.127420998980632,
      "grad_norm": 0.06164338067173958,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 13859
    },
    {
      "epoch": 14.128440366972477,
      "grad_norm": 0.08789225667715073,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 13860
    },
    {
      "epoch": 14.129459734964323,
      "grad_norm": 0.06549344956874847,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 13861
    },
    {
      "epoch": 14.130479102956167,
      "grad_norm": 0.029227714985609055,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 13862
    },
    {
      "epoch": 14.131498470948012,
      "grad_norm": 0.05083794891834259,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 13863
    },
    {
      "epoch": 14.132517838939858,
      "grad_norm": 0.028650842607021332,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 13864
    },
    {
      "epoch": 14.133537206931702,
      "grad_norm": 0.06538347899913788,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 13865
    },
    {
      "epoch": 14.134556574923547,
      "grad_norm": 0.07643383741378784,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 13866
    },
    {
      "epoch": 14.135575942915393,
      "grad_norm": 0.03362448886036873,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 13867
    },
    {
      "epoch": 14.136595310907238,
      "grad_norm": 0.06054438278079033,
      "learning_rate": 0.0005,
      "loss": 0.1895,
      "step": 13868
    },
    {
      "epoch": 14.137614678899082,
      "grad_norm": 0.09173664450645447,
      "learning_rate": 0.0005,
      "loss": 0.1842,
      "step": 13869
    },
    {
      "epoch": 14.138634046890928,
      "grad_norm": 0.07723203301429749,
      "learning_rate": 0.0005,
      "loss": 0.189,
      "step": 13870
    },
    {
      "epoch": 14.139653414882773,
      "grad_norm": 0.0751362293958664,
      "learning_rate": 0.0005,
      "loss": 0.1851,
      "step": 13871
    },
    {
      "epoch": 14.140672782874617,
      "grad_norm": 0.07292132079601288,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 13872
    },
    {
      "epoch": 14.141692150866463,
      "grad_norm": 0.05239754542708397,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 13873
    },
    {
      "epoch": 14.142711518858308,
      "grad_norm": 0.03296304866671562,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 13874
    },
    {
      "epoch": 14.143730886850152,
      "grad_norm": 0.04078901186585426,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 13875
    },
    {
      "epoch": 14.144750254841998,
      "grad_norm": 0.05793794244527817,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 13876
    },
    {
      "epoch": 14.145769622833843,
      "grad_norm": 0.03408551216125488,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 13877
    },
    {
      "epoch": 14.146788990825687,
      "grad_norm": 0.07717954367399216,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 13878
    },
    {
      "epoch": 14.147808358817533,
      "grad_norm": 0.06712604314088821,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 13879
    },
    {
      "epoch": 14.148827726809378,
      "grad_norm": 0.07166571915149689,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 13880
    },
    {
      "epoch": 14.149847094801224,
      "grad_norm": 0.06912987679243088,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 13881
    },
    {
      "epoch": 14.150866462793068,
      "grad_norm": 0.06787177920341492,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 13882
    },
    {
      "epoch": 14.151885830784913,
      "grad_norm": 0.13362795114517212,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 13883
    },
    {
      "epoch": 14.15290519877676,
      "grad_norm": 0.059567660093307495,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 13884
    },
    {
      "epoch": 14.153924566768604,
      "grad_norm": 0.030663488432765007,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 13885
    },
    {
      "epoch": 14.154943934760448,
      "grad_norm": 0.060586318373680115,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 13886
    },
    {
      "epoch": 14.155963302752294,
      "grad_norm": 0.06693067401647568,
      "learning_rate": 0.0005,
      "loss": 0.189,
      "step": 13887
    },
    {
      "epoch": 14.156982670744139,
      "grad_norm": 0.10915868729352951,
      "learning_rate": 0.0005,
      "loss": 0.1801,
      "step": 13888
    },
    {
      "epoch": 14.158002038735983,
      "grad_norm": 0.14733783900737762,
      "learning_rate": 0.0005,
      "loss": 0.1918,
      "step": 13889
    },
    {
      "epoch": 14.15902140672783,
      "grad_norm": 0.024374939501285553,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 13890
    },
    {
      "epoch": 14.160040774719674,
      "grad_norm": 0.0624665692448616,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 13891
    },
    {
      "epoch": 14.161060142711518,
      "grad_norm": 0.082370825111866,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 13892
    },
    {
      "epoch": 14.162079510703364,
      "grad_norm": 0.05834755301475525,
      "learning_rate": 0.0005,
      "loss": 0.1919,
      "step": 13893
    },
    {
      "epoch": 14.163098878695209,
      "grad_norm": 0.1029166728258133,
      "learning_rate": 0.0005,
      "loss": 0.1909,
      "step": 13894
    },
    {
      "epoch": 14.164118246687053,
      "grad_norm": 0.08622834831476212,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 13895
    },
    {
      "epoch": 14.1651376146789,
      "grad_norm": 0.03936439007520676,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 13896
    },
    {
      "epoch": 14.166156982670744,
      "grad_norm": 0.11348380893468857,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 13897
    },
    {
      "epoch": 14.16717635066259,
      "grad_norm": 0.20890603959560394,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 13898
    },
    {
      "epoch": 14.168195718654435,
      "grad_norm": 0.0966779887676239,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 13899
    },
    {
      "epoch": 14.169215086646279,
      "grad_norm": 0.018799826502799988,
      "learning_rate": 0.0005,
      "loss": 0.1542,
      "step": 13900
    },
    {
      "epoch": 14.170234454638125,
      "grad_norm": 0.05602002143859863,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 13901
    },
    {
      "epoch": 14.17125382262997,
      "grad_norm": 0.0736110582947731,
      "learning_rate": 0.0005,
      "loss": 0.1816,
      "step": 13902
    },
    {
      "epoch": 14.172273190621814,
      "grad_norm": 0.09144368767738342,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 13903
    },
    {
      "epoch": 14.17329255861366,
      "grad_norm": 0.025106975808739662,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 13904
    },
    {
      "epoch": 14.174311926605505,
      "grad_norm": 0.16373154520988464,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 13905
    },
    {
      "epoch": 14.175331294597349,
      "grad_norm": 0.0358768031001091,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 13906
    },
    {
      "epoch": 14.176350662589195,
      "grad_norm": 0.05205945670604706,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 13907
    },
    {
      "epoch": 14.17737003058104,
      "grad_norm": 0.05508072301745415,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 13908
    },
    {
      "epoch": 14.178389398572884,
      "grad_norm": 0.07816809415817261,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 13909
    },
    {
      "epoch": 14.17940876656473,
      "grad_norm": 0.03828830271959305,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 13910
    },
    {
      "epoch": 14.180428134556575,
      "grad_norm": 0.1493966281414032,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 13911
    },
    {
      "epoch": 14.18144750254842,
      "grad_norm": 0.042334746569395065,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 13912
    },
    {
      "epoch": 14.182466870540265,
      "grad_norm": 0.04429600015282631,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 13913
    },
    {
      "epoch": 14.18348623853211,
      "grad_norm": 0.04542216658592224,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 13914
    },
    {
      "epoch": 14.184505606523954,
      "grad_norm": 0.05726952105760574,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 13915
    },
    {
      "epoch": 14.1855249745158,
      "grad_norm": 0.03305284306406975,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 13916
    },
    {
      "epoch": 14.186544342507645,
      "grad_norm": 0.09914787858724594,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 13917
    },
    {
      "epoch": 14.187563710499491,
      "grad_norm": 0.08051552623510361,
      "learning_rate": 0.0005,
      "loss": 0.1857,
      "step": 13918
    },
    {
      "epoch": 14.188583078491336,
      "grad_norm": 0.04997703433036804,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 13919
    },
    {
      "epoch": 14.18960244648318,
      "grad_norm": 0.04733901470899582,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 13920
    },
    {
      "epoch": 14.190621814475026,
      "grad_norm": 0.05009879544377327,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 13921
    },
    {
      "epoch": 14.19164118246687,
      "grad_norm": 0.051019132137298584,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 13922
    },
    {
      "epoch": 14.192660550458715,
      "grad_norm": 0.08059979975223541,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 13923
    },
    {
      "epoch": 14.193679918450561,
      "grad_norm": 0.0601014569401741,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 13924
    },
    {
      "epoch": 14.194699286442406,
      "grad_norm": 0.10547572374343872,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 13925
    },
    {
      "epoch": 14.19571865443425,
      "grad_norm": 0.05712861940264702,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 13926
    },
    {
      "epoch": 14.196738022426096,
      "grad_norm": 0.06326200813055038,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 13927
    },
    {
      "epoch": 14.19775739041794,
      "grad_norm": 0.03912100940942764,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 13928
    },
    {
      "epoch": 14.198776758409785,
      "grad_norm": 0.05184544622898102,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 13929
    },
    {
      "epoch": 14.199796126401631,
      "grad_norm": 0.08404803276062012,
      "learning_rate": 0.0005,
      "loss": 0.1814,
      "step": 13930
    },
    {
      "epoch": 14.200815494393476,
      "grad_norm": 0.026302197948098183,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 13931
    },
    {
      "epoch": 14.20183486238532,
      "grad_norm": 0.08229168504476547,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 13932
    },
    {
      "epoch": 14.202854230377167,
      "grad_norm": 0.03375985100865364,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 13933
    },
    {
      "epoch": 14.203873598369011,
      "grad_norm": 0.026769086718559265,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 13934
    },
    {
      "epoch": 14.204892966360855,
      "grad_norm": 0.06427975744009018,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 13935
    },
    {
      "epoch": 14.205912334352702,
      "grad_norm": 0.05770966038107872,
      "learning_rate": 0.0005,
      "loss": 0.1863,
      "step": 13936
    },
    {
      "epoch": 14.206931702344546,
      "grad_norm": 0.052912939339876175,
      "learning_rate": 0.0005,
      "loss": 0.1552,
      "step": 13937
    },
    {
      "epoch": 14.207951070336392,
      "grad_norm": 0.06012323126196861,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 13938
    },
    {
      "epoch": 14.208970438328237,
      "grad_norm": 0.07855457812547684,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 13939
    },
    {
      "epoch": 14.209989806320081,
      "grad_norm": 0.027208231389522552,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 13940
    },
    {
      "epoch": 14.211009174311927,
      "grad_norm": 0.047065217047929764,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 13941
    },
    {
      "epoch": 14.212028542303772,
      "grad_norm": 0.14216488599777222,
      "learning_rate": 0.0005,
      "loss": 0.1936,
      "step": 13942
    },
    {
      "epoch": 14.213047910295616,
      "grad_norm": 0.0975390300154686,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 13943
    },
    {
      "epoch": 14.214067278287462,
      "grad_norm": 0.0350765660405159,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 13944
    },
    {
      "epoch": 14.215086646279307,
      "grad_norm": 0.04214497283101082,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 13945
    },
    {
      "epoch": 14.216106014271151,
      "grad_norm": 0.0558445081114769,
      "learning_rate": 0.0005,
      "loss": 0.1542,
      "step": 13946
    },
    {
      "epoch": 14.217125382262997,
      "grad_norm": 0.050226084887981415,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 13947
    },
    {
      "epoch": 14.218144750254842,
      "grad_norm": 0.04592127352952957,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 13948
    },
    {
      "epoch": 14.219164118246686,
      "grad_norm": 0.1027417778968811,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 13949
    },
    {
      "epoch": 14.220183486238533,
      "grad_norm": 0.09288813918828964,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 13950
    },
    {
      "epoch": 14.221202854230377,
      "grad_norm": 0.04920993000268936,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 13951
    },
    {
      "epoch": 14.222222222222221,
      "grad_norm": 0.06049921363592148,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 13952
    },
    {
      "epoch": 14.223241590214068,
      "grad_norm": 0.05250948294997215,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 13953
    },
    {
      "epoch": 14.224260958205912,
      "grad_norm": 0.035056307911872864,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 13954
    },
    {
      "epoch": 14.225280326197758,
      "grad_norm": 0.058807123452425,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 13955
    },
    {
      "epoch": 14.226299694189603,
      "grad_norm": 0.08028662949800491,
      "learning_rate": 0.0005,
      "loss": 0.1869,
      "step": 13956
    },
    {
      "epoch": 14.227319062181447,
      "grad_norm": 0.025922618806362152,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 13957
    },
    {
      "epoch": 14.228338430173293,
      "grad_norm": 0.04165421053767204,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 13958
    },
    {
      "epoch": 14.229357798165138,
      "grad_norm": 0.12371349334716797,
      "learning_rate": 0.0005,
      "loss": 0.1934,
      "step": 13959
    },
    {
      "epoch": 14.230377166156982,
      "grad_norm": 0.11558636277914047,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 13960
    },
    {
      "epoch": 14.231396534148828,
      "grad_norm": 0.03253061696887016,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 13961
    },
    {
      "epoch": 14.232415902140673,
      "grad_norm": 0.09053166210651398,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 13962
    },
    {
      "epoch": 14.233435270132517,
      "grad_norm": 0.12490114569664001,
      "learning_rate": 0.0005,
      "loss": 0.1964,
      "step": 13963
    },
    {
      "epoch": 14.234454638124364,
      "grad_norm": 0.04949835687875748,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 13964
    },
    {
      "epoch": 14.235474006116208,
      "grad_norm": 0.028424343094229698,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 13965
    },
    {
      "epoch": 14.236493374108052,
      "grad_norm": 0.04106999561190605,
      "learning_rate": 0.0005,
      "loss": 0.1545,
      "step": 13966
    },
    {
      "epoch": 14.237512742099899,
      "grad_norm": 0.05767408758401871,
      "learning_rate": 0.0005,
      "loss": 0.1978,
      "step": 13967
    },
    {
      "epoch": 14.238532110091743,
      "grad_norm": 0.09166207164525986,
      "learning_rate": 0.0005,
      "loss": 0.1945,
      "step": 13968
    },
    {
      "epoch": 14.239551478083587,
      "grad_norm": 0.04361458122730255,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 13969
    },
    {
      "epoch": 14.240570846075434,
      "grad_norm": 0.023960746824741364,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 13970
    },
    {
      "epoch": 14.241590214067278,
      "grad_norm": 0.021106010302901268,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 13971
    },
    {
      "epoch": 14.242609582059123,
      "grad_norm": 0.023991452530026436,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 13972
    },
    {
      "epoch": 14.243628950050969,
      "grad_norm": 0.1022786945104599,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 13973
    },
    {
      "epoch": 14.244648318042813,
      "grad_norm": 0.05162324383854866,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 13974
    },
    {
      "epoch": 14.24566768603466,
      "grad_norm": 0.02543509192764759,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 13975
    },
    {
      "epoch": 14.246687054026504,
      "grad_norm": 0.045337188988924026,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 13976
    },
    {
      "epoch": 14.247706422018348,
      "grad_norm": 0.09308912605047226,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 13977
    },
    {
      "epoch": 14.248725790010194,
      "grad_norm": 0.07171732187271118,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 13978
    },
    {
      "epoch": 14.249745158002039,
      "grad_norm": 0.08262640237808228,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 13979
    },
    {
      "epoch": 14.250764525993883,
      "grad_norm": 0.06758628785610199,
      "learning_rate": 0.0005,
      "loss": 0.1886,
      "step": 13980
    },
    {
      "epoch": 14.25178389398573,
      "grad_norm": 0.03754792362451553,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 13981
    },
    {
      "epoch": 14.252803261977574,
      "grad_norm": 0.0573527067899704,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 13982
    },
    {
      "epoch": 14.253822629969418,
      "grad_norm": 0.09841109812259674,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 13983
    },
    {
      "epoch": 14.254841997961265,
      "grad_norm": 0.07527028769254684,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 13984
    },
    {
      "epoch": 14.255861365953109,
      "grad_norm": 0.12093276530504227,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 13985
    },
    {
      "epoch": 14.256880733944953,
      "grad_norm": 0.04263874515891075,
      "learning_rate": 0.0005,
      "loss": 0.156,
      "step": 13986
    },
    {
      "epoch": 14.2579001019368,
      "grad_norm": 0.0356917604804039,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 13987
    },
    {
      "epoch": 14.258919469928644,
      "grad_norm": 0.03445536643266678,
      "learning_rate": 0.0005,
      "loss": 0.1495,
      "step": 13988
    },
    {
      "epoch": 14.259938837920489,
      "grad_norm": 0.06911732256412506,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 13989
    },
    {
      "epoch": 14.260958205912335,
      "grad_norm": 0.035343464463949203,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 13990
    },
    {
      "epoch": 14.26197757390418,
      "grad_norm": 0.08388255536556244,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 13991
    },
    {
      "epoch": 14.262996941896024,
      "grad_norm": 0.12593765556812286,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 13992
    },
    {
      "epoch": 14.26401630988787,
      "grad_norm": 0.0490339957177639,
      "learning_rate": 0.0005,
      "loss": 0.1652,
      "step": 13993
    },
    {
      "epoch": 14.265035677879714,
      "grad_norm": 0.03533037751913071,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 13994
    },
    {
      "epoch": 14.26605504587156,
      "grad_norm": 0.07831712812185287,
      "learning_rate": 0.0005,
      "loss": 0.1508,
      "step": 13995
    },
    {
      "epoch": 14.267074413863405,
      "grad_norm": 0.03691202774643898,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 13996
    },
    {
      "epoch": 14.26809378185525,
      "grad_norm": 0.03466925397515297,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 13997
    },
    {
      "epoch": 14.269113149847096,
      "grad_norm": 0.031640369445085526,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 13998
    },
    {
      "epoch": 14.27013251783894,
      "grad_norm": 0.015120625495910645,
      "learning_rate": 0.0005,
      "loss": 0.1517,
      "step": 13999
    },
    {
      "epoch": 14.271151885830784,
      "grad_norm": 0.06078244745731354,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 14000
    },
    {
      "epoch": 14.27217125382263,
      "grad_norm": 0.04786860570311546,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 14001
    },
    {
      "epoch": 14.273190621814475,
      "grad_norm": 0.32888925075531006,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 14002
    },
    {
      "epoch": 14.27420998980632,
      "grad_norm": 0.04078130051493645,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 14003
    },
    {
      "epoch": 14.275229357798166,
      "grad_norm": 0.03511594235897064,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14004
    },
    {
      "epoch": 14.27624872579001,
      "grad_norm": 0.04599284380674362,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 14005
    },
    {
      "epoch": 14.277268093781855,
      "grad_norm": 0.052257802337408066,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14006
    },
    {
      "epoch": 14.2782874617737,
      "grad_norm": 0.024783285334706306,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14007
    },
    {
      "epoch": 14.279306829765545,
      "grad_norm": 0.01649613305926323,
      "learning_rate": 0.0005,
      "loss": 0.1605,
      "step": 14008
    },
    {
      "epoch": 14.28032619775739,
      "grad_norm": 0.06545998901128769,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 14009
    },
    {
      "epoch": 14.281345565749236,
      "grad_norm": 0.09210430830717087,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14010
    },
    {
      "epoch": 14.28236493374108,
      "grad_norm": 0.06188423931598663,
      "learning_rate": 0.0005,
      "loss": 0.1915,
      "step": 14011
    },
    {
      "epoch": 14.283384301732925,
      "grad_norm": 0.05471315234899521,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14012
    },
    {
      "epoch": 14.284403669724771,
      "grad_norm": 0.028209613636136055,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 14013
    },
    {
      "epoch": 14.285423037716615,
      "grad_norm": 0.07994470000267029,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 14014
    },
    {
      "epoch": 14.286442405708462,
      "grad_norm": 0.060926005244255066,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 14015
    },
    {
      "epoch": 14.287461773700306,
      "grad_norm": 0.0767778754234314,
      "learning_rate": 0.0005,
      "loss": 0.1859,
      "step": 14016
    },
    {
      "epoch": 14.28848114169215,
      "grad_norm": 0.07760898023843765,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14017
    },
    {
      "epoch": 14.289500509683997,
      "grad_norm": 0.07061765342950821,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 14018
    },
    {
      "epoch": 14.290519877675841,
      "grad_norm": 0.06037556380033493,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14019
    },
    {
      "epoch": 14.291539245667686,
      "grad_norm": 0.047584857791662216,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 14020
    },
    {
      "epoch": 14.292558613659532,
      "grad_norm": 0.08591902256011963,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 14021
    },
    {
      "epoch": 14.293577981651376,
      "grad_norm": 0.05259687080979347,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 14022
    },
    {
      "epoch": 14.29459734964322,
      "grad_norm": 0.04562361165881157,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14023
    },
    {
      "epoch": 14.295616717635067,
      "grad_norm": 0.0673852488398552,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 14024
    },
    {
      "epoch": 14.296636085626911,
      "grad_norm": 0.05168626829981804,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 14025
    },
    {
      "epoch": 14.297655453618756,
      "grad_norm": 0.053759071975946426,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 14026
    },
    {
      "epoch": 14.298674821610602,
      "grad_norm": 0.08405540138483047,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 14027
    },
    {
      "epoch": 14.299694189602446,
      "grad_norm": 0.03020182065665722,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 14028
    },
    {
      "epoch": 14.30071355759429,
      "grad_norm": 0.03414212167263031,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14029
    },
    {
      "epoch": 14.301732925586137,
      "grad_norm": 0.061773866415023804,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14030
    },
    {
      "epoch": 14.302752293577981,
      "grad_norm": 0.08046235144138336,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 14031
    },
    {
      "epoch": 14.303771661569826,
      "grad_norm": 0.06208627671003342,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14032
    },
    {
      "epoch": 14.304791029561672,
      "grad_norm": 0.055161524564027786,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14033
    },
    {
      "epoch": 14.305810397553516,
      "grad_norm": 0.11676736921072006,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 14034
    },
    {
      "epoch": 14.306829765545363,
      "grad_norm": 0.06716305017471313,
      "learning_rate": 0.0005,
      "loss": 0.1898,
      "step": 14035
    },
    {
      "epoch": 14.307849133537207,
      "grad_norm": 0.11338556557893753,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 14036
    },
    {
      "epoch": 14.308868501529052,
      "grad_norm": 0.036689210683107376,
      "learning_rate": 0.0005,
      "loss": 0.1567,
      "step": 14037
    },
    {
      "epoch": 14.309887869520898,
      "grad_norm": 0.05462411046028137,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 14038
    },
    {
      "epoch": 14.310907237512742,
      "grad_norm": 0.12127365171909332,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 14039
    },
    {
      "epoch": 14.311926605504587,
      "grad_norm": 0.06275362521409988,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 14040
    },
    {
      "epoch": 14.312945973496433,
      "grad_norm": 0.05678819864988327,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14041
    },
    {
      "epoch": 14.313965341488277,
      "grad_norm": 0.024023348465561867,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 14042
    },
    {
      "epoch": 14.314984709480122,
      "grad_norm": 0.08934120088815689,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 14043
    },
    {
      "epoch": 14.316004077471968,
      "grad_norm": 0.07174113392829895,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 14044
    },
    {
      "epoch": 14.317023445463812,
      "grad_norm": 0.05487446486949921,
      "learning_rate": 0.0005,
      "loss": 0.1584,
      "step": 14045
    },
    {
      "epoch": 14.318042813455657,
      "grad_norm": 0.0694272443652153,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 14046
    },
    {
      "epoch": 14.319062181447503,
      "grad_norm": 0.06668175756931305,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 14047
    },
    {
      "epoch": 14.320081549439347,
      "grad_norm": 0.03428369760513306,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14048
    },
    {
      "epoch": 14.321100917431192,
      "grad_norm": 0.05609272047877312,
      "learning_rate": 0.0005,
      "loss": 0.1886,
      "step": 14049
    },
    {
      "epoch": 14.322120285423038,
      "grad_norm": 0.04796304553747177,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14050
    },
    {
      "epoch": 14.323139653414882,
      "grad_norm": 0.07012937217950821,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14051
    },
    {
      "epoch": 14.324159021406729,
      "grad_norm": 0.09464235603809357,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 14052
    },
    {
      "epoch": 14.325178389398573,
      "grad_norm": 0.028195025399327278,
      "learning_rate": 0.0005,
      "loss": 0.1467,
      "step": 14053
    },
    {
      "epoch": 14.326197757390418,
      "grad_norm": 0.039543040096759796,
      "learning_rate": 0.0005,
      "loss": 0.1564,
      "step": 14054
    },
    {
      "epoch": 14.327217125382264,
      "grad_norm": 0.06963878870010376,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 14055
    },
    {
      "epoch": 14.328236493374108,
      "grad_norm": 0.08107152581214905,
      "learning_rate": 0.0005,
      "loss": 0.1991,
      "step": 14056
    },
    {
      "epoch": 14.329255861365953,
      "grad_norm": 0.1996537744998932,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 14057
    },
    {
      "epoch": 14.330275229357799,
      "grad_norm": 0.08381423354148865,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 14058
    },
    {
      "epoch": 14.331294597349643,
      "grad_norm": 0.06344661861658096,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14059
    },
    {
      "epoch": 14.332313965341488,
      "grad_norm": 0.07852394878864288,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 14060
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.02915213629603386,
      "learning_rate": 0.0005,
      "loss": 0.1587,
      "step": 14061
    },
    {
      "epoch": 14.334352701325178,
      "grad_norm": 0.11092250794172287,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 14062
    },
    {
      "epoch": 14.335372069317023,
      "grad_norm": 0.07066904753446579,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 14063
    },
    {
      "epoch": 14.336391437308869,
      "grad_norm": 0.06140945106744766,
      "learning_rate": 0.0005,
      "loss": 0.1543,
      "step": 14064
    },
    {
      "epoch": 14.337410805300713,
      "grad_norm": 0.05388794466853142,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14065
    },
    {
      "epoch": 14.338430173292558,
      "grad_norm": 0.08237943798303604,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14066
    },
    {
      "epoch": 14.339449541284404,
      "grad_norm": 0.1226101815700531,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 14067
    },
    {
      "epoch": 14.340468909276249,
      "grad_norm": 0.08143269270658493,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14068
    },
    {
      "epoch": 14.341488277268093,
      "grad_norm": 0.03734980523586273,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14069
    },
    {
      "epoch": 14.34250764525994,
      "grad_norm": 0.07079006731510162,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14070
    },
    {
      "epoch": 14.343527013251784,
      "grad_norm": 0.022505953907966614,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 14071
    },
    {
      "epoch": 14.34454638124363,
      "grad_norm": 0.07881507277488708,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14072
    },
    {
      "epoch": 14.345565749235474,
      "grad_norm": 0.07473792135715485,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 14073
    },
    {
      "epoch": 14.346585117227319,
      "grad_norm": 0.09003215283155441,
      "learning_rate": 0.0005,
      "loss": 0.1818,
      "step": 14074
    },
    {
      "epoch": 14.347604485219165,
      "grad_norm": 0.09507663547992706,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14075
    },
    {
      "epoch": 14.34862385321101,
      "grad_norm": 0.13976655900478363,
      "learning_rate": 0.0005,
      "loss": 0.1893,
      "step": 14076
    },
    {
      "epoch": 14.349643221202854,
      "grad_norm": 0.061064012348651886,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 14077
    },
    {
      "epoch": 14.3506625891947,
      "grad_norm": 0.07384368032217026,
      "learning_rate": 0.0005,
      "loss": 0.1835,
      "step": 14078
    },
    {
      "epoch": 14.351681957186544,
      "grad_norm": 0.06696908175945282,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 14079
    },
    {
      "epoch": 14.352701325178389,
      "grad_norm": 0.025574080646038055,
      "learning_rate": 0.0005,
      "loss": 0.152,
      "step": 14080
    },
    {
      "epoch": 14.353720693170235,
      "grad_norm": 0.0531613864004612,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14081
    },
    {
      "epoch": 14.35474006116208,
      "grad_norm": 0.05023684352636337,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 14082
    },
    {
      "epoch": 14.355759429153924,
      "grad_norm": 0.0694473460316658,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 14083
    },
    {
      "epoch": 14.35677879714577,
      "grad_norm": 0.04973948001861572,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14084
    },
    {
      "epoch": 14.357798165137615,
      "grad_norm": 0.09265060722827911,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14085
    },
    {
      "epoch": 14.358817533129459,
      "grad_norm": 0.027235647663474083,
      "learning_rate": 0.0005,
      "loss": 0.1838,
      "step": 14086
    },
    {
      "epoch": 14.359836901121305,
      "grad_norm": 0.028699420392513275,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14087
    },
    {
      "epoch": 14.36085626911315,
      "grad_norm": 0.030520493164658546,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14088
    },
    {
      "epoch": 14.361875637104994,
      "grad_norm": 0.06813032925128937,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 14089
    },
    {
      "epoch": 14.36289500509684,
      "grad_norm": 0.04590785503387451,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 14090
    },
    {
      "epoch": 14.363914373088685,
      "grad_norm": 0.03054921142756939,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14091
    },
    {
      "epoch": 14.364933741080531,
      "grad_norm": 0.07527751475572586,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14092
    },
    {
      "epoch": 14.365953109072375,
      "grad_norm": 0.06821008771657944,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14093
    },
    {
      "epoch": 14.36697247706422,
      "grad_norm": 0.14243431389331818,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 14094
    },
    {
      "epoch": 14.367991845056066,
      "grad_norm": 0.07670136541128159,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14095
    },
    {
      "epoch": 14.36901121304791,
      "grad_norm": 0.15804125368595123,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 14096
    },
    {
      "epoch": 14.370030581039755,
      "grad_norm": 0.034865863621234894,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14097
    },
    {
      "epoch": 14.371049949031601,
      "grad_norm": 0.06379180401563644,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14098
    },
    {
      "epoch": 14.372069317023445,
      "grad_norm": 0.04434024915099144,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 14099
    },
    {
      "epoch": 14.37308868501529,
      "grad_norm": 0.03333500027656555,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 14100
    },
    {
      "epoch": 14.374108053007136,
      "grad_norm": 0.05469636991620064,
      "learning_rate": 0.0005,
      "loss": 0.1849,
      "step": 14101
    },
    {
      "epoch": 14.37512742099898,
      "grad_norm": 0.055528827011585236,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 14102
    },
    {
      "epoch": 14.376146788990825,
      "grad_norm": 0.03212234750390053,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14103
    },
    {
      "epoch": 14.377166156982671,
      "grad_norm": 0.06484567373991013,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14104
    },
    {
      "epoch": 14.378185524974516,
      "grad_norm": 0.03173832967877388,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 14105
    },
    {
      "epoch": 14.37920489296636,
      "grad_norm": 0.05404335632920265,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14106
    },
    {
      "epoch": 14.380224260958206,
      "grad_norm": 0.02432018145918846,
      "learning_rate": 0.0005,
      "loss": 0.184,
      "step": 14107
    },
    {
      "epoch": 14.38124362895005,
      "grad_norm": 0.05872851237654686,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 14108
    },
    {
      "epoch": 14.382262996941897,
      "grad_norm": 0.03957242891192436,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14109
    },
    {
      "epoch": 14.383282364933741,
      "grad_norm": 0.10122920572757721,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 14110
    },
    {
      "epoch": 14.384301732925586,
      "grad_norm": 0.09471631050109863,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14111
    },
    {
      "epoch": 14.385321100917432,
      "grad_norm": 0.04906027019023895,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 14112
    },
    {
      "epoch": 14.386340468909276,
      "grad_norm": 0.03002750501036644,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14113
    },
    {
      "epoch": 14.38735983690112,
      "grad_norm": 0.038203682750463486,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 14114
    },
    {
      "epoch": 14.388379204892967,
      "grad_norm": 0.09380132704973221,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14115
    },
    {
      "epoch": 14.389398572884812,
      "grad_norm": 0.11526656150817871,
      "learning_rate": 0.0005,
      "loss": 0.1528,
      "step": 14116
    },
    {
      "epoch": 14.390417940876656,
      "grad_norm": 0.08257114887237549,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14117
    },
    {
      "epoch": 14.391437308868502,
      "grad_norm": 0.06801319122314453,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 14118
    },
    {
      "epoch": 14.392456676860347,
      "grad_norm": 0.12223831564188004,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 14119
    },
    {
      "epoch": 14.393476044852191,
      "grad_norm": 0.06187259778380394,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14120
    },
    {
      "epoch": 14.394495412844037,
      "grad_norm": 0.019766410812735558,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14121
    },
    {
      "epoch": 14.395514780835882,
      "grad_norm": 0.054787613451480865,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 14122
    },
    {
      "epoch": 14.396534148827726,
      "grad_norm": 0.06806819885969162,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 14123
    },
    {
      "epoch": 14.397553516819572,
      "grad_norm": 0.04471977427601814,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 14124
    },
    {
      "epoch": 14.398572884811417,
      "grad_norm": 0.044448159635066986,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14125
    },
    {
      "epoch": 14.399592252803261,
      "grad_norm": 0.09866580367088318,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 14126
    },
    {
      "epoch": 14.400611620795107,
      "grad_norm": 0.06654538959264755,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 14127
    },
    {
      "epoch": 14.401630988786952,
      "grad_norm": 0.0625448226928711,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14128
    },
    {
      "epoch": 14.402650356778796,
      "grad_norm": 0.033615391701459885,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 14129
    },
    {
      "epoch": 14.403669724770642,
      "grad_norm": 0.05070578306913376,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14130
    },
    {
      "epoch": 14.404689092762487,
      "grad_norm": 0.06818796694278717,
      "learning_rate": 0.0005,
      "loss": 0.1852,
      "step": 14131
    },
    {
      "epoch": 14.405708460754333,
      "grad_norm": 0.10134022682905197,
      "learning_rate": 0.0005,
      "loss": 0.1938,
      "step": 14132
    },
    {
      "epoch": 14.406727828746178,
      "grad_norm": 0.039809513837099075,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 14133
    },
    {
      "epoch": 14.407747196738022,
      "grad_norm": 0.08497253060340881,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 14134
    },
    {
      "epoch": 14.408766564729868,
      "grad_norm": 0.07010635733604431,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14135
    },
    {
      "epoch": 14.409785932721713,
      "grad_norm": 0.023555750027298927,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 14136
    },
    {
      "epoch": 14.410805300713557,
      "grad_norm": 0.024912770837545395,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 14137
    },
    {
      "epoch": 14.411824668705403,
      "grad_norm": 0.07243257761001587,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 14138
    },
    {
      "epoch": 14.412844036697248,
      "grad_norm": 0.04991064593195915,
      "learning_rate": 0.0005,
      "loss": 0.1831,
      "step": 14139
    },
    {
      "epoch": 14.413863404689092,
      "grad_norm": 0.06383465975522995,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 14140
    },
    {
      "epoch": 14.414882772680938,
      "grad_norm": 0.07197178900241852,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14141
    },
    {
      "epoch": 14.415902140672783,
      "grad_norm": 0.07511993497610092,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 14142
    },
    {
      "epoch": 14.416921508664627,
      "grad_norm": 0.07322494685649872,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14143
    },
    {
      "epoch": 14.417940876656473,
      "grad_norm": 0.07334695011377335,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 14144
    },
    {
      "epoch": 14.418960244648318,
      "grad_norm": 0.030653376132249832,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14145
    },
    {
      "epoch": 14.419979612640162,
      "grad_norm": 0.03190265968441963,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 14146
    },
    {
      "epoch": 14.420998980632008,
      "grad_norm": 0.0815148875117302,
      "learning_rate": 0.0005,
      "loss": 0.1831,
      "step": 14147
    },
    {
      "epoch": 14.422018348623853,
      "grad_norm": 0.08366205543279648,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14148
    },
    {
      "epoch": 14.423037716615699,
      "grad_norm": 0.062408868223428726,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14149
    },
    {
      "epoch": 14.424057084607544,
      "grad_norm": 0.02448642998933792,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14150
    },
    {
      "epoch": 14.425076452599388,
      "grad_norm": 0.07906609028577805,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 14151
    },
    {
      "epoch": 14.426095820591234,
      "grad_norm": 0.024874497205018997,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 14152
    },
    {
      "epoch": 14.427115188583079,
      "grad_norm": 0.08422347158193588,
      "learning_rate": 0.0005,
      "loss": 0.1875,
      "step": 14153
    },
    {
      "epoch": 14.428134556574923,
      "grad_norm": 0.0474240705370903,
      "learning_rate": 0.0005,
      "loss": 0.1818,
      "step": 14154
    },
    {
      "epoch": 14.42915392456677,
      "grad_norm": 0.10960222780704498,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14155
    },
    {
      "epoch": 14.430173292558614,
      "grad_norm": 0.04575761407613754,
      "learning_rate": 0.0005,
      "loss": 0.2031,
      "step": 14156
    },
    {
      "epoch": 14.431192660550458,
      "grad_norm": 0.051638856530189514,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 14157
    },
    {
      "epoch": 14.432212028542304,
      "grad_norm": 0.10291802883148193,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 14158
    },
    {
      "epoch": 14.433231396534149,
      "grad_norm": 0.0426812581717968,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 14159
    },
    {
      "epoch": 14.434250764525993,
      "grad_norm": 0.03655213862657547,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14160
    },
    {
      "epoch": 14.43527013251784,
      "grad_norm": 0.05696263164281845,
      "learning_rate": 0.0005,
      "loss": 0.1522,
      "step": 14161
    },
    {
      "epoch": 14.436289500509684,
      "grad_norm": 0.11744797229766846,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 14162
    },
    {
      "epoch": 14.437308868501528,
      "grad_norm": 0.043195344507694244,
      "learning_rate": 0.0005,
      "loss": 0.1842,
      "step": 14163
    },
    {
      "epoch": 14.438328236493374,
      "grad_norm": 0.0810471922159195,
      "learning_rate": 0.0005,
      "loss": 0.1857,
      "step": 14164
    },
    {
      "epoch": 14.439347604485219,
      "grad_norm": 0.044904984533786774,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14165
    },
    {
      "epoch": 14.440366972477065,
      "grad_norm": 0.039427537471055984,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 14166
    },
    {
      "epoch": 14.44138634046891,
      "grad_norm": 0.09578296542167664,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 14167
    },
    {
      "epoch": 14.442405708460754,
      "grad_norm": 0.050707168877124786,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 14168
    },
    {
      "epoch": 14.4434250764526,
      "grad_norm": 0.1130441427230835,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 14169
    },
    {
      "epoch": 14.444444444444445,
      "grad_norm": 0.062339674681425095,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14170
    },
    {
      "epoch": 14.445463812436289,
      "grad_norm": 0.019794324412941933,
      "learning_rate": 0.0005,
      "loss": 0.1537,
      "step": 14171
    },
    {
      "epoch": 14.446483180428135,
      "grad_norm": 0.033246539533138275,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14172
    },
    {
      "epoch": 14.44750254841998,
      "grad_norm": 0.07760725170373917,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 14173
    },
    {
      "epoch": 14.448521916411824,
      "grad_norm": 0.03279031068086624,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 14174
    },
    {
      "epoch": 14.44954128440367,
      "grad_norm": 0.07181490212678909,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14175
    },
    {
      "epoch": 14.450560652395515,
      "grad_norm": 0.09935998916625977,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 14176
    },
    {
      "epoch": 14.45158002038736,
      "grad_norm": 0.08399812877178192,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 14177
    },
    {
      "epoch": 14.452599388379205,
      "grad_norm": 0.05162985250353813,
      "learning_rate": 0.0005,
      "loss": 0.1542,
      "step": 14178
    },
    {
      "epoch": 14.45361875637105,
      "grad_norm": 0.07000873982906342,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 14179
    },
    {
      "epoch": 14.454638124362894,
      "grad_norm": 0.02504291944205761,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 14180
    },
    {
      "epoch": 14.45565749235474,
      "grad_norm": 0.0773274153470993,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14181
    },
    {
      "epoch": 14.456676860346585,
      "grad_norm": 0.04671092331409454,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14182
    },
    {
      "epoch": 14.45769622833843,
      "grad_norm": 0.043754078447818756,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14183
    },
    {
      "epoch": 14.458715596330276,
      "grad_norm": 0.0956755131483078,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14184
    },
    {
      "epoch": 14.45973496432212,
      "grad_norm": 0.058139774948358536,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 14185
    },
    {
      "epoch": 14.460754332313964,
      "grad_norm": 0.08204462379217148,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 14186
    },
    {
      "epoch": 14.46177370030581,
      "grad_norm": 0.058917105197906494,
      "learning_rate": 0.0005,
      "loss": 0.1831,
      "step": 14187
    },
    {
      "epoch": 14.462793068297655,
      "grad_norm": 0.08038206398487091,
      "learning_rate": 0.0005,
      "loss": 0.1942,
      "step": 14188
    },
    {
      "epoch": 14.463812436289501,
      "grad_norm": 0.028762780129909515,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14189
    },
    {
      "epoch": 14.464831804281346,
      "grad_norm": 0.07365414500236511,
      "learning_rate": 0.0005,
      "loss": 0.1893,
      "step": 14190
    },
    {
      "epoch": 14.46585117227319,
      "grad_norm": 0.05906778201460838,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 14191
    },
    {
      "epoch": 14.466870540265036,
      "grad_norm": 0.017765820026397705,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 14192
    },
    {
      "epoch": 14.46788990825688,
      "grad_norm": 0.06076711043715477,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 14193
    },
    {
      "epoch": 14.468909276248725,
      "grad_norm": 0.0275929756462574,
      "learning_rate": 0.0005,
      "loss": 0.1526,
      "step": 14194
    },
    {
      "epoch": 14.469928644240571,
      "grad_norm": 0.0638539046049118,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 14195
    },
    {
      "epoch": 14.470948012232416,
      "grad_norm": 0.14376947283744812,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 14196
    },
    {
      "epoch": 14.47196738022426,
      "grad_norm": 0.1167585477232933,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 14197
    },
    {
      "epoch": 14.472986748216107,
      "grad_norm": 0.12328115850687027,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14198
    },
    {
      "epoch": 14.474006116207951,
      "grad_norm": 0.07849141210317612,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 14199
    },
    {
      "epoch": 14.475025484199795,
      "grad_norm": 0.032907310873270035,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 14200
    },
    {
      "epoch": 14.476044852191642,
      "grad_norm": 0.150581955909729,
      "learning_rate": 0.0005,
      "loss": 0.1938,
      "step": 14201
    },
    {
      "epoch": 14.477064220183486,
      "grad_norm": 0.05059900879859924,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 14202
    },
    {
      "epoch": 14.47808358817533,
      "grad_norm": 0.10448088496923447,
      "learning_rate": 0.0005,
      "loss": 0.2054,
      "step": 14203
    },
    {
      "epoch": 14.479102956167177,
      "grad_norm": 0.03130573034286499,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14204
    },
    {
      "epoch": 14.480122324159021,
      "grad_norm": 0.0540461428463459,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 14205
    },
    {
      "epoch": 14.481141692150867,
      "grad_norm": 0.07532099634408951,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 14206
    },
    {
      "epoch": 14.482161060142712,
      "grad_norm": 0.03829961270093918,
      "learning_rate": 0.0005,
      "loss": 0.1588,
      "step": 14207
    },
    {
      "epoch": 14.483180428134556,
      "grad_norm": 0.042143478989601135,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 14208
    },
    {
      "epoch": 14.484199796126402,
      "grad_norm": 0.07804843038320541,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 14209
    },
    {
      "epoch": 14.485219164118247,
      "grad_norm": 0.07257456332445145,
      "learning_rate": 0.0005,
      "loss": 0.1837,
      "step": 14210
    },
    {
      "epoch": 14.486238532110091,
      "grad_norm": 0.028693364933133125,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 14211
    },
    {
      "epoch": 14.487257900101937,
      "grad_norm": 0.04329308122396469,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14212
    },
    {
      "epoch": 14.488277268093782,
      "grad_norm": 0.06719444692134857,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14213
    },
    {
      "epoch": 14.489296636085626,
      "grad_norm": 0.05806542560458183,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 14214
    },
    {
      "epoch": 14.490316004077473,
      "grad_norm": 0.07545860856771469,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14215
    },
    {
      "epoch": 14.491335372069317,
      "grad_norm": 0.0481635257601738,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14216
    },
    {
      "epoch": 14.492354740061161,
      "grad_norm": 0.08212796598672867,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 14217
    },
    {
      "epoch": 14.493374108053008,
      "grad_norm": 0.044234201312065125,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 14218
    },
    {
      "epoch": 14.494393476044852,
      "grad_norm": 0.07529258728027344,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 14219
    },
    {
      "epoch": 14.495412844036696,
      "grad_norm": 0.05474857613444328,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 14220
    },
    {
      "epoch": 14.496432212028543,
      "grad_norm": 0.038333602249622345,
      "learning_rate": 0.0005,
      "loss": 0.1566,
      "step": 14221
    },
    {
      "epoch": 14.497451580020387,
      "grad_norm": 0.04591567814350128,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 14222
    },
    {
      "epoch": 14.498470948012232,
      "grad_norm": 0.0573461540043354,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 14223
    },
    {
      "epoch": 14.499490316004078,
      "grad_norm": 0.07897473126649857,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 14224
    },
    {
      "epoch": 14.500509683995922,
      "grad_norm": 0.07078031450510025,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14225
    },
    {
      "epoch": 14.501529051987767,
      "grad_norm": 0.03245283290743828,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 14226
    },
    {
      "epoch": 14.502548419979613,
      "grad_norm": 0.03417393937706947,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14227
    },
    {
      "epoch": 14.503567787971457,
      "grad_norm": 0.05884196236729622,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14228
    },
    {
      "epoch": 14.504587155963304,
      "grad_norm": 0.09602048993110657,
      "learning_rate": 0.0005,
      "loss": 0.1896,
      "step": 14229
    },
    {
      "epoch": 14.505606523955148,
      "grad_norm": 0.0226651169359684,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14230
    },
    {
      "epoch": 14.506625891946992,
      "grad_norm": 0.10030046850442886,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 14231
    },
    {
      "epoch": 14.507645259938839,
      "grad_norm": 0.056446392089128494,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 14232
    },
    {
      "epoch": 14.508664627930683,
      "grad_norm": 0.054061129689216614,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 14233
    },
    {
      "epoch": 14.509683995922527,
      "grad_norm": 0.04798276349902153,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 14234
    },
    {
      "epoch": 14.510703363914374,
      "grad_norm": 0.08068482577800751,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 14235
    },
    {
      "epoch": 14.511722731906218,
      "grad_norm": 0.02278849110007286,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 14236
    },
    {
      "epoch": 14.512742099898063,
      "grad_norm": 0.038375575095415115,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14237
    },
    {
      "epoch": 14.513761467889909,
      "grad_norm": 0.05362226068973541,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 14238
    },
    {
      "epoch": 14.514780835881753,
      "grad_norm": 0.06328130513429642,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14239
    },
    {
      "epoch": 14.515800203873598,
      "grad_norm": 0.022765377536416054,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14240
    },
    {
      "epoch": 14.516819571865444,
      "grad_norm": 0.061035286635160446,
      "learning_rate": 0.0005,
      "loss": 0.1849,
      "step": 14241
    },
    {
      "epoch": 14.517838939857288,
      "grad_norm": 0.049392394721508026,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 14242
    },
    {
      "epoch": 14.518858307849133,
      "grad_norm": 0.04283377155661583,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 14243
    },
    {
      "epoch": 14.519877675840979,
      "grad_norm": 0.07882026582956314,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 14244
    },
    {
      "epoch": 14.520897043832823,
      "grad_norm": 0.11115454882383347,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 14245
    },
    {
      "epoch": 14.52191641182467,
      "grad_norm": 0.03408033400774002,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14246
    },
    {
      "epoch": 14.522935779816514,
      "grad_norm": 0.07553113996982574,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 14247
    },
    {
      "epoch": 14.523955147808358,
      "grad_norm": 0.06210409477353096,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14248
    },
    {
      "epoch": 14.524974515800205,
      "grad_norm": 0.059186819940805435,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 14249
    },
    {
      "epoch": 14.525993883792049,
      "grad_norm": 0.04047947749495506,
      "learning_rate": 0.0005,
      "loss": 0.1493,
      "step": 14250
    },
    {
      "epoch": 14.527013251783893,
      "grad_norm": 0.10439862310886383,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 14251
    },
    {
      "epoch": 14.52803261977574,
      "grad_norm": 0.02609773352742195,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 14252
    },
    {
      "epoch": 14.529051987767584,
      "grad_norm": 0.05192120373249054,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 14253
    },
    {
      "epoch": 14.530071355759429,
      "grad_norm": 0.05918334424495697,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14254
    },
    {
      "epoch": 14.531090723751275,
      "grad_norm": 0.1593424379825592,
      "learning_rate": 0.0005,
      "loss": 0.1936,
      "step": 14255
    },
    {
      "epoch": 14.53211009174312,
      "grad_norm": 0.05523013323545456,
      "learning_rate": 0.0005,
      "loss": 0.1873,
      "step": 14256
    },
    {
      "epoch": 14.533129459734964,
      "grad_norm": 0.02453264594078064,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 14257
    },
    {
      "epoch": 14.53414882772681,
      "grad_norm": 0.08977493643760681,
      "learning_rate": 0.0005,
      "loss": 0.1959,
      "step": 14258
    },
    {
      "epoch": 14.535168195718654,
      "grad_norm": 0.02938585728406906,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14259
    },
    {
      "epoch": 14.536187563710499,
      "grad_norm": 0.04674826189875603,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 14260
    },
    {
      "epoch": 14.537206931702345,
      "grad_norm": 0.0800190418958664,
      "learning_rate": 0.0005,
      "loss": 0.1538,
      "step": 14261
    },
    {
      "epoch": 14.53822629969419,
      "grad_norm": 0.06940525770187378,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 14262
    },
    {
      "epoch": 14.539245667686036,
      "grad_norm": 0.1269821673631668,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 14263
    },
    {
      "epoch": 14.54026503567788,
      "grad_norm": 0.11659473180770874,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 14264
    },
    {
      "epoch": 14.541284403669724,
      "grad_norm": 0.04593244194984436,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14265
    },
    {
      "epoch": 14.54230377166157,
      "grad_norm": 0.074320949614048,
      "learning_rate": 0.0005,
      "loss": 0.1984,
      "step": 14266
    },
    {
      "epoch": 14.543323139653415,
      "grad_norm": 0.05268600955605507,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14267
    },
    {
      "epoch": 14.54434250764526,
      "grad_norm": 0.09926802664995193,
      "learning_rate": 0.0005,
      "loss": 0.1906,
      "step": 14268
    },
    {
      "epoch": 14.545361875637106,
      "grad_norm": 0.06894577294588089,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14269
    },
    {
      "epoch": 14.54638124362895,
      "grad_norm": 0.06846775114536285,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 14270
    },
    {
      "epoch": 14.547400611620795,
      "grad_norm": 0.06113387271761894,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 14271
    },
    {
      "epoch": 14.54841997961264,
      "grad_norm": 0.021243887022137642,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14272
    },
    {
      "epoch": 14.549439347604485,
      "grad_norm": 0.09509723633527756,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14273
    },
    {
      "epoch": 14.55045871559633,
      "grad_norm": 0.024259652942419052,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 14274
    },
    {
      "epoch": 14.551478083588176,
      "grad_norm": 0.04656428471207619,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14275
    },
    {
      "epoch": 14.55249745158002,
      "grad_norm": 0.03739835321903229,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14276
    },
    {
      "epoch": 14.553516819571865,
      "grad_norm": 0.057472702115774155,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14277
    },
    {
      "epoch": 14.554536187563711,
      "grad_norm": 0.12405184656381607,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14278
    },
    {
      "epoch": 14.555555555555555,
      "grad_norm": 0.042041897773742676,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 14279
    },
    {
      "epoch": 14.5565749235474,
      "grad_norm": 0.05572803318500519,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 14280
    },
    {
      "epoch": 14.557594291539246,
      "grad_norm": 0.08044680207967758,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 14281
    },
    {
      "epoch": 14.55861365953109,
      "grad_norm": 0.03757941350340843,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 14282
    },
    {
      "epoch": 14.559633027522935,
      "grad_norm": 0.05607170984148979,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 14283
    },
    {
      "epoch": 14.560652395514781,
      "grad_norm": 0.09712090343236923,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 14284
    },
    {
      "epoch": 14.561671763506626,
      "grad_norm": 0.02786712534725666,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 14285
    },
    {
      "epoch": 14.562691131498472,
      "grad_norm": 0.028659919276833534,
      "learning_rate": 0.0005,
      "loss": 0.1488,
      "step": 14286
    },
    {
      "epoch": 14.563710499490316,
      "grad_norm": 0.06826554238796234,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 14287
    },
    {
      "epoch": 14.56472986748216,
      "grad_norm": 0.03923684358596802,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14288
    },
    {
      "epoch": 14.565749235474007,
      "grad_norm": 0.06170293316245079,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 14289
    },
    {
      "epoch": 14.566768603465851,
      "grad_norm": 0.09402865171432495,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 14290
    },
    {
      "epoch": 14.567787971457696,
      "grad_norm": 0.05497092753648758,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 14291
    },
    {
      "epoch": 14.568807339449542,
      "grad_norm": 0.04754136875271797,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14292
    },
    {
      "epoch": 14.569826707441386,
      "grad_norm": 0.030193820595741272,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 14293
    },
    {
      "epoch": 14.57084607543323,
      "grad_norm": 0.09460385888814926,
      "learning_rate": 0.0005,
      "loss": 0.1926,
      "step": 14294
    },
    {
      "epoch": 14.571865443425077,
      "grad_norm": 0.11192001402378082,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14295
    },
    {
      "epoch": 14.572884811416921,
      "grad_norm": 0.06254249066114426,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 14296
    },
    {
      "epoch": 14.573904179408766,
      "grad_norm": 0.09340736269950867,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 14297
    },
    {
      "epoch": 14.574923547400612,
      "grad_norm": 0.02920403517782688,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 14298
    },
    {
      "epoch": 14.575942915392456,
      "grad_norm": 0.03244161605834961,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14299
    },
    {
      "epoch": 14.576962283384301,
      "grad_norm": 0.02780764363706112,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 14300
    },
    {
      "epoch": 14.577981651376147,
      "grad_norm": 0.13461175560951233,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 14301
    },
    {
      "epoch": 14.579001019367992,
      "grad_norm": 0.08379591256380081,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 14302
    },
    {
      "epoch": 14.580020387359838,
      "grad_norm": 0.09392701089382172,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 14303
    },
    {
      "epoch": 14.581039755351682,
      "grad_norm": 0.06182187423110008,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 14304
    },
    {
      "epoch": 14.582059123343527,
      "grad_norm": 0.11840608716011047,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 14305
    },
    {
      "epoch": 14.583078491335373,
      "grad_norm": 0.06899123638868332,
      "learning_rate": 0.0005,
      "loss": 0.1807,
      "step": 14306
    },
    {
      "epoch": 14.584097859327217,
      "grad_norm": 0.07908161729574203,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 14307
    },
    {
      "epoch": 14.585117227319062,
      "grad_norm": 0.045820996165275574,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 14308
    },
    {
      "epoch": 14.586136595310908,
      "grad_norm": 0.026458993554115295,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14309
    },
    {
      "epoch": 14.587155963302752,
      "grad_norm": 0.11013498157262802,
      "learning_rate": 0.0005,
      "loss": 0.1564,
      "step": 14310
    },
    {
      "epoch": 14.588175331294597,
      "grad_norm": 0.045868583023548126,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14311
    },
    {
      "epoch": 14.589194699286443,
      "grad_norm": 0.06851047277450562,
      "learning_rate": 0.0005,
      "loss": 0.1869,
      "step": 14312
    },
    {
      "epoch": 14.590214067278287,
      "grad_norm": 0.02561272494494915,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 14313
    },
    {
      "epoch": 14.591233435270132,
      "grad_norm": 0.05904139578342438,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 14314
    },
    {
      "epoch": 14.592252803261978,
      "grad_norm": 0.04146842285990715,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14315
    },
    {
      "epoch": 14.593272171253822,
      "grad_norm": 0.033356279134750366,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 14316
    },
    {
      "epoch": 14.594291539245667,
      "grad_norm": 0.04065856710076332,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14317
    },
    {
      "epoch": 14.595310907237513,
      "grad_norm": 0.09502363950014114,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 14318
    },
    {
      "epoch": 14.596330275229358,
      "grad_norm": 0.03382352367043495,
      "learning_rate": 0.0005,
      "loss": 0.1464,
      "step": 14319
    },
    {
      "epoch": 14.597349643221204,
      "grad_norm": 0.04952848702669144,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14320
    },
    {
      "epoch": 14.598369011213048,
      "grad_norm": 0.036444175988435745,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 14321
    },
    {
      "epoch": 14.599388379204893,
      "grad_norm": 0.047707222402095795,
      "learning_rate": 0.0005,
      "loss": 0.1938,
      "step": 14322
    },
    {
      "epoch": 14.600407747196739,
      "grad_norm": 0.062360044568777084,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 14323
    },
    {
      "epoch": 14.601427115188583,
      "grad_norm": 0.06205495446920395,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14324
    },
    {
      "epoch": 14.602446483180428,
      "grad_norm": 0.051105134189128876,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 14325
    },
    {
      "epoch": 14.603465851172274,
      "grad_norm": 0.1251756250858307,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 14326
    },
    {
      "epoch": 14.604485219164118,
      "grad_norm": 0.04189315065741539,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14327
    },
    {
      "epoch": 14.605504587155963,
      "grad_norm": 0.05202535539865494,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 14328
    },
    {
      "epoch": 14.606523955147809,
      "grad_norm": 0.030516942963004112,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 14329
    },
    {
      "epoch": 14.607543323139653,
      "grad_norm": 0.07432538270950317,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 14330
    },
    {
      "epoch": 14.608562691131498,
      "grad_norm": 0.03289741277694702,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 14331
    },
    {
      "epoch": 14.609582059123344,
      "grad_norm": 0.21483729779720306,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 14332
    },
    {
      "epoch": 14.610601427115188,
      "grad_norm": 0.044566985219717026,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 14333
    },
    {
      "epoch": 14.611620795107033,
      "grad_norm": 0.16894276440143585,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 14334
    },
    {
      "epoch": 14.61264016309888,
      "grad_norm": 0.04963900148868561,
      "learning_rate": 0.0005,
      "loss": 0.2028,
      "step": 14335
    },
    {
      "epoch": 14.613659531090724,
      "grad_norm": 0.04768338426947594,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14336
    },
    {
      "epoch": 14.614678899082568,
      "grad_norm": 0.08550192415714264,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14337
    },
    {
      "epoch": 14.615698267074414,
      "grad_norm": 0.08160422742366791,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 14338
    },
    {
      "epoch": 14.616717635066259,
      "grad_norm": 0.05199652537703514,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14339
    },
    {
      "epoch": 14.617737003058103,
      "grad_norm": 0.022007416933774948,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14340
    },
    {
      "epoch": 14.61875637104995,
      "grad_norm": 0.059806741774082184,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14341
    },
    {
      "epoch": 14.619775739041794,
      "grad_norm": 0.037892453372478485,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14342
    },
    {
      "epoch": 14.62079510703364,
      "grad_norm": 0.09817170351743698,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 14343
    },
    {
      "epoch": 14.621814475025484,
      "grad_norm": 0.11271783709526062,
      "learning_rate": 0.0005,
      "loss": 0.1838,
      "step": 14344
    },
    {
      "epoch": 14.622833843017329,
      "grad_norm": 0.13349665701389313,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 14345
    },
    {
      "epoch": 14.623853211009175,
      "grad_norm": 0.04072578623890877,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14346
    },
    {
      "epoch": 14.62487257900102,
      "grad_norm": 0.04448836296796799,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14347
    },
    {
      "epoch": 14.625891946992864,
      "grad_norm": 0.0643298476934433,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14348
    },
    {
      "epoch": 14.62691131498471,
      "grad_norm": 0.19936664402484894,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 14349
    },
    {
      "epoch": 14.627930682976555,
      "grad_norm": 0.0176819059997797,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14350
    },
    {
      "epoch": 14.628950050968399,
      "grad_norm": 0.04310135915875435,
      "learning_rate": 0.0005,
      "loss": 0.2092,
      "step": 14351
    },
    {
      "epoch": 14.629969418960245,
      "grad_norm": 0.05883824825286865,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 14352
    },
    {
      "epoch": 14.63098878695209,
      "grad_norm": 0.05001883953809738,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 14353
    },
    {
      "epoch": 14.632008154943934,
      "grad_norm": 0.0419987328350544,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14354
    },
    {
      "epoch": 14.63302752293578,
      "grad_norm": 0.09389615803956985,
      "learning_rate": 0.0005,
      "loss": 0.1926,
      "step": 14355
    },
    {
      "epoch": 14.634046890927625,
      "grad_norm": 0.04685830697417259,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14356
    },
    {
      "epoch": 14.635066258919469,
      "grad_norm": 0.03799305856227875,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14357
    },
    {
      "epoch": 14.636085626911315,
      "grad_norm": 0.06600326299667358,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 14358
    },
    {
      "epoch": 14.63710499490316,
      "grad_norm": 0.06330558657646179,
      "learning_rate": 0.0005,
      "loss": 0.191,
      "step": 14359
    },
    {
      "epoch": 14.638124362895006,
      "grad_norm": 0.05523849278688431,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 14360
    },
    {
      "epoch": 14.63914373088685,
      "grad_norm": 0.05187235400080681,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14361
    },
    {
      "epoch": 14.640163098878695,
      "grad_norm": 0.037865348160266876,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 14362
    },
    {
      "epoch": 14.641182466870541,
      "grad_norm": 0.08371178805828094,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 14363
    },
    {
      "epoch": 14.642201834862385,
      "grad_norm": 0.05858907848596573,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 14364
    },
    {
      "epoch": 14.64322120285423,
      "grad_norm": 0.07570501416921616,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 14365
    },
    {
      "epoch": 14.644240570846076,
      "grad_norm": 0.05437779799103737,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14366
    },
    {
      "epoch": 14.64525993883792,
      "grad_norm": 0.04227115213871002,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14367
    },
    {
      "epoch": 14.646279306829765,
      "grad_norm": 0.05524596571922302,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14368
    },
    {
      "epoch": 14.647298674821611,
      "grad_norm": 0.14167983829975128,
      "learning_rate": 0.0005,
      "loss": 0.1899,
      "step": 14369
    },
    {
      "epoch": 14.648318042813456,
      "grad_norm": 0.07032233476638794,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 14370
    },
    {
      "epoch": 14.6493374108053,
      "grad_norm": 0.04829678311944008,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14371
    },
    {
      "epoch": 14.650356778797146,
      "grad_norm": 0.0475882925093174,
      "learning_rate": 0.0005,
      "loss": 0.1565,
      "step": 14372
    },
    {
      "epoch": 14.65137614678899,
      "grad_norm": 0.04779171943664551,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 14373
    },
    {
      "epoch": 14.652395514780835,
      "grad_norm": 0.1576920598745346,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14374
    },
    {
      "epoch": 14.653414882772681,
      "grad_norm": 0.04092782735824585,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14375
    },
    {
      "epoch": 14.654434250764526,
      "grad_norm": 0.06298752874135971,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 14376
    },
    {
      "epoch": 14.655453618756372,
      "grad_norm": 0.0949329286813736,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14377
    },
    {
      "epoch": 14.656472986748216,
      "grad_norm": 0.06542161852121353,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14378
    },
    {
      "epoch": 14.65749235474006,
      "grad_norm": 0.04532145708799362,
      "learning_rate": 0.0005,
      "loss": 0.1539,
      "step": 14379
    },
    {
      "epoch": 14.658511722731905,
      "grad_norm": 0.04370139166712761,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14380
    },
    {
      "epoch": 14.659531090723751,
      "grad_norm": 0.03146355599164963,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 14381
    },
    {
      "epoch": 14.660550458715596,
      "grad_norm": 0.08537036925554276,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14382
    },
    {
      "epoch": 14.661569826707442,
      "grad_norm": 0.07584995031356812,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14383
    },
    {
      "epoch": 14.662589194699287,
      "grad_norm": 0.10469156503677368,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 14384
    },
    {
      "epoch": 14.663608562691131,
      "grad_norm": 0.08005408197641373,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14385
    },
    {
      "epoch": 14.664627930682977,
      "grad_norm": 0.07874304801225662,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14386
    },
    {
      "epoch": 14.665647298674822,
      "grad_norm": 0.02769818902015686,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 14387
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.04237813130021095,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14388
    },
    {
      "epoch": 14.667686034658512,
      "grad_norm": 0.08100848644971848,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14389
    },
    {
      "epoch": 14.668705402650357,
      "grad_norm": 0.09006606787443161,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 14390
    },
    {
      "epoch": 14.669724770642201,
      "grad_norm": 0.04621606320142746,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 14391
    },
    {
      "epoch": 14.670744138634047,
      "grad_norm": 0.05445694178342819,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 14392
    },
    {
      "epoch": 14.671763506625892,
      "grad_norm": 0.03138045221567154,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14393
    },
    {
      "epoch": 14.672782874617736,
      "grad_norm": 0.03059794381260872,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14394
    },
    {
      "epoch": 14.673802242609582,
      "grad_norm": 0.07443757355213165,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 14395
    },
    {
      "epoch": 14.674821610601427,
      "grad_norm": 0.08860733360052109,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14396
    },
    {
      "epoch": 14.675840978593271,
      "grad_norm": 0.03181648254394531,
      "learning_rate": 0.0005,
      "loss": 0.1548,
      "step": 14397
    },
    {
      "epoch": 14.676860346585118,
      "grad_norm": 0.03375614434480667,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 14398
    },
    {
      "epoch": 14.677879714576962,
      "grad_norm": 0.07628345489501953,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 14399
    },
    {
      "epoch": 14.678899082568808,
      "grad_norm": 0.03953072056174278,
      "learning_rate": 0.0005,
      "loss": 0.1848,
      "step": 14400
    },
    {
      "epoch": 14.679918450560653,
      "grad_norm": 0.05611208453774452,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 14401
    },
    {
      "epoch": 14.680937818552497,
      "grad_norm": 0.05190703272819519,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14402
    },
    {
      "epoch": 14.681957186544343,
      "grad_norm": 0.044691722840070724,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 14403
    },
    {
      "epoch": 14.682976554536188,
      "grad_norm": 0.06750637292861938,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14404
    },
    {
      "epoch": 14.683995922528032,
      "grad_norm": 0.1178867369890213,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 14405
    },
    {
      "epoch": 14.685015290519878,
      "grad_norm": 0.01834888383746147,
      "learning_rate": 0.0005,
      "loss": 0.152,
      "step": 14406
    },
    {
      "epoch": 14.686034658511723,
      "grad_norm": 0.022112801671028137,
      "learning_rate": 0.0005,
      "loss": 0.1495,
      "step": 14407
    },
    {
      "epoch": 14.687054026503567,
      "grad_norm": 0.04783282056450844,
      "learning_rate": 0.0005,
      "loss": 0.1986,
      "step": 14408
    },
    {
      "epoch": 14.688073394495413,
      "grad_norm": 0.04094613716006279,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 14409
    },
    {
      "epoch": 14.689092762487258,
      "grad_norm": 0.05192256718873978,
      "learning_rate": 0.0005,
      "loss": 0.184,
      "step": 14410
    },
    {
      "epoch": 14.690112130479102,
      "grad_norm": 0.11672645062208176,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 14411
    },
    {
      "epoch": 14.691131498470948,
      "grad_norm": 0.05987929925322533,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 14412
    },
    {
      "epoch": 14.692150866462793,
      "grad_norm": 0.05038195475935936,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14413
    },
    {
      "epoch": 14.693170234454637,
      "grad_norm": 0.04312239587306976,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14414
    },
    {
      "epoch": 14.694189602446484,
      "grad_norm": 0.08004023134708405,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 14415
    },
    {
      "epoch": 14.695208970438328,
      "grad_norm": 0.07746618241071701,
      "learning_rate": 0.0005,
      "loss": 0.1851,
      "step": 14416
    },
    {
      "epoch": 14.696228338430174,
      "grad_norm": 0.029787790030241013,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 14417
    },
    {
      "epoch": 14.697247706422019,
      "grad_norm": 0.08918630331754684,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 14418
    },
    {
      "epoch": 14.698267074413863,
      "grad_norm": 0.1884913593530655,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14419
    },
    {
      "epoch": 14.69928644240571,
      "grad_norm": 0.0549568235874176,
      "learning_rate": 0.0005,
      "loss": 0.1536,
      "step": 14420
    },
    {
      "epoch": 14.700305810397554,
      "grad_norm": 0.042165063321590424,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 14421
    },
    {
      "epoch": 14.701325178389398,
      "grad_norm": 0.03856927528977394,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 14422
    },
    {
      "epoch": 14.702344546381244,
      "grad_norm": 0.07858694344758987,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 14423
    },
    {
      "epoch": 14.703363914373089,
      "grad_norm": 0.07108768075704575,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 14424
    },
    {
      "epoch": 14.704383282364933,
      "grad_norm": 0.04328054189682007,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 14425
    },
    {
      "epoch": 14.70540265035678,
      "grad_norm": 0.07251021265983582,
      "learning_rate": 0.0005,
      "loss": 0.1938,
      "step": 14426
    },
    {
      "epoch": 14.706422018348624,
      "grad_norm": 0.06520890444517136,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 14427
    },
    {
      "epoch": 14.707441386340468,
      "grad_norm": 0.11347854137420654,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14428
    },
    {
      "epoch": 14.708460754332314,
      "grad_norm": 0.09775270521640778,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14429
    },
    {
      "epoch": 14.709480122324159,
      "grad_norm": 0.01815652847290039,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 14430
    },
    {
      "epoch": 14.710499490316003,
      "grad_norm": 0.1053437814116478,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 14431
    },
    {
      "epoch": 14.71151885830785,
      "grad_norm": 0.09265518188476562,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 14432
    },
    {
      "epoch": 14.712538226299694,
      "grad_norm": 0.04369155690073967,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 14433
    },
    {
      "epoch": 14.713557594291538,
      "grad_norm": 0.040170736610889435,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14434
    },
    {
      "epoch": 14.714576962283385,
      "grad_norm": 0.06921689957380295,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 14435
    },
    {
      "epoch": 14.715596330275229,
      "grad_norm": 0.04443055018782616,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14436
    },
    {
      "epoch": 14.716615698267073,
      "grad_norm": 0.08286411315202713,
      "learning_rate": 0.0005,
      "loss": 0.1978,
      "step": 14437
    },
    {
      "epoch": 14.71763506625892,
      "grad_norm": 0.101183220744133,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14438
    },
    {
      "epoch": 14.718654434250764,
      "grad_norm": 0.0654757022857666,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 14439
    },
    {
      "epoch": 14.71967380224261,
      "grad_norm": 0.08721501380205154,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14440
    },
    {
      "epoch": 14.720693170234455,
      "grad_norm": 0.02716437540948391,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 14441
    },
    {
      "epoch": 14.7217125382263,
      "grad_norm": 0.05026460438966751,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 14442
    },
    {
      "epoch": 14.722731906218145,
      "grad_norm": 0.05886879935860634,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 14443
    },
    {
      "epoch": 14.72375127420999,
      "grad_norm": 0.017731890082359314,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14444
    },
    {
      "epoch": 14.724770642201834,
      "grad_norm": 0.06363866478204727,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 14445
    },
    {
      "epoch": 14.72579001019368,
      "grad_norm": 0.03785619139671326,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14446
    },
    {
      "epoch": 14.726809378185525,
      "grad_norm": 0.04342601075768471,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14447
    },
    {
      "epoch": 14.72782874617737,
      "grad_norm": 0.02990330010652542,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 14448
    },
    {
      "epoch": 14.728848114169216,
      "grad_norm": 0.05406273156404495,
      "learning_rate": 0.0005,
      "loss": 0.1558,
      "step": 14449
    },
    {
      "epoch": 14.72986748216106,
      "grad_norm": 0.09703660011291504,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 14450
    },
    {
      "epoch": 14.730886850152904,
      "grad_norm": 0.04126780107617378,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14451
    },
    {
      "epoch": 14.73190621814475,
      "grad_norm": 0.0609787181019783,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 14452
    },
    {
      "epoch": 14.732925586136595,
      "grad_norm": 0.07945852726697922,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14453
    },
    {
      "epoch": 14.73394495412844,
      "grad_norm": 0.0872872918844223,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14454
    },
    {
      "epoch": 14.734964322120286,
      "grad_norm": 0.027561428025364876,
      "learning_rate": 0.0005,
      "loss": 0.1578,
      "step": 14455
    },
    {
      "epoch": 14.73598369011213,
      "grad_norm": 0.10121703892946243,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14456
    },
    {
      "epoch": 14.737003058103976,
      "grad_norm": 0.18744303286075592,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14457
    },
    {
      "epoch": 14.73802242609582,
      "grad_norm": 0.053791504353284836,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 14458
    },
    {
      "epoch": 14.739041794087665,
      "grad_norm": 0.025105169042944908,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14459
    },
    {
      "epoch": 14.740061162079511,
      "grad_norm": 0.03216454014182091,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 14460
    },
    {
      "epoch": 14.741080530071356,
      "grad_norm": 0.12618237733840942,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14461
    },
    {
      "epoch": 14.7420998980632,
      "grad_norm": 0.030285833403468132,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 14462
    },
    {
      "epoch": 14.743119266055047,
      "grad_norm": 0.07787637412548065,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14463
    },
    {
      "epoch": 14.744138634046891,
      "grad_norm": 0.030547570437192917,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14464
    },
    {
      "epoch": 14.745158002038735,
      "grad_norm": 0.052983611822128296,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 14465
    },
    {
      "epoch": 14.746177370030582,
      "grad_norm": 0.036942511796951294,
      "learning_rate": 0.0005,
      "loss": 0.1569,
      "step": 14466
    },
    {
      "epoch": 14.747196738022426,
      "grad_norm": 0.031341493129730225,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 14467
    },
    {
      "epoch": 14.74821610601427,
      "grad_norm": 0.015586836263537407,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 14468
    },
    {
      "epoch": 14.749235474006117,
      "grad_norm": 0.04107283428311348,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 14469
    },
    {
      "epoch": 14.750254841997961,
      "grad_norm": 0.08945553749799728,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 14470
    },
    {
      "epoch": 14.751274209989806,
      "grad_norm": 0.03750563785433769,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 14471
    },
    {
      "epoch": 14.752293577981652,
      "grad_norm": 0.04673833027482033,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 14472
    },
    {
      "epoch": 14.753312945973496,
      "grad_norm": 0.07270628958940506,
      "learning_rate": 0.0005,
      "loss": 0.1992,
      "step": 14473
    },
    {
      "epoch": 14.754332313965342,
      "grad_norm": 0.14757950603961945,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 14474
    },
    {
      "epoch": 14.755351681957187,
      "grad_norm": 0.08855004608631134,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14475
    },
    {
      "epoch": 14.756371049949031,
      "grad_norm": 0.03944491595029831,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 14476
    },
    {
      "epoch": 14.757390417940877,
      "grad_norm": 0.025444062426686287,
      "learning_rate": 0.0005,
      "loss": 0.1566,
      "step": 14477
    },
    {
      "epoch": 14.758409785932722,
      "grad_norm": 0.028217922896146774,
      "learning_rate": 0.0005,
      "loss": 0.1506,
      "step": 14478
    },
    {
      "epoch": 14.759429153924566,
      "grad_norm": 0.10445238649845123,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 14479
    },
    {
      "epoch": 14.760448521916413,
      "grad_norm": 0.06336487829685211,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14480
    },
    {
      "epoch": 14.761467889908257,
      "grad_norm": 0.060002993792295456,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 14481
    },
    {
      "epoch": 14.762487257900101,
      "grad_norm": 0.07803569734096527,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14482
    },
    {
      "epoch": 14.763506625891948,
      "grad_norm": 0.025899415835738182,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 14483
    },
    {
      "epoch": 14.764525993883792,
      "grad_norm": 0.09566564857959747,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14484
    },
    {
      "epoch": 14.765545361875636,
      "grad_norm": 0.01583404652774334,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 14485
    },
    {
      "epoch": 14.766564729867483,
      "grad_norm": 0.04968954250216484,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 14486
    },
    {
      "epoch": 14.767584097859327,
      "grad_norm": 0.10798568278551102,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 14487
    },
    {
      "epoch": 14.768603465851172,
      "grad_norm": 0.07908254861831665,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14488
    },
    {
      "epoch": 14.769622833843018,
      "grad_norm": 0.02435803972184658,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 14489
    },
    {
      "epoch": 14.770642201834862,
      "grad_norm": 0.05971389636397362,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 14490
    },
    {
      "epoch": 14.771661569826707,
      "grad_norm": 0.20322908461093903,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 14491
    },
    {
      "epoch": 14.772680937818553,
      "grad_norm": 0.084311842918396,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14492
    },
    {
      "epoch": 14.773700305810397,
      "grad_norm": 0.035545360296964645,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 14493
    },
    {
      "epoch": 14.774719673802242,
      "grad_norm": 0.04590700939297676,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14494
    },
    {
      "epoch": 14.775739041794088,
      "grad_norm": 0.19451865553855896,
      "learning_rate": 0.0005,
      "loss": 0.1918,
      "step": 14495
    },
    {
      "epoch": 14.776758409785932,
      "grad_norm": 0.10916642099618912,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 14496
    },
    {
      "epoch": 14.777777777777779,
      "grad_norm": 0.10248573124408722,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 14497
    },
    {
      "epoch": 14.778797145769623,
      "grad_norm": 0.062015265226364136,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 14498
    },
    {
      "epoch": 14.779816513761467,
      "grad_norm": 0.037575915455818176,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14499
    },
    {
      "epoch": 14.780835881753314,
      "grad_norm": 0.053300004452466965,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 14500
    },
    {
      "epoch": 14.781855249745158,
      "grad_norm": 0.03241428732872009,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14501
    },
    {
      "epoch": 14.782874617737003,
      "grad_norm": 0.048726074397563934,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 14502
    },
    {
      "epoch": 14.783893985728849,
      "grad_norm": 0.07277625054121017,
      "learning_rate": 0.0005,
      "loss": 0.1879,
      "step": 14503
    },
    {
      "epoch": 14.784913353720693,
      "grad_norm": 0.07766377180814743,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 14504
    },
    {
      "epoch": 14.785932721712538,
      "grad_norm": 0.05072750523686409,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14505
    },
    {
      "epoch": 14.786952089704384,
      "grad_norm": 0.03622569888830185,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14506
    },
    {
      "epoch": 14.787971457696228,
      "grad_norm": 0.055912040174007416,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 14507
    },
    {
      "epoch": 14.788990825688073,
      "grad_norm": 0.07622719556093216,
      "learning_rate": 0.0005,
      "loss": 0.1548,
      "step": 14508
    },
    {
      "epoch": 14.790010193679919,
      "grad_norm": 0.04946954548358917,
      "learning_rate": 0.0005,
      "loss": 0.1533,
      "step": 14509
    },
    {
      "epoch": 14.791029561671763,
      "grad_norm": 0.02888505719602108,
      "learning_rate": 0.0005,
      "loss": 0.1519,
      "step": 14510
    },
    {
      "epoch": 14.792048929663608,
      "grad_norm": 0.05031243711709976,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 14511
    },
    {
      "epoch": 14.793068297655454,
      "grad_norm": 0.018559953197836876,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14512
    },
    {
      "epoch": 14.794087665647298,
      "grad_norm": 0.028497032821178436,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14513
    },
    {
      "epoch": 14.795107033639145,
      "grad_norm": 0.11616333574056625,
      "learning_rate": 0.0005,
      "loss": 0.1553,
      "step": 14514
    },
    {
      "epoch": 14.796126401630989,
      "grad_norm": 0.05584220215678215,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14515
    },
    {
      "epoch": 14.797145769622833,
      "grad_norm": 0.05094444006681442,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14516
    },
    {
      "epoch": 14.79816513761468,
      "grad_norm": 0.03897083178162575,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 14517
    },
    {
      "epoch": 14.799184505606524,
      "grad_norm": 0.07296957820653915,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 14518
    },
    {
      "epoch": 14.800203873598369,
      "grad_norm": 0.08798076957464218,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 14519
    },
    {
      "epoch": 14.801223241590215,
      "grad_norm": 0.07071789354085922,
      "learning_rate": 0.0005,
      "loss": 0.1807,
      "step": 14520
    },
    {
      "epoch": 14.80224260958206,
      "grad_norm": 0.08130542933940887,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14521
    },
    {
      "epoch": 14.803261977573904,
      "grad_norm": 0.06069258227944374,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 14522
    },
    {
      "epoch": 14.80428134556575,
      "grad_norm": 0.018986985087394714,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 14523
    },
    {
      "epoch": 14.805300713557594,
      "grad_norm": 0.04878628998994827,
      "learning_rate": 0.0005,
      "loss": 0.1537,
      "step": 14524
    },
    {
      "epoch": 14.806320081549439,
      "grad_norm": 0.11934499442577362,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14525
    },
    {
      "epoch": 14.807339449541285,
      "grad_norm": 0.04789276048541069,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14526
    },
    {
      "epoch": 14.80835881753313,
      "grad_norm": 0.01619645766913891,
      "learning_rate": 0.0005,
      "loss": 0.1571,
      "step": 14527
    },
    {
      "epoch": 14.809378185524974,
      "grad_norm": 0.08346723765134811,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14528
    },
    {
      "epoch": 14.81039755351682,
      "grad_norm": 0.042430855333805084,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 14529
    },
    {
      "epoch": 14.811416921508664,
      "grad_norm": 0.04105272889137268,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14530
    },
    {
      "epoch": 14.81243628950051,
      "grad_norm": 0.05663666874170303,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14531
    },
    {
      "epoch": 14.813455657492355,
      "grad_norm": 0.09236518293619156,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 14532
    },
    {
      "epoch": 14.8144750254842,
      "grad_norm": 0.05700397118926048,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 14533
    },
    {
      "epoch": 14.815494393476044,
      "grad_norm": 0.12492962181568146,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 14534
    },
    {
      "epoch": 14.81651376146789,
      "grad_norm": 0.01686992682516575,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14535
    },
    {
      "epoch": 14.817533129459735,
      "grad_norm": 0.053628142923116684,
      "learning_rate": 0.0005,
      "loss": 0.1576,
      "step": 14536
    },
    {
      "epoch": 14.81855249745158,
      "grad_norm": 0.03802136704325676,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 14537
    },
    {
      "epoch": 14.819571865443425,
      "grad_norm": 0.156147763133049,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 14538
    },
    {
      "epoch": 14.82059123343527,
      "grad_norm": 0.09567545354366302,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 14539
    },
    {
      "epoch": 14.821610601427116,
      "grad_norm": 0.02629091963171959,
      "learning_rate": 0.0005,
      "loss": 0.1512,
      "step": 14540
    },
    {
      "epoch": 14.82262996941896,
      "grad_norm": 0.029019754379987717,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14541
    },
    {
      "epoch": 14.823649337410805,
      "grad_norm": 0.0414763018488884,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 14542
    },
    {
      "epoch": 14.824668705402651,
      "grad_norm": 0.04772406071424484,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 14543
    },
    {
      "epoch": 14.825688073394495,
      "grad_norm": 0.20437505841255188,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 14544
    },
    {
      "epoch": 14.82670744138634,
      "grad_norm": 0.023445645347237587,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 14545
    },
    {
      "epoch": 14.827726809378186,
      "grad_norm": 0.07502007484436035,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 14546
    },
    {
      "epoch": 14.82874617737003,
      "grad_norm": 0.1509736180305481,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14547
    },
    {
      "epoch": 14.829765545361875,
      "grad_norm": 0.05729227140545845,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14548
    },
    {
      "epoch": 14.830784913353721,
      "grad_norm": 0.0464671328663826,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 14549
    },
    {
      "epoch": 14.831804281345565,
      "grad_norm": 0.027223361656069756,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 14550
    },
    {
      "epoch": 14.83282364933741,
      "grad_norm": 0.01815059222280979,
      "learning_rate": 0.0005,
      "loss": 0.1545,
      "step": 14551
    },
    {
      "epoch": 14.833843017329256,
      "grad_norm": 0.0220443494617939,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 14552
    },
    {
      "epoch": 14.8348623853211,
      "grad_norm": 0.06102045252919197,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14553
    },
    {
      "epoch": 14.835881753312947,
      "grad_norm": 0.06498749554157257,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14554
    },
    {
      "epoch": 14.836901121304791,
      "grad_norm": 0.05698636546730995,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 14555
    },
    {
      "epoch": 14.837920489296636,
      "grad_norm": 0.03391367197036743,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 14556
    },
    {
      "epoch": 14.838939857288482,
      "grad_norm": 0.04433544725179672,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 14557
    },
    {
      "epoch": 14.839959225280326,
      "grad_norm": 0.08502314984798431,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14558
    },
    {
      "epoch": 14.84097859327217,
      "grad_norm": 0.11505099385976791,
      "learning_rate": 0.0005,
      "loss": 0.1807,
      "step": 14559
    },
    {
      "epoch": 14.841997961264017,
      "grad_norm": 0.05250927060842514,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 14560
    },
    {
      "epoch": 14.843017329255861,
      "grad_norm": 0.05224449560046196,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 14561
    },
    {
      "epoch": 14.844036697247706,
      "grad_norm": 0.03862812742590904,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14562
    },
    {
      "epoch": 14.845056065239552,
      "grad_norm": 0.03564310073852539,
      "learning_rate": 0.0005,
      "loss": 0.1807,
      "step": 14563
    },
    {
      "epoch": 14.846075433231396,
      "grad_norm": 0.08822523057460785,
      "learning_rate": 0.0005,
      "loss": 0.1864,
      "step": 14564
    },
    {
      "epoch": 14.84709480122324,
      "grad_norm": 0.0707530677318573,
      "learning_rate": 0.0005,
      "loss": 0.1521,
      "step": 14565
    },
    {
      "epoch": 14.848114169215087,
      "grad_norm": 0.0653708428144455,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 14566
    },
    {
      "epoch": 14.849133537206932,
      "grad_norm": 0.07470874488353729,
      "learning_rate": 0.0005,
      "loss": 0.187,
      "step": 14567
    },
    {
      "epoch": 14.850152905198776,
      "grad_norm": 0.09587109833955765,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 14568
    },
    {
      "epoch": 14.851172273190622,
      "grad_norm": 0.04828604310750961,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 14569
    },
    {
      "epoch": 14.852191641182467,
      "grad_norm": 0.10645662993192673,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 14570
    },
    {
      "epoch": 14.853211009174313,
      "grad_norm": 0.2704530656337738,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 14571
    },
    {
      "epoch": 14.854230377166157,
      "grad_norm": 0.061032239347696304,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14572
    },
    {
      "epoch": 14.855249745158002,
      "grad_norm": 0.09588208049535751,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 14573
    },
    {
      "epoch": 14.856269113149848,
      "grad_norm": 0.04292808473110199,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14574
    },
    {
      "epoch": 14.857288481141692,
      "grad_norm": 0.050723422318696976,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14575
    },
    {
      "epoch": 14.858307849133537,
      "grad_norm": 0.027187226340174675,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 14576
    },
    {
      "epoch": 14.859327217125383,
      "grad_norm": 0.12737491726875305,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 14577
    },
    {
      "epoch": 14.860346585117227,
      "grad_norm": 0.06036558747291565,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14578
    },
    {
      "epoch": 14.861365953109072,
      "grad_norm": 0.07965107262134552,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 14579
    },
    {
      "epoch": 14.862385321100918,
      "grad_norm": 0.03574715927243233,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 14580
    },
    {
      "epoch": 14.863404689092762,
      "grad_norm": 0.0654420554637909,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14581
    },
    {
      "epoch": 14.864424057084607,
      "grad_norm": 0.03581271320581436,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 14582
    },
    {
      "epoch": 14.865443425076453,
      "grad_norm": 0.02266906574368477,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14583
    },
    {
      "epoch": 14.866462793068298,
      "grad_norm": 0.02099005877971649,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 14584
    },
    {
      "epoch": 14.867482161060142,
      "grad_norm": 0.04576236009597778,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 14585
    },
    {
      "epoch": 14.868501529051988,
      "grad_norm": 0.04982933774590492,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 14586
    },
    {
      "epoch": 14.869520897043833,
      "grad_norm": 0.10902754217386246,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 14587
    },
    {
      "epoch": 14.870540265035677,
      "grad_norm": 0.052846409380435944,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 14588
    },
    {
      "epoch": 14.871559633027523,
      "grad_norm": 0.05090761557221413,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14589
    },
    {
      "epoch": 14.872579001019368,
      "grad_norm": 0.08365659415721893,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 14590
    },
    {
      "epoch": 14.873598369011212,
      "grad_norm": 0.10062406212091446,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14591
    },
    {
      "epoch": 14.874617737003058,
      "grad_norm": 0.0506657175719738,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 14592
    },
    {
      "epoch": 14.875637104994903,
      "grad_norm": 0.2023990899324417,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 14593
    },
    {
      "epoch": 14.876656472986749,
      "grad_norm": 0.03530137240886688,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 14594
    },
    {
      "epoch": 14.877675840978593,
      "grad_norm": 0.07942800968885422,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14595
    },
    {
      "epoch": 14.878695208970438,
      "grad_norm": 0.09746459126472473,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 14596
    },
    {
      "epoch": 14.879714576962284,
      "grad_norm": 0.10229393094778061,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14597
    },
    {
      "epoch": 14.880733944954128,
      "grad_norm": 0.05220108851790428,
      "learning_rate": 0.0005,
      "loss": 0.1531,
      "step": 14598
    },
    {
      "epoch": 14.881753312945973,
      "grad_norm": 0.04859702289104462,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 14599
    },
    {
      "epoch": 14.88277268093782,
      "grad_norm": 0.025618156418204308,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14600
    },
    {
      "epoch": 14.883792048929664,
      "grad_norm": 0.05183596536517143,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 14601
    },
    {
      "epoch": 14.884811416921508,
      "grad_norm": 0.10611504316329956,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 14602
    },
    {
      "epoch": 14.885830784913354,
      "grad_norm": 0.0473625622689724,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 14603
    },
    {
      "epoch": 14.886850152905199,
      "grad_norm": 0.09575127810239792,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14604
    },
    {
      "epoch": 14.887869520897043,
      "grad_norm": 0.10835965722799301,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 14605
    },
    {
      "epoch": 14.88888888888889,
      "grad_norm": 0.046795863658189774,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 14606
    },
    {
      "epoch": 14.889908256880734,
      "grad_norm": 0.06420274078845978,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 14607
    },
    {
      "epoch": 14.890927624872578,
      "grad_norm": 0.03507453575730324,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 14608
    },
    {
      "epoch": 14.891946992864424,
      "grad_norm": 0.02265012636780739,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14609
    },
    {
      "epoch": 14.892966360856269,
      "grad_norm": 0.05441626161336899,
      "learning_rate": 0.0005,
      "loss": 0.1807,
      "step": 14610
    },
    {
      "epoch": 14.893985728848115,
      "grad_norm": 0.05778495967388153,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 14611
    },
    {
      "epoch": 14.89500509683996,
      "grad_norm": 0.07800474762916565,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14612
    },
    {
      "epoch": 14.896024464831804,
      "grad_norm": 0.08745071291923523,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 14613
    },
    {
      "epoch": 14.89704383282365,
      "grad_norm": 0.03796936944127083,
      "learning_rate": 0.0005,
      "loss": 0.1852,
      "step": 14614
    },
    {
      "epoch": 14.898063200815495,
      "grad_norm": 0.05438627675175667,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14615
    },
    {
      "epoch": 14.899082568807339,
      "grad_norm": 0.04288053512573242,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 14616
    },
    {
      "epoch": 14.900101936799185,
      "grad_norm": 0.05424455553293228,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 14617
    },
    {
      "epoch": 14.90112130479103,
      "grad_norm": 0.045455802232027054,
      "learning_rate": 0.0005,
      "loss": 0.1588,
      "step": 14618
    },
    {
      "epoch": 14.902140672782874,
      "grad_norm": 0.11518651247024536,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 14619
    },
    {
      "epoch": 14.90316004077472,
      "grad_norm": 0.06125190109014511,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 14620
    },
    {
      "epoch": 14.904179408766565,
      "grad_norm": 0.05813722312450409,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14621
    },
    {
      "epoch": 14.905198776758409,
      "grad_norm": 0.0766209214925766,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 14622
    },
    {
      "epoch": 14.906218144750255,
      "grad_norm": 0.06253080815076828,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14623
    },
    {
      "epoch": 14.9072375127421,
      "grad_norm": 0.05367407947778702,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 14624
    },
    {
      "epoch": 14.908256880733944,
      "grad_norm": 0.7629036903381348,
      "learning_rate": 0.0005,
      "loss": 0.1857,
      "step": 14625
    },
    {
      "epoch": 14.90927624872579,
      "grad_norm": 0.06302172690629959,
      "learning_rate": 0.0005,
      "loss": 0.1893,
      "step": 14626
    },
    {
      "epoch": 14.910295616717635,
      "grad_norm": 0.04042225331068039,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 14627
    },
    {
      "epoch": 14.911314984709481,
      "grad_norm": 0.10389592498540878,
      "learning_rate": 0.0005,
      "loss": 0.1893,
      "step": 14628
    },
    {
      "epoch": 14.912334352701325,
      "grad_norm": 0.07157910615205765,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 14629
    },
    {
      "epoch": 14.91335372069317,
      "grad_norm": 0.07100115716457367,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 14630
    },
    {
      "epoch": 14.914373088685016,
      "grad_norm": 0.11266261339187622,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 14631
    },
    {
      "epoch": 14.91539245667686,
      "grad_norm": 0.0582178570330143,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14632
    },
    {
      "epoch": 14.916411824668705,
      "grad_norm": 0.12869343161582947,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 14633
    },
    {
      "epoch": 14.917431192660551,
      "grad_norm": 0.036288581788539886,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 14634
    },
    {
      "epoch": 14.918450560652396,
      "grad_norm": 0.10737283527851105,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 14635
    },
    {
      "epoch": 14.91946992864424,
      "grad_norm": 0.17440399527549744,
      "learning_rate": 0.0005,
      "loss": 0.1907,
      "step": 14636
    },
    {
      "epoch": 14.920489296636086,
      "grad_norm": 0.08791930228471756,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 14637
    },
    {
      "epoch": 14.92150866462793,
      "grad_norm": 0.05469084158539772,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 14638
    },
    {
      "epoch": 14.922528032619775,
      "grad_norm": 0.12582391500473022,
      "learning_rate": 0.0005,
      "loss": 0.2013,
      "step": 14639
    },
    {
      "epoch": 14.923547400611621,
      "grad_norm": 0.051029667258262634,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 14640
    },
    {
      "epoch": 14.924566768603466,
      "grad_norm": 0.12252239882946014,
      "learning_rate": 0.0005,
      "loss": 0.1925,
      "step": 14641
    },
    {
      "epoch": 14.92558613659531,
      "grad_norm": 0.07369281351566315,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 14642
    },
    {
      "epoch": 14.926605504587156,
      "grad_norm": 0.04998750239610672,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 14643
    },
    {
      "epoch": 14.927624872579,
      "grad_norm": 0.09100467711687088,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 14644
    },
    {
      "epoch": 14.928644240570845,
      "grad_norm": 0.03731618449091911,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14645
    },
    {
      "epoch": 14.929663608562691,
      "grad_norm": 0.025105014443397522,
      "learning_rate": 0.0005,
      "loss": 0.184,
      "step": 14646
    },
    {
      "epoch": 14.930682976554536,
      "grad_norm": 0.037732578814029694,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 14647
    },
    {
      "epoch": 14.93170234454638,
      "grad_norm": 0.06402821838855743,
      "learning_rate": 0.0005,
      "loss": 0.1914,
      "step": 14648
    },
    {
      "epoch": 14.932721712538227,
      "grad_norm": 0.11292798817157745,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14649
    },
    {
      "epoch": 14.933741080530071,
      "grad_norm": 0.10305587202310562,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 14650
    },
    {
      "epoch": 14.934760448521917,
      "grad_norm": 0.04969210550189018,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 14651
    },
    {
      "epoch": 14.935779816513762,
      "grad_norm": 0.04461459070444107,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14652
    },
    {
      "epoch": 14.936799184505606,
      "grad_norm": 0.059665579348802567,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14653
    },
    {
      "epoch": 14.937818552497452,
      "grad_norm": 0.03226087614893913,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14654
    },
    {
      "epoch": 14.938837920489297,
      "grad_norm": 0.02992522157728672,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 14655
    },
    {
      "epoch": 14.939857288481141,
      "grad_norm": 0.08510296046733856,
      "learning_rate": 0.0005,
      "loss": 0.1842,
      "step": 14656
    },
    {
      "epoch": 14.940876656472987,
      "grad_norm": 0.09929462522268295,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 14657
    },
    {
      "epoch": 14.941896024464832,
      "grad_norm": 0.06628613919019699,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14658
    },
    {
      "epoch": 14.942915392456676,
      "grad_norm": 0.07808248698711395,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14659
    },
    {
      "epoch": 14.943934760448522,
      "grad_norm": 0.06632040441036224,
      "learning_rate": 0.0005,
      "loss": 0.186,
      "step": 14660
    },
    {
      "epoch": 14.944954128440367,
      "grad_norm": 0.23997759819030762,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 14661
    },
    {
      "epoch": 14.945973496432211,
      "grad_norm": 0.10924822837114334,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 14662
    },
    {
      "epoch": 14.946992864424058,
      "grad_norm": 0.041668131947517395,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14663
    },
    {
      "epoch": 14.948012232415902,
      "grad_norm": 0.201729416847229,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14664
    },
    {
      "epoch": 14.949031600407746,
      "grad_norm": 0.04669832065701485,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14665
    },
    {
      "epoch": 14.950050968399593,
      "grad_norm": 0.10586843639612198,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14666
    },
    {
      "epoch": 14.951070336391437,
      "grad_norm": 0.12773987650871277,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 14667
    },
    {
      "epoch": 14.952089704383283,
      "grad_norm": 0.15170730650424957,
      "learning_rate": 0.0005,
      "loss": 0.2106,
      "step": 14668
    },
    {
      "epoch": 14.953109072375128,
      "grad_norm": 0.11480884253978729,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 14669
    },
    {
      "epoch": 14.954128440366972,
      "grad_norm": 0.10326860845088959,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 14670
    },
    {
      "epoch": 14.955147808358818,
      "grad_norm": 0.04029030352830887,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 14671
    },
    {
      "epoch": 14.956167176350663,
      "grad_norm": 0.08871889114379883,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 14672
    },
    {
      "epoch": 14.957186544342507,
      "grad_norm": 0.0905161201953888,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 14673
    },
    {
      "epoch": 14.958205912334353,
      "grad_norm": 0.0709415152668953,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14674
    },
    {
      "epoch": 14.959225280326198,
      "grad_norm": 0.11220353096723557,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 14675
    },
    {
      "epoch": 14.960244648318042,
      "grad_norm": 0.09176529943943024,
      "learning_rate": 0.0005,
      "loss": 0.1949,
      "step": 14676
    },
    {
      "epoch": 14.961264016309888,
      "grad_norm": 0.047535236924886703,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14677
    },
    {
      "epoch": 14.962283384301733,
      "grad_norm": 0.07648728787899017,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 14678
    },
    {
      "epoch": 14.963302752293577,
      "grad_norm": 0.12448636442422867,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 14679
    },
    {
      "epoch": 14.964322120285424,
      "grad_norm": 0.09717302769422531,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 14680
    },
    {
      "epoch": 14.965341488277268,
      "grad_norm": 0.057486582547426224,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14681
    },
    {
      "epoch": 14.966360856269112,
      "grad_norm": 0.05888879671692848,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 14682
    },
    {
      "epoch": 14.967380224260959,
      "grad_norm": 0.08857288211584091,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14683
    },
    {
      "epoch": 14.968399592252803,
      "grad_norm": 0.02674587070941925,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14684
    },
    {
      "epoch": 14.96941896024465,
      "grad_norm": 0.029507651925086975,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14685
    },
    {
      "epoch": 14.970438328236494,
      "grad_norm": 0.03809353709220886,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14686
    },
    {
      "epoch": 14.971457696228338,
      "grad_norm": 0.03923097997903824,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 14687
    },
    {
      "epoch": 14.972477064220184,
      "grad_norm": 0.043601516634225845,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14688
    },
    {
      "epoch": 14.973496432212029,
      "grad_norm": 0.03287418559193611,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 14689
    },
    {
      "epoch": 14.974515800203873,
      "grad_norm": 0.06438945233821869,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14690
    },
    {
      "epoch": 14.97553516819572,
      "grad_norm": 0.0514373779296875,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14691
    },
    {
      "epoch": 14.976554536187564,
      "grad_norm": 0.15645770728588104,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 14692
    },
    {
      "epoch": 14.977573904179408,
      "grad_norm": 0.04507726803421974,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14693
    },
    {
      "epoch": 14.978593272171254,
      "grad_norm": 0.03598460927605629,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 14694
    },
    {
      "epoch": 14.979612640163099,
      "grad_norm": 0.024092748761177063,
      "learning_rate": 0.0005,
      "loss": 0.1895,
      "step": 14695
    },
    {
      "epoch": 14.980632008154943,
      "grad_norm": 0.07016045600175858,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 14696
    },
    {
      "epoch": 14.98165137614679,
      "grad_norm": 0.03259760141372681,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14697
    },
    {
      "epoch": 14.982670744138634,
      "grad_norm": 0.060835376381874084,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 14698
    },
    {
      "epoch": 14.983690112130478,
      "grad_norm": 0.06481939554214478,
      "learning_rate": 0.0005,
      "loss": 0.1857,
      "step": 14699
    },
    {
      "epoch": 14.984709480122325,
      "grad_norm": 0.09134262055158615,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 14700
    },
    {
      "epoch": 14.985728848114169,
      "grad_norm": 0.09812667220830917,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14701
    },
    {
      "epoch": 14.986748216106013,
      "grad_norm": 0.12511903047561646,
      "learning_rate": 0.0005,
      "loss": 0.1866,
      "step": 14702
    },
    {
      "epoch": 14.98776758409786,
      "grad_norm": 0.05155521258711815,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 14703
    },
    {
      "epoch": 14.988786952089704,
      "grad_norm": 0.050901319831609726,
      "learning_rate": 0.0005,
      "loss": 0.1552,
      "step": 14704
    },
    {
      "epoch": 14.989806320081549,
      "grad_norm": 0.027842368930578232,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14705
    },
    {
      "epoch": 14.990825688073395,
      "grad_norm": 0.06233202666044235,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 14706
    },
    {
      "epoch": 14.99184505606524,
      "grad_norm": 0.1196294054389,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 14707
    },
    {
      "epoch": 14.992864424057085,
      "grad_norm": 0.11597443372011185,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14708
    },
    {
      "epoch": 14.99388379204893,
      "grad_norm": 0.14030078053474426,
      "learning_rate": 0.0005,
      "loss": 0.1835,
      "step": 14709
    },
    {
      "epoch": 14.994903160040774,
      "grad_norm": 0.09379471838474274,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 14710
    },
    {
      "epoch": 14.99592252803262,
      "grad_norm": 0.04956726357340813,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 14711
    },
    {
      "epoch": 14.996941896024465,
      "grad_norm": 0.07020033150911331,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 14712
    },
    {
      "epoch": 14.99796126401631,
      "grad_norm": 0.06867852061986923,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14713
    },
    {
      "epoch": 14.998980632008156,
      "grad_norm": 0.018122101202607155,
      "learning_rate": 0.0005,
      "loss": 0.1554,
      "step": 14714
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.045257922261953354,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14715
    },
    {
      "epoch": 15.0,
      "eval_-_f1-score": 0.3333333333333333,
      "eval_-_precision": 0.42857142857142855,
      "eval_-_recall": 0.2727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.9691187031907254,
      "eval_<_precision": 0.9674313805817288,
      "eval_<_recall": 0.9708119218910586,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8385744234800838,
      "eval_=_precision": 0.8733624454148472,
      "eval_=_recall": 0.8064516129032258,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9696098562628337,
      "eval_>_precision": 0.9686153846153847,
      "eval_>_recall": 0.9706063720452209,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9651,
      "eval_loss": 0.10465546697378159,
      "eval_macro_avg_f1-score": 0.777659079066744,
      "eval_macro_avg_precision": 0.8094951597958472,
      "eval_macro_avg_recall": 0.7551492948916945,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9264,
      "eval_samples_per_second": 773.609,
      "eval_steps_per_second": 3.094,
      "eval_weighted_avg_f1-score": 0.964721423209796,
      "eval_weighted_avg_precision": 0.964488997057541,
      "eval_weighted_avg_recall": 0.9651,
      "eval_weighted_avg_support": 10000.0,
      "step": 14715
    },
    {
      "epoch": 15.001019367991844,
      "grad_norm": 0.05064713582396507,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 14716
    },
    {
      "epoch": 15.00203873598369,
      "grad_norm": 0.045585546642541885,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14717
    },
    {
      "epoch": 15.003058103975535,
      "grad_norm": 0.03532622009515762,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 14718
    },
    {
      "epoch": 15.00407747196738,
      "grad_norm": 0.04402528703212738,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14719
    },
    {
      "epoch": 15.005096839959226,
      "grad_norm": 0.05314645543694496,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 14720
    },
    {
      "epoch": 15.00611620795107,
      "grad_norm": 0.05039964243769646,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14721
    },
    {
      "epoch": 15.007135575942915,
      "grad_norm": 0.06580154597759247,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 14722
    },
    {
      "epoch": 15.00815494393476,
      "grad_norm": 0.05779791995882988,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14723
    },
    {
      "epoch": 15.009174311926605,
      "grad_norm": 0.03991033136844635,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14724
    },
    {
      "epoch": 15.010193679918451,
      "grad_norm": 0.05181846395134926,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 14725
    },
    {
      "epoch": 15.011213047910296,
      "grad_norm": 0.03907010331749916,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14726
    },
    {
      "epoch": 15.01223241590214,
      "grad_norm": 0.04895170405507088,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 14727
    },
    {
      "epoch": 15.013251783893987,
      "grad_norm": 0.04516519233584404,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 14728
    },
    {
      "epoch": 15.014271151885831,
      "grad_norm": 0.04030047357082367,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 14729
    },
    {
      "epoch": 15.015290519877675,
      "grad_norm": 0.035766977816820145,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 14730
    },
    {
      "epoch": 15.016309887869522,
      "grad_norm": 0.05046490207314491,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 14731
    },
    {
      "epoch": 15.017329255861366,
      "grad_norm": 0.0447486974298954,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 14732
    },
    {
      "epoch": 15.01834862385321,
      "grad_norm": 0.03408486396074295,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14733
    },
    {
      "epoch": 15.019367991845057,
      "grad_norm": 0.05656951293349266,
      "learning_rate": 0.0005,
      "loss": 0.1512,
      "step": 14734
    },
    {
      "epoch": 15.020387359836901,
      "grad_norm": 0.03846725821495056,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14735
    },
    {
      "epoch": 15.021406727828746,
      "grad_norm": 0.14620880782604218,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14736
    },
    {
      "epoch": 15.022426095820592,
      "grad_norm": 0.06574219465255737,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 14737
    },
    {
      "epoch": 15.023445463812436,
      "grad_norm": 0.020013434812426567,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14738
    },
    {
      "epoch": 15.02446483180428,
      "grad_norm": 0.06611575186252594,
      "learning_rate": 0.0005,
      "loss": 0.1521,
      "step": 14739
    },
    {
      "epoch": 15.025484199796127,
      "grad_norm": 0.028426505625247955,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 14740
    },
    {
      "epoch": 15.026503567787971,
      "grad_norm": 0.024624314159154892,
      "learning_rate": 0.0005,
      "loss": 0.1498,
      "step": 14741
    },
    {
      "epoch": 15.027522935779816,
      "grad_norm": 0.07122936844825745,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 14742
    },
    {
      "epoch": 15.028542303771662,
      "grad_norm": 0.016264991834759712,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 14743
    },
    {
      "epoch": 15.029561671763506,
      "grad_norm": 0.03805216774344444,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 14744
    },
    {
      "epoch": 15.030581039755353,
      "grad_norm": 0.1042618453502655,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 14745
    },
    {
      "epoch": 15.031600407747197,
      "grad_norm": 0.015109975822269917,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 14746
    },
    {
      "epoch": 15.032619775739041,
      "grad_norm": 0.037897445261478424,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14747
    },
    {
      "epoch": 15.033639143730888,
      "grad_norm": 0.05041585490107536,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 14748
    },
    {
      "epoch": 15.034658511722732,
      "grad_norm": 0.04054358974099159,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 14749
    },
    {
      "epoch": 15.035677879714576,
      "grad_norm": 0.02692709118127823,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 14750
    },
    {
      "epoch": 15.036697247706423,
      "grad_norm": 0.08270780742168427,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 14751
    },
    {
      "epoch": 15.037716615698267,
      "grad_norm": 0.05285142362117767,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 14752
    },
    {
      "epoch": 15.038735983690112,
      "grad_norm": 0.03622791916131973,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 14753
    },
    {
      "epoch": 15.039755351681958,
      "grad_norm": 0.0645533874630928,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14754
    },
    {
      "epoch": 15.040774719673802,
      "grad_norm": 0.028501221910119057,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 14755
    },
    {
      "epoch": 15.041794087665647,
      "grad_norm": 0.04654781147837639,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 14756
    },
    {
      "epoch": 15.042813455657493,
      "grad_norm": 0.050749387592077255,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 14757
    },
    {
      "epoch": 15.043832823649337,
      "grad_norm": 0.06054900586605072,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 14758
    },
    {
      "epoch": 15.044852191641182,
      "grad_norm": 0.017043601721525192,
      "learning_rate": 0.0005,
      "loss": 0.1469,
      "step": 14759
    },
    {
      "epoch": 15.045871559633028,
      "grad_norm": 0.028111200779676437,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 14760
    },
    {
      "epoch": 15.046890927624872,
      "grad_norm": 0.059088192880153656,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 14761
    },
    {
      "epoch": 15.047910295616717,
      "grad_norm": 0.08647190034389496,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 14762
    },
    {
      "epoch": 15.048929663608563,
      "grad_norm": 0.07311873883008957,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14763
    },
    {
      "epoch": 15.049949031600407,
      "grad_norm": 0.07935735583305359,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14764
    },
    {
      "epoch": 15.050968399592254,
      "grad_norm": 0.08846022188663483,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 14765
    },
    {
      "epoch": 15.051987767584098,
      "grad_norm": 0.10750694572925568,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 14766
    },
    {
      "epoch": 15.053007135575942,
      "grad_norm": 0.06976780295372009,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14767
    },
    {
      "epoch": 15.054026503567789,
      "grad_norm": 0.031051721423864365,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 14768
    },
    {
      "epoch": 15.055045871559633,
      "grad_norm": 0.0381559282541275,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14769
    },
    {
      "epoch": 15.056065239551478,
      "grad_norm": 0.10146699845790863,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 14770
    },
    {
      "epoch": 15.057084607543324,
      "grad_norm": 0.07215635478496552,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 14771
    },
    {
      "epoch": 15.058103975535168,
      "grad_norm": 0.041550833731889725,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14772
    },
    {
      "epoch": 15.059123343527013,
      "grad_norm": 0.08250509947538376,
      "learning_rate": 0.0005,
      "loss": 0.187,
      "step": 14773
    },
    {
      "epoch": 15.060142711518859,
      "grad_norm": 0.04528409242630005,
      "learning_rate": 0.0005,
      "loss": 0.1863,
      "step": 14774
    },
    {
      "epoch": 15.061162079510703,
      "grad_norm": 0.038979656994342804,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14775
    },
    {
      "epoch": 15.062181447502548,
      "grad_norm": 0.03393969684839249,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 14776
    },
    {
      "epoch": 15.063200815494394,
      "grad_norm": 0.022680509835481644,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 14777
    },
    {
      "epoch": 15.064220183486238,
      "grad_norm": 0.05954582616686821,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 14778
    },
    {
      "epoch": 15.065239551478083,
      "grad_norm": 0.043830376118421555,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 14779
    },
    {
      "epoch": 15.066258919469929,
      "grad_norm": 0.02850341610610485,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 14780
    },
    {
      "epoch": 15.067278287461773,
      "grad_norm": 0.03048793226480484,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 14781
    },
    {
      "epoch": 15.068297655453618,
      "grad_norm": 0.03487377613782883,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 14782
    },
    {
      "epoch": 15.069317023445464,
      "grad_norm": 0.09654085338115692,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14783
    },
    {
      "epoch": 15.070336391437309,
      "grad_norm": 0.05628477782011032,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 14784
    },
    {
      "epoch": 15.071355759429155,
      "grad_norm": 0.02767891250550747,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 14785
    },
    {
      "epoch": 15.072375127421,
      "grad_norm": 0.05518712103366852,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 14786
    },
    {
      "epoch": 15.073394495412844,
      "grad_norm": 0.039158646017313004,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 14787
    },
    {
      "epoch": 15.07441386340469,
      "grad_norm": 0.11862687021493912,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 14788
    },
    {
      "epoch": 15.075433231396534,
      "grad_norm": 0.1113625094294548,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 14789
    },
    {
      "epoch": 15.076452599388379,
      "grad_norm": 0.04037000611424446,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14790
    },
    {
      "epoch": 15.077471967380225,
      "grad_norm": 0.05641891434788704,
      "learning_rate": 0.0005,
      "loss": 0.1802,
      "step": 14791
    },
    {
      "epoch": 15.07849133537207,
      "grad_norm": 0.05156809464097023,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 14792
    },
    {
      "epoch": 15.079510703363914,
      "grad_norm": 0.07813636213541031,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 14793
    },
    {
      "epoch": 15.08053007135576,
      "grad_norm": 0.07202114164829254,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 14794
    },
    {
      "epoch": 15.081549439347604,
      "grad_norm": 0.07198482751846313,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 14795
    },
    {
      "epoch": 15.082568807339449,
      "grad_norm": 0.2172205001115799,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14796
    },
    {
      "epoch": 15.083588175331295,
      "grad_norm": 0.09331707656383514,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14797
    },
    {
      "epoch": 15.08460754332314,
      "grad_norm": 0.1335315704345703,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 14798
    },
    {
      "epoch": 15.085626911314984,
      "grad_norm": 0.01952102966606617,
      "learning_rate": 0.0005,
      "loss": 0.1536,
      "step": 14799
    },
    {
      "epoch": 15.08664627930683,
      "grad_norm": 0.038350678980350494,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 14800
    },
    {
      "epoch": 15.087665647298675,
      "grad_norm": 0.04807225987315178,
      "learning_rate": 0.0005,
      "loss": 0.1571,
      "step": 14801
    },
    {
      "epoch": 15.08868501529052,
      "grad_norm": 0.056574784219264984,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 14802
    },
    {
      "epoch": 15.089704383282365,
      "grad_norm": 0.05843380093574524,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 14803
    },
    {
      "epoch": 15.09072375127421,
      "grad_norm": 0.03821048513054848,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14804
    },
    {
      "epoch": 15.091743119266056,
      "grad_norm": 0.018184080719947815,
      "learning_rate": 0.0005,
      "loss": 0.1506,
      "step": 14805
    },
    {
      "epoch": 15.0927624872579,
      "grad_norm": 0.0831625759601593,
      "learning_rate": 0.0005,
      "loss": 0.1915,
      "step": 14806
    },
    {
      "epoch": 15.093781855249745,
      "grad_norm": 0.06572292000055313,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14807
    },
    {
      "epoch": 15.094801223241591,
      "grad_norm": 0.08529780805110931,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 14808
    },
    {
      "epoch": 15.095820591233435,
      "grad_norm": 0.043939802795648575,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14809
    },
    {
      "epoch": 15.09683995922528,
      "grad_norm": 0.06506719440221786,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 14810
    },
    {
      "epoch": 15.097859327217126,
      "grad_norm": 0.07933937013149261,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 14811
    },
    {
      "epoch": 15.09887869520897,
      "grad_norm": 0.04257550090551376,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 14812
    },
    {
      "epoch": 15.099898063200815,
      "grad_norm": 0.052552442997694016,
      "learning_rate": 0.0005,
      "loss": 0.1498,
      "step": 14813
    },
    {
      "epoch": 15.100917431192661,
      "grad_norm": 0.06035710871219635,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 14814
    },
    {
      "epoch": 15.101936799184505,
      "grad_norm": 0.04496975615620613,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 14815
    },
    {
      "epoch": 15.10295616717635,
      "grad_norm": 0.0930258259177208,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 14816
    },
    {
      "epoch": 15.103975535168196,
      "grad_norm": 0.05113089829683304,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14817
    },
    {
      "epoch": 15.10499490316004,
      "grad_norm": 0.05649633705615997,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 14818
    },
    {
      "epoch": 15.106014271151885,
      "grad_norm": 0.03302978724241257,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 14819
    },
    {
      "epoch": 15.107033639143731,
      "grad_norm": 0.06720523536205292,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 14820
    },
    {
      "epoch": 15.108053007135576,
      "grad_norm": 0.06031804904341698,
      "learning_rate": 0.0005,
      "loss": 0.1549,
      "step": 14821
    },
    {
      "epoch": 15.109072375127422,
      "grad_norm": 0.03916550800204277,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 14822
    },
    {
      "epoch": 15.110091743119266,
      "grad_norm": 0.06000638008117676,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14823
    },
    {
      "epoch": 15.11111111111111,
      "grad_norm": 0.051798369735479355,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14824
    },
    {
      "epoch": 15.112130479102957,
      "grad_norm": 0.050378091633319855,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14825
    },
    {
      "epoch": 15.113149847094801,
      "grad_norm": 0.05207051336765289,
      "learning_rate": 0.0005,
      "loss": 0.1891,
      "step": 14826
    },
    {
      "epoch": 15.114169215086646,
      "grad_norm": 0.04093437269330025,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 14827
    },
    {
      "epoch": 15.115188583078492,
      "grad_norm": 0.05571656674146652,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 14828
    },
    {
      "epoch": 15.116207951070336,
      "grad_norm": 0.025206496939063072,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14829
    },
    {
      "epoch": 15.11722731906218,
      "grad_norm": 0.04782017692923546,
      "learning_rate": 0.0005,
      "loss": 0.1548,
      "step": 14830
    },
    {
      "epoch": 15.118246687054027,
      "grad_norm": 0.03208085894584656,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 14831
    },
    {
      "epoch": 15.119266055045872,
      "grad_norm": 0.0389799065887928,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14832
    },
    {
      "epoch": 15.120285423037716,
      "grad_norm": 0.0564817450940609,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 14833
    },
    {
      "epoch": 15.121304791029562,
      "grad_norm": 0.04320232570171356,
      "learning_rate": 0.0005,
      "loss": 0.1549,
      "step": 14834
    },
    {
      "epoch": 15.122324159021407,
      "grad_norm": 0.03815932944417,
      "learning_rate": 0.0005,
      "loss": 0.1566,
      "step": 14835
    },
    {
      "epoch": 15.123343527013251,
      "grad_norm": 0.05235627293586731,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 14836
    },
    {
      "epoch": 15.124362895005097,
      "grad_norm": 0.07569048553705215,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14837
    },
    {
      "epoch": 15.125382262996942,
      "grad_norm": 0.03045322187244892,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14838
    },
    {
      "epoch": 15.126401630988786,
      "grad_norm": 0.0660073310136795,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 14839
    },
    {
      "epoch": 15.127420998980632,
      "grad_norm": 0.05630010366439819,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14840
    },
    {
      "epoch": 15.128440366972477,
      "grad_norm": 0.03932192549109459,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14841
    },
    {
      "epoch": 15.129459734964323,
      "grad_norm": 0.04670662060379982,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14842
    },
    {
      "epoch": 15.130479102956167,
      "grad_norm": 0.04287556931376457,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 14843
    },
    {
      "epoch": 15.131498470948012,
      "grad_norm": 0.041735097765922546,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14844
    },
    {
      "epoch": 15.132517838939858,
      "grad_norm": 0.03934759646654129,
      "learning_rate": 0.0005,
      "loss": 0.1564,
      "step": 14845
    },
    {
      "epoch": 15.133537206931702,
      "grad_norm": 0.046059176325798035,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 14846
    },
    {
      "epoch": 15.134556574923547,
      "grad_norm": 0.07204519957304001,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 14847
    },
    {
      "epoch": 15.135575942915393,
      "grad_norm": 0.0333440788090229,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 14848
    },
    {
      "epoch": 15.136595310907238,
      "grad_norm": 0.03790923207998276,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 14849
    },
    {
      "epoch": 15.137614678899082,
      "grad_norm": 0.03796645998954773,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 14850
    },
    {
      "epoch": 15.138634046890928,
      "grad_norm": 0.05308525636792183,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14851
    },
    {
      "epoch": 15.139653414882773,
      "grad_norm": 0.06114986911416054,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 14852
    },
    {
      "epoch": 15.140672782874617,
      "grad_norm": 0.08007922023534775,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 14853
    },
    {
      "epoch": 15.141692150866463,
      "grad_norm": 0.11027450859546661,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 14854
    },
    {
      "epoch": 15.142711518858308,
      "grad_norm": 0.023840846493840218,
      "learning_rate": 0.0005,
      "loss": 0.1508,
      "step": 14855
    },
    {
      "epoch": 15.143730886850152,
      "grad_norm": 0.03571222350001335,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 14856
    },
    {
      "epoch": 15.144750254841998,
      "grad_norm": 0.11849962919950485,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14857
    },
    {
      "epoch": 15.145769622833843,
      "grad_norm": 0.050866082310676575,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14858
    },
    {
      "epoch": 15.146788990825687,
      "grad_norm": 0.04034087434411049,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14859
    },
    {
      "epoch": 15.147808358817533,
      "grad_norm": 0.03401949629187584,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 14860
    },
    {
      "epoch": 15.148827726809378,
      "grad_norm": 0.08987418562173843,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 14861
    },
    {
      "epoch": 15.149847094801224,
      "grad_norm": 0.027696585282683372,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 14862
    },
    {
      "epoch": 15.150866462793068,
      "grad_norm": 0.06903354078531265,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 14863
    },
    {
      "epoch": 15.151885830784913,
      "grad_norm": 0.061935942620038986,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 14864
    },
    {
      "epoch": 15.15290519877676,
      "grad_norm": 0.0650801807641983,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 14865
    },
    {
      "epoch": 15.153924566768604,
      "grad_norm": 0.04863723739981651,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14866
    },
    {
      "epoch": 15.154943934760448,
      "grad_norm": 0.05679137632250786,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14867
    },
    {
      "epoch": 15.155963302752294,
      "grad_norm": 0.05375528708100319,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14868
    },
    {
      "epoch": 15.156982670744139,
      "grad_norm": 0.055457666516304016,
      "learning_rate": 0.0005,
      "loss": 0.1892,
      "step": 14869
    },
    {
      "epoch": 15.158002038735983,
      "grad_norm": 0.03346480801701546,
      "learning_rate": 0.0005,
      "loss": 0.1852,
      "step": 14870
    },
    {
      "epoch": 15.15902140672783,
      "grad_norm": 0.041619922965765,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 14871
    },
    {
      "epoch": 15.160040774719674,
      "grad_norm": 0.030549461022019386,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 14872
    },
    {
      "epoch": 15.161060142711518,
      "grad_norm": 0.03439028933644295,
      "learning_rate": 0.0005,
      "loss": 0.1565,
      "step": 14873
    },
    {
      "epoch": 15.162079510703364,
      "grad_norm": 0.020966030657291412,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 14874
    },
    {
      "epoch": 15.163098878695209,
      "grad_norm": 0.08069519698619843,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 14875
    },
    {
      "epoch": 15.164118246687053,
      "grad_norm": 0.0782705694437027,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14876
    },
    {
      "epoch": 15.1651376146789,
      "grad_norm": 0.07478977739810944,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 14877
    },
    {
      "epoch": 15.166156982670744,
      "grad_norm": 0.07085635513067245,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14878
    },
    {
      "epoch": 15.16717635066259,
      "grad_norm": 0.05415245145559311,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 14879
    },
    {
      "epoch": 15.168195718654435,
      "grad_norm": 0.05113011598587036,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 14880
    },
    {
      "epoch": 15.169215086646279,
      "grad_norm": 0.017163150012493134,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 14881
    },
    {
      "epoch": 15.170234454638125,
      "grad_norm": 0.060408592224121094,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 14882
    },
    {
      "epoch": 15.17125382262997,
      "grad_norm": 0.07403311133384705,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14883
    },
    {
      "epoch": 15.172273190621814,
      "grad_norm": 0.12042445689439774,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 14884
    },
    {
      "epoch": 15.17329255861366,
      "grad_norm": 0.06550315022468567,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 14885
    },
    {
      "epoch": 15.174311926605505,
      "grad_norm": 0.059278685599565506,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 14886
    },
    {
      "epoch": 15.175331294597349,
      "grad_norm": 0.09558723866939545,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 14887
    },
    {
      "epoch": 15.176350662589195,
      "grad_norm": 0.06049059331417084,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 14888
    },
    {
      "epoch": 15.17737003058104,
      "grad_norm": 0.01588052324950695,
      "learning_rate": 0.0005,
      "loss": 0.155,
      "step": 14889
    },
    {
      "epoch": 15.178389398572884,
      "grad_norm": 0.049272093921899796,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 14890
    },
    {
      "epoch": 15.17940876656473,
      "grad_norm": 0.06255447119474411,
      "learning_rate": 0.0005,
      "loss": 0.1971,
      "step": 14891
    },
    {
      "epoch": 15.180428134556575,
      "grad_norm": 0.049625884741544724,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 14892
    },
    {
      "epoch": 15.18144750254842,
      "grad_norm": 0.041299521923065186,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 14893
    },
    {
      "epoch": 15.182466870540265,
      "grad_norm": 0.03460129722952843,
      "learning_rate": 0.0005,
      "loss": 0.1863,
      "step": 14894
    },
    {
      "epoch": 15.18348623853211,
      "grad_norm": 0.06927084922790527,
      "learning_rate": 0.0005,
      "loss": 0.1514,
      "step": 14895
    },
    {
      "epoch": 15.184505606523954,
      "grad_norm": 0.033350612968206406,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 14896
    },
    {
      "epoch": 15.1855249745158,
      "grad_norm": 0.03134850412607193,
      "learning_rate": 0.0005,
      "loss": 0.1547,
      "step": 14897
    },
    {
      "epoch": 15.186544342507645,
      "grad_norm": 0.033806610852479935,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 14898
    },
    {
      "epoch": 15.187563710499491,
      "grad_norm": 0.06877169758081436,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 14899
    },
    {
      "epoch": 15.188583078491336,
      "grad_norm": 0.06404261291027069,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 14900
    },
    {
      "epoch": 15.18960244648318,
      "grad_norm": 0.06432665139436722,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 14901
    },
    {
      "epoch": 15.190621814475026,
      "grad_norm": 0.02682378515601158,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 14902
    },
    {
      "epoch": 15.19164118246687,
      "grad_norm": 0.01861780695617199,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 14903
    },
    {
      "epoch": 15.192660550458715,
      "grad_norm": 0.053694337606430054,
      "learning_rate": 0.0005,
      "loss": 0.1962,
      "step": 14904
    },
    {
      "epoch": 15.193679918450561,
      "grad_norm": 0.03916756063699722,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 14905
    },
    {
      "epoch": 15.194699286442406,
      "grad_norm": 0.06159898638725281,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 14906
    },
    {
      "epoch": 15.19571865443425,
      "grad_norm": 0.10005289316177368,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 14907
    },
    {
      "epoch": 15.196738022426096,
      "grad_norm": 0.12219376862049103,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14908
    },
    {
      "epoch": 15.19775739041794,
      "grad_norm": 0.020817900076508522,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 14909
    },
    {
      "epoch": 15.198776758409785,
      "grad_norm": 0.03227121755480766,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14910
    },
    {
      "epoch": 15.199796126401631,
      "grad_norm": 0.07899896055459976,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 14911
    },
    {
      "epoch": 15.200815494393476,
      "grad_norm": 0.0778437927365303,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 14912
    },
    {
      "epoch": 15.20183486238532,
      "grad_norm": 0.04003716632723808,
      "learning_rate": 0.0005,
      "loss": 0.1899,
      "step": 14913
    },
    {
      "epoch": 15.202854230377167,
      "grad_norm": 0.013463808223605156,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 14914
    },
    {
      "epoch": 15.203873598369011,
      "grad_norm": 0.029830580577254295,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 14915
    },
    {
      "epoch": 15.204892966360855,
      "grad_norm": 0.07760331779718399,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 14916
    },
    {
      "epoch": 15.205912334352702,
      "grad_norm": 0.03081291727721691,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 14917
    },
    {
      "epoch": 15.206931702344546,
      "grad_norm": 0.10499028116464615,
      "learning_rate": 0.0005,
      "loss": 0.1554,
      "step": 14918
    },
    {
      "epoch": 15.207951070336392,
      "grad_norm": 0.06076180189847946,
      "learning_rate": 0.0005,
      "loss": 0.1526,
      "step": 14919
    },
    {
      "epoch": 15.208970438328237,
      "grad_norm": 0.04530009254813194,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 14920
    },
    {
      "epoch": 15.209989806320081,
      "grad_norm": 0.032455381006002426,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 14921
    },
    {
      "epoch": 15.211009174311927,
      "grad_norm": 0.07653208076953888,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 14922
    },
    {
      "epoch": 15.212028542303772,
      "grad_norm": 0.024259136989712715,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 14923
    },
    {
      "epoch": 15.213047910295616,
      "grad_norm": 0.03034353442490101,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 14924
    },
    {
      "epoch": 15.214067278287462,
      "grad_norm": 0.05543222650885582,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 14925
    },
    {
      "epoch": 15.215086646279307,
      "grad_norm": 0.04219707101583481,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 14926
    },
    {
      "epoch": 15.216106014271151,
      "grad_norm": 0.17158116400241852,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 14927
    },
    {
      "epoch": 15.217125382262997,
      "grad_norm": 0.025349965319037437,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14928
    },
    {
      "epoch": 15.218144750254842,
      "grad_norm": 0.08315876871347427,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 14929
    },
    {
      "epoch": 15.219164118246686,
      "grad_norm": 0.08714619278907776,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 14930
    },
    {
      "epoch": 15.220183486238533,
      "grad_norm": 0.1030825525522232,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 14931
    },
    {
      "epoch": 15.221202854230377,
      "grad_norm": 0.03634754940867424,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 14932
    },
    {
      "epoch": 15.222222222222221,
      "grad_norm": 0.04670528322458267,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 14933
    },
    {
      "epoch": 15.223241590214068,
      "grad_norm": 0.05080598592758179,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 14934
    },
    {
      "epoch": 15.224260958205912,
      "grad_norm": 0.05446023494005203,
      "learning_rate": 0.0005,
      "loss": 0.1605,
      "step": 14935
    },
    {
      "epoch": 15.225280326197758,
      "grad_norm": 0.014138967730104923,
      "learning_rate": 0.0005,
      "loss": 0.1501,
      "step": 14936
    },
    {
      "epoch": 15.226299694189603,
      "grad_norm": 0.09211359173059464,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 14937
    },
    {
      "epoch": 15.227319062181447,
      "grad_norm": 0.03150859475135803,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14938
    },
    {
      "epoch": 15.228338430173293,
      "grad_norm": 0.06287922710180283,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 14939
    },
    {
      "epoch": 15.229357798165138,
      "grad_norm": 0.06612525135278702,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14940
    },
    {
      "epoch": 15.230377166156982,
      "grad_norm": 0.1109532043337822,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 14941
    },
    {
      "epoch": 15.231396534148828,
      "grad_norm": 0.028530830517411232,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 14942
    },
    {
      "epoch": 15.232415902140673,
      "grad_norm": 0.034078530967235565,
      "learning_rate": 0.0005,
      "loss": 0.1525,
      "step": 14943
    },
    {
      "epoch": 15.233435270132517,
      "grad_norm": 0.05896253511309624,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 14944
    },
    {
      "epoch": 15.234454638124364,
      "grad_norm": 0.11815068870782852,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 14945
    },
    {
      "epoch": 15.235474006116208,
      "grad_norm": 0.02313990518450737,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 14946
    },
    {
      "epoch": 15.236493374108052,
      "grad_norm": 0.04307584464550018,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14947
    },
    {
      "epoch": 15.237512742099899,
      "grad_norm": 0.04681393504142761,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 14948
    },
    {
      "epoch": 15.238532110091743,
      "grad_norm": 0.03597867861390114,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14949
    },
    {
      "epoch": 15.239551478083587,
      "grad_norm": 0.04031829163432121,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 14950
    },
    {
      "epoch": 15.240570846075434,
      "grad_norm": 0.03328092023730278,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 14951
    },
    {
      "epoch": 15.241590214067278,
      "grad_norm": 0.0630699023604393,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 14952
    },
    {
      "epoch": 15.242609582059123,
      "grad_norm": 0.03506648540496826,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 14953
    },
    {
      "epoch": 15.243628950050969,
      "grad_norm": 0.05981786921620369,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 14954
    },
    {
      "epoch": 15.244648318042813,
      "grad_norm": 0.11619079113006592,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 14955
    },
    {
      "epoch": 15.24566768603466,
      "grad_norm": 0.02210272289812565,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 14956
    },
    {
      "epoch": 15.246687054026504,
      "grad_norm": 0.04161999002099037,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 14957
    },
    {
      "epoch": 15.247706422018348,
      "grad_norm": 0.052893269807100296,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 14958
    },
    {
      "epoch": 15.248725790010194,
      "grad_norm": 0.06312888115644455,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 14959
    },
    {
      "epoch": 15.249745158002039,
      "grad_norm": 0.1378374993801117,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 14960
    },
    {
      "epoch": 15.250764525993883,
      "grad_norm": 0.03679734840989113,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 14961
    },
    {
      "epoch": 15.25178389398573,
      "grad_norm": 0.045483171939849854,
      "learning_rate": 0.0005,
      "loss": 0.1477,
      "step": 14962
    },
    {
      "epoch": 15.252803261977574,
      "grad_norm": 0.043709609657526016,
      "learning_rate": 0.0005,
      "loss": 0.1907,
      "step": 14963
    },
    {
      "epoch": 15.253822629969418,
      "grad_norm": 0.056768547743558884,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14964
    },
    {
      "epoch": 15.254841997961265,
      "grad_norm": 0.050580430775880814,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14965
    },
    {
      "epoch": 15.255861365953109,
      "grad_norm": 0.040595244616270065,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 14966
    },
    {
      "epoch": 15.256880733944953,
      "grad_norm": 0.06257892400026321,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 14967
    },
    {
      "epoch": 15.2579001019368,
      "grad_norm": 0.05345644801855087,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 14968
    },
    {
      "epoch": 15.258919469928644,
      "grad_norm": 0.04303276166319847,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 14969
    },
    {
      "epoch": 15.259938837920489,
      "grad_norm": 0.09383650124073029,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 14970
    },
    {
      "epoch": 15.260958205912335,
      "grad_norm": 0.1491261124610901,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 14971
    },
    {
      "epoch": 15.26197757390418,
      "grad_norm": 0.055022988468408585,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 14972
    },
    {
      "epoch": 15.262996941896024,
      "grad_norm": 0.04580453038215637,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 14973
    },
    {
      "epoch": 15.26401630988787,
      "grad_norm": 0.19737109541893005,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 14974
    },
    {
      "epoch": 15.265035677879714,
      "grad_norm": 0.11894433200359344,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 14975
    },
    {
      "epoch": 15.26605504587156,
      "grad_norm": 0.0443575493991375,
      "learning_rate": 0.0005,
      "loss": 0.1914,
      "step": 14976
    },
    {
      "epoch": 15.267074413863405,
      "grad_norm": 0.030607061460614204,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 14977
    },
    {
      "epoch": 15.26809378185525,
      "grad_norm": 0.03335093334317207,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 14978
    },
    {
      "epoch": 15.269113149847096,
      "grad_norm": 0.06388252973556519,
      "learning_rate": 0.0005,
      "loss": 0.1873,
      "step": 14979
    },
    {
      "epoch": 15.27013251783894,
      "grad_norm": 0.0664757713675499,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 14980
    },
    {
      "epoch": 15.271151885830784,
      "grad_norm": 0.052474554628133774,
      "learning_rate": 0.0005,
      "loss": 0.1572,
      "step": 14981
    },
    {
      "epoch": 15.27217125382263,
      "grad_norm": 0.07165678590536118,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 14982
    },
    {
      "epoch": 15.273190621814475,
      "grad_norm": 0.02343381755053997,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 14983
    },
    {
      "epoch": 15.27420998980632,
      "grad_norm": 0.028200170025229454,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 14984
    },
    {
      "epoch": 15.275229357798166,
      "grad_norm": 0.021885553374886513,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 14985
    },
    {
      "epoch": 15.27624872579001,
      "grad_norm": 0.030845817178487778,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 14986
    },
    {
      "epoch": 15.277268093781855,
      "grad_norm": 0.12103455513715744,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 14987
    },
    {
      "epoch": 15.2782874617737,
      "grad_norm": 0.03462153673171997,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 14988
    },
    {
      "epoch": 15.279306829765545,
      "grad_norm": 0.022341396659612656,
      "learning_rate": 0.0005,
      "loss": 0.1836,
      "step": 14989
    },
    {
      "epoch": 15.28032619775739,
      "grad_norm": 0.034510932862758636,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 14990
    },
    {
      "epoch": 15.281345565749236,
      "grad_norm": 0.07718528807163239,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 14991
    },
    {
      "epoch": 15.28236493374108,
      "grad_norm": 0.22832384705543518,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 14992
    },
    {
      "epoch": 15.283384301732925,
      "grad_norm": 0.04557238519191742,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 14993
    },
    {
      "epoch": 15.284403669724771,
      "grad_norm": 0.07725794613361359,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 14994
    },
    {
      "epoch": 15.285423037716615,
      "grad_norm": 0.028964925557374954,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 14995
    },
    {
      "epoch": 15.286442405708462,
      "grad_norm": 0.03393237292766571,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 14996
    },
    {
      "epoch": 15.287461773700306,
      "grad_norm": 0.05159904062747955,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 14997
    },
    {
      "epoch": 15.28848114169215,
      "grad_norm": 0.025139952078461647,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 14998
    },
    {
      "epoch": 15.289500509683997,
      "grad_norm": 0.025835543870925903,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 14999
    },
    {
      "epoch": 15.290519877675841,
      "grad_norm": 0.14153209328651428,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15000
    },
    {
      "epoch": 15.291539245667686,
      "grad_norm": 0.05077686533331871,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15001
    },
    {
      "epoch": 15.292558613659532,
      "grad_norm": 0.10023054480552673,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 15002
    },
    {
      "epoch": 15.293577981651376,
      "grad_norm": 0.045545995235443115,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 15003
    },
    {
      "epoch": 15.29459734964322,
      "grad_norm": 0.024677535519003868,
      "learning_rate": 0.0005,
      "loss": 0.1814,
      "step": 15004
    },
    {
      "epoch": 15.295616717635067,
      "grad_norm": 0.09631194919347763,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 15005
    },
    {
      "epoch": 15.296636085626911,
      "grad_norm": 0.07937333732843399,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 15006
    },
    {
      "epoch": 15.297655453618756,
      "grad_norm": 0.10282439738512039,
      "learning_rate": 0.0005,
      "loss": 0.1877,
      "step": 15007
    },
    {
      "epoch": 15.298674821610602,
      "grad_norm": 0.02659459412097931,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 15008
    },
    {
      "epoch": 15.299694189602446,
      "grad_norm": 0.028823211789131165,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15009
    },
    {
      "epoch": 15.30071355759429,
      "grad_norm": 0.0688178539276123,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15010
    },
    {
      "epoch": 15.301732925586137,
      "grad_norm": 0.055842865258455276,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 15011
    },
    {
      "epoch": 15.302752293577981,
      "grad_norm": 0.12078413367271423,
      "learning_rate": 0.0005,
      "loss": 0.1895,
      "step": 15012
    },
    {
      "epoch": 15.303771661569826,
      "grad_norm": 0.0816386416554451,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 15013
    },
    {
      "epoch": 15.304791029561672,
      "grad_norm": 0.10130999982357025,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 15014
    },
    {
      "epoch": 15.305810397553516,
      "grad_norm": 0.057341303676366806,
      "learning_rate": 0.0005,
      "loss": 0.1587,
      "step": 15015
    },
    {
      "epoch": 15.306829765545363,
      "grad_norm": 0.046788450330495834,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15016
    },
    {
      "epoch": 15.307849133537207,
      "grad_norm": 0.04999309033155441,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15017
    },
    {
      "epoch": 15.308868501529052,
      "grad_norm": 0.027481388300657272,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15018
    },
    {
      "epoch": 15.309887869520898,
      "grad_norm": 0.036789365112781525,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 15019
    },
    {
      "epoch": 15.310907237512742,
      "grad_norm": 0.09820055216550827,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 15020
    },
    {
      "epoch": 15.311926605504587,
      "grad_norm": 0.15406350791454315,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 15021
    },
    {
      "epoch": 15.312945973496433,
      "grad_norm": 0.057304177433252335,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 15022
    },
    {
      "epoch": 15.313965341488277,
      "grad_norm": 0.03690946847200394,
      "learning_rate": 0.0005,
      "loss": 0.1553,
      "step": 15023
    },
    {
      "epoch": 15.314984709480122,
      "grad_norm": 0.09822839498519897,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15024
    },
    {
      "epoch": 15.316004077471968,
      "grad_norm": 0.03379747271537781,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15025
    },
    {
      "epoch": 15.317023445463812,
      "grad_norm": 0.06790834665298462,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 15026
    },
    {
      "epoch": 15.318042813455657,
      "grad_norm": 0.09892205148935318,
      "learning_rate": 0.0005,
      "loss": 0.1896,
      "step": 15027
    },
    {
      "epoch": 15.319062181447503,
      "grad_norm": 0.05200960487127304,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15028
    },
    {
      "epoch": 15.320081549439347,
      "grad_norm": 0.03912905976176262,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15029
    },
    {
      "epoch": 15.321100917431192,
      "grad_norm": 0.0678207203745842,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 15030
    },
    {
      "epoch": 15.322120285423038,
      "grad_norm": 0.06082650646567345,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15031
    },
    {
      "epoch": 15.323139653414882,
      "grad_norm": 0.05449717119336128,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15032
    },
    {
      "epoch": 15.324159021406729,
      "grad_norm": 0.0878094807267189,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 15033
    },
    {
      "epoch": 15.325178389398573,
      "grad_norm": 0.23285222053527832,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15034
    },
    {
      "epoch": 15.326197757390418,
      "grad_norm": 0.05831417813897133,
      "learning_rate": 0.0005,
      "loss": 0.1528,
      "step": 15035
    },
    {
      "epoch": 15.327217125382264,
      "grad_norm": 0.027107175439596176,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 15036
    },
    {
      "epoch": 15.328236493374108,
      "grad_norm": 0.04704144969582558,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15037
    },
    {
      "epoch": 15.329255861365953,
      "grad_norm": 0.024876626208424568,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15038
    },
    {
      "epoch": 15.330275229357799,
      "grad_norm": 0.04756269231438637,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 15039
    },
    {
      "epoch": 15.331294597349643,
      "grad_norm": 0.0188289824873209,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 15040
    },
    {
      "epoch": 15.332313965341488,
      "grad_norm": 0.028211310505867004,
      "learning_rate": 0.0005,
      "loss": 0.1506,
      "step": 15041
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.02032267302274704,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 15042
    },
    {
      "epoch": 15.334352701325178,
      "grad_norm": 0.039591602981090546,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15043
    },
    {
      "epoch": 15.335372069317023,
      "grad_norm": 0.04379982128739357,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15044
    },
    {
      "epoch": 15.336391437308869,
      "grad_norm": 0.022879499942064285,
      "learning_rate": 0.0005,
      "loss": 0.1487,
      "step": 15045
    },
    {
      "epoch": 15.337410805300713,
      "grad_norm": 0.07646620273590088,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15046
    },
    {
      "epoch": 15.338430173292558,
      "grad_norm": 0.028022632002830505,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 15047
    },
    {
      "epoch": 15.339449541284404,
      "grad_norm": 0.06244197487831116,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 15048
    },
    {
      "epoch": 15.340468909276249,
      "grad_norm": 0.04079504683613777,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15049
    },
    {
      "epoch": 15.341488277268093,
      "grad_norm": 0.10448461771011353,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 15050
    },
    {
      "epoch": 15.34250764525994,
      "grad_norm": 0.07521438598632812,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 15051
    },
    {
      "epoch": 15.343527013251784,
      "grad_norm": 0.028486618772149086,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15052
    },
    {
      "epoch": 15.34454638124363,
      "grad_norm": 0.0243588425219059,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 15053
    },
    {
      "epoch": 15.345565749235474,
      "grad_norm": 0.16094672679901123,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15054
    },
    {
      "epoch": 15.346585117227319,
      "grad_norm": 0.0700022503733635,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15055
    },
    {
      "epoch": 15.347604485219165,
      "grad_norm": 0.06181211397051811,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15056
    },
    {
      "epoch": 15.34862385321101,
      "grad_norm": 0.061322811990976334,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15057
    },
    {
      "epoch": 15.349643221202854,
      "grad_norm": 0.02852904424071312,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15058
    },
    {
      "epoch": 15.3506625891947,
      "grad_norm": 0.044112350791692734,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 15059
    },
    {
      "epoch": 15.351681957186544,
      "grad_norm": 0.08081959187984467,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 15060
    },
    {
      "epoch": 15.352701325178389,
      "grad_norm": 0.3434354066848755,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 15061
    },
    {
      "epoch": 15.353720693170235,
      "grad_norm": 0.12007442116737366,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15062
    },
    {
      "epoch": 15.35474006116208,
      "grad_norm": 0.04055171459913254,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 15063
    },
    {
      "epoch": 15.355759429153924,
      "grad_norm": 0.07977332174777985,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 15064
    },
    {
      "epoch": 15.35677879714577,
      "grad_norm": 0.044398508965969086,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15065
    },
    {
      "epoch": 15.357798165137615,
      "grad_norm": 0.06504642963409424,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 15066
    },
    {
      "epoch": 15.358817533129459,
      "grad_norm": 0.0783490240573883,
      "learning_rate": 0.0005,
      "loss": 0.1831,
      "step": 15067
    },
    {
      "epoch": 15.359836901121305,
      "grad_norm": 0.056519657373428345,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 15068
    },
    {
      "epoch": 15.36085626911315,
      "grad_norm": 0.08853732794523239,
      "learning_rate": 0.0005,
      "loss": 0.1558,
      "step": 15069
    },
    {
      "epoch": 15.361875637104994,
      "grad_norm": 0.04215838387608528,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 15070
    },
    {
      "epoch": 15.36289500509684,
      "grad_norm": 0.028389906510710716,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 15071
    },
    {
      "epoch": 15.363914373088685,
      "grad_norm": 0.06778012216091156,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 15072
    },
    {
      "epoch": 15.364933741080531,
      "grad_norm": 0.05123309791088104,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15073
    },
    {
      "epoch": 15.365953109072375,
      "grad_norm": 0.07969551533460617,
      "learning_rate": 0.0005,
      "loss": 0.1851,
      "step": 15074
    },
    {
      "epoch": 15.36697247706422,
      "grad_norm": 0.023566128686070442,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 15075
    },
    {
      "epoch": 15.367991845056066,
      "grad_norm": 0.0479469820857048,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 15076
    },
    {
      "epoch": 15.36901121304791,
      "grad_norm": 0.04412161186337471,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 15077
    },
    {
      "epoch": 15.370030581039755,
      "grad_norm": 0.03478454053401947,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 15078
    },
    {
      "epoch": 15.371049949031601,
      "grad_norm": 0.035899996757507324,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15079
    },
    {
      "epoch": 15.372069317023445,
      "grad_norm": 0.04046214371919632,
      "learning_rate": 0.0005,
      "loss": 0.1835,
      "step": 15080
    },
    {
      "epoch": 15.37308868501529,
      "grad_norm": 0.05193636193871498,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15081
    },
    {
      "epoch": 15.374108053007136,
      "grad_norm": 0.026866305619478226,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 15082
    },
    {
      "epoch": 15.37512742099898,
      "grad_norm": 0.07177847623825073,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 15083
    },
    {
      "epoch": 15.376146788990825,
      "grad_norm": 0.1258077770471573,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15084
    },
    {
      "epoch": 15.377166156982671,
      "grad_norm": 0.10695601999759674,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15085
    },
    {
      "epoch": 15.378185524974516,
      "grad_norm": 0.0572567880153656,
      "learning_rate": 0.0005,
      "loss": 0.1973,
      "step": 15086
    },
    {
      "epoch": 15.37920489296636,
      "grad_norm": 0.07098396867513657,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15087
    },
    {
      "epoch": 15.380224260958206,
      "grad_norm": 0.0725119486451149,
      "learning_rate": 0.0005,
      "loss": 0.155,
      "step": 15088
    },
    {
      "epoch": 15.38124362895005,
      "grad_norm": 0.07988118380308151,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15089
    },
    {
      "epoch": 15.382262996941897,
      "grad_norm": 0.08728949725627899,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 15090
    },
    {
      "epoch": 15.383282364933741,
      "grad_norm": 0.036306336522102356,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15091
    },
    {
      "epoch": 15.384301732925586,
      "grad_norm": 0.045928362756967545,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 15092
    },
    {
      "epoch": 15.385321100917432,
      "grad_norm": 0.1511056125164032,
      "learning_rate": 0.0005,
      "loss": 0.1858,
      "step": 15093
    },
    {
      "epoch": 15.386340468909276,
      "grad_norm": 0.025827622041106224,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 15094
    },
    {
      "epoch": 15.38735983690112,
      "grad_norm": 0.047002024948596954,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 15095
    },
    {
      "epoch": 15.388379204892967,
      "grad_norm": 0.02497708983719349,
      "learning_rate": 0.0005,
      "loss": 0.1561,
      "step": 15096
    },
    {
      "epoch": 15.389398572884812,
      "grad_norm": 0.12923415005207062,
      "learning_rate": 0.0005,
      "loss": 0.1929,
      "step": 15097
    },
    {
      "epoch": 15.390417940876656,
      "grad_norm": 0.037752196192741394,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 15098
    },
    {
      "epoch": 15.391437308868502,
      "grad_norm": 0.049179039895534515,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15099
    },
    {
      "epoch": 15.392456676860347,
      "grad_norm": 0.02733975648880005,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15100
    },
    {
      "epoch": 15.393476044852191,
      "grad_norm": 0.08364112675189972,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15101
    },
    {
      "epoch": 15.394495412844037,
      "grad_norm": 0.04356527328491211,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 15102
    },
    {
      "epoch": 15.395514780835882,
      "grad_norm": 0.03704659640789032,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 15103
    },
    {
      "epoch": 15.396534148827726,
      "grad_norm": 0.08548962324857712,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15104
    },
    {
      "epoch": 15.397553516819572,
      "grad_norm": 0.061133112758398056,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15105
    },
    {
      "epoch": 15.398572884811417,
      "grad_norm": 0.060715679079294205,
      "learning_rate": 0.0005,
      "loss": 0.1863,
      "step": 15106
    },
    {
      "epoch": 15.399592252803261,
      "grad_norm": 0.052291031926870346,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15107
    },
    {
      "epoch": 15.400611620795107,
      "grad_norm": 0.06241090968251228,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15108
    },
    {
      "epoch": 15.401630988786952,
      "grad_norm": 0.09553300589323044,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 15109
    },
    {
      "epoch": 15.402650356778796,
      "grad_norm": 0.03421756625175476,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15110
    },
    {
      "epoch": 15.403669724770642,
      "grad_norm": 0.10539982467889786,
      "learning_rate": 0.0005,
      "loss": 0.1858,
      "step": 15111
    },
    {
      "epoch": 15.404689092762487,
      "grad_norm": 0.04174903780221939,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15112
    },
    {
      "epoch": 15.405708460754333,
      "grad_norm": 0.01449904590845108,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 15113
    },
    {
      "epoch": 15.406727828746178,
      "grad_norm": 0.07405371963977814,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 15114
    },
    {
      "epoch": 15.407747196738022,
      "grad_norm": 0.04992029070854187,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 15115
    },
    {
      "epoch": 15.408766564729868,
      "grad_norm": 0.04327264428138733,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 15116
    },
    {
      "epoch": 15.409785932721713,
      "grad_norm": 0.05087142810225487,
      "learning_rate": 0.0005,
      "loss": 0.1505,
      "step": 15117
    },
    {
      "epoch": 15.410805300713557,
      "grad_norm": 0.03168192878365517,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 15118
    },
    {
      "epoch": 15.411824668705403,
      "grad_norm": 0.06378883123397827,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15119
    },
    {
      "epoch": 15.412844036697248,
      "grad_norm": 0.015111611224710941,
      "learning_rate": 0.0005,
      "loss": 0.1548,
      "step": 15120
    },
    {
      "epoch": 15.413863404689092,
      "grad_norm": 0.043200913816690445,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15121
    },
    {
      "epoch": 15.414882772680938,
      "grad_norm": 0.10673219710588455,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15122
    },
    {
      "epoch": 15.415902140672783,
      "grad_norm": 0.039763085544109344,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 15123
    },
    {
      "epoch": 15.416921508664627,
      "grad_norm": 0.04473644495010376,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 15124
    },
    {
      "epoch": 15.417940876656473,
      "grad_norm": 0.07196102291345596,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15125
    },
    {
      "epoch": 15.418960244648318,
      "grad_norm": 0.0824713334441185,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 15126
    },
    {
      "epoch": 15.419979612640162,
      "grad_norm": 0.0437462143599987,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15127
    },
    {
      "epoch": 15.420998980632008,
      "grad_norm": 0.07016009092330933,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15128
    },
    {
      "epoch": 15.422018348623853,
      "grad_norm": 0.03225506842136383,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15129
    },
    {
      "epoch": 15.423037716615699,
      "grad_norm": 0.08126655220985413,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 15130
    },
    {
      "epoch": 15.424057084607544,
      "grad_norm": 0.06721851974725723,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 15131
    },
    {
      "epoch": 15.425076452599388,
      "grad_norm": 0.05717504397034645,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15132
    },
    {
      "epoch": 15.426095820591234,
      "grad_norm": 0.0500032864511013,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15133
    },
    {
      "epoch": 15.427115188583079,
      "grad_norm": 0.03142022714018822,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 15134
    },
    {
      "epoch": 15.428134556574923,
      "grad_norm": 0.07283404469490051,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 15135
    },
    {
      "epoch": 15.42915392456677,
      "grad_norm": 0.044080667197704315,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 15136
    },
    {
      "epoch": 15.430173292558614,
      "grad_norm": 0.04265255481004715,
      "learning_rate": 0.0005,
      "loss": 0.1793,
      "step": 15137
    },
    {
      "epoch": 15.431192660550458,
      "grad_norm": 0.09232093393802643,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15138
    },
    {
      "epoch": 15.432212028542304,
      "grad_norm": 0.03911267966032028,
      "learning_rate": 0.0005,
      "loss": 0.1541,
      "step": 15139
    },
    {
      "epoch": 15.433231396534149,
      "grad_norm": 0.03369063511490822,
      "learning_rate": 0.0005,
      "loss": 0.1793,
      "step": 15140
    },
    {
      "epoch": 15.434250764525993,
      "grad_norm": 0.064873106777668,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 15141
    },
    {
      "epoch": 15.43527013251784,
      "grad_norm": 0.03523221239447594,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15142
    },
    {
      "epoch": 15.436289500509684,
      "grad_norm": 0.06358693540096283,
      "learning_rate": 0.0005,
      "loss": 0.1561,
      "step": 15143
    },
    {
      "epoch": 15.437308868501528,
      "grad_norm": 0.03767477720975876,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15144
    },
    {
      "epoch": 15.438328236493374,
      "grad_norm": 0.07662494480609894,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15145
    },
    {
      "epoch": 15.439347604485219,
      "grad_norm": 0.07538969069719315,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15146
    },
    {
      "epoch": 15.440366972477065,
      "grad_norm": 0.08098562806844711,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 15147
    },
    {
      "epoch": 15.44138634046891,
      "grad_norm": 0.04242762178182602,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 15148
    },
    {
      "epoch": 15.442405708460754,
      "grad_norm": 0.014315609820187092,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 15149
    },
    {
      "epoch": 15.4434250764526,
      "grad_norm": 0.09255184233188629,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 15150
    },
    {
      "epoch": 15.444444444444445,
      "grad_norm": 0.019357528537511826,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 15151
    },
    {
      "epoch": 15.445463812436289,
      "grad_norm": 0.03154753893613815,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15152
    },
    {
      "epoch": 15.446483180428135,
      "grad_norm": 0.024968132376670837,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15153
    },
    {
      "epoch": 15.44750254841998,
      "grad_norm": 0.06009053811430931,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 15154
    },
    {
      "epoch": 15.448521916411824,
      "grad_norm": 0.02094014175236225,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15155
    },
    {
      "epoch": 15.44954128440367,
      "grad_norm": 0.049867894500494,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 15156
    },
    {
      "epoch": 15.450560652395515,
      "grad_norm": 0.04648968577384949,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 15157
    },
    {
      "epoch": 15.45158002038736,
      "grad_norm": 0.0900835394859314,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15158
    },
    {
      "epoch": 15.452599388379205,
      "grad_norm": 0.07753109186887741,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 15159
    },
    {
      "epoch": 15.45361875637105,
      "grad_norm": 0.08289367705583572,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 15160
    },
    {
      "epoch": 15.454638124362894,
      "grad_norm": 0.03477317467331886,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 15161
    },
    {
      "epoch": 15.45565749235474,
      "grad_norm": 0.04675602540373802,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15162
    },
    {
      "epoch": 15.456676860346585,
      "grad_norm": 0.10985318571329117,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15163
    },
    {
      "epoch": 15.45769622833843,
      "grad_norm": 0.03991410508751869,
      "learning_rate": 0.0005,
      "loss": 0.1987,
      "step": 15164
    },
    {
      "epoch": 15.458715596330276,
      "grad_norm": 0.13698209822177887,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15165
    },
    {
      "epoch": 15.45973496432212,
      "grad_norm": 0.05936313420534134,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15166
    },
    {
      "epoch": 15.460754332313964,
      "grad_norm": 0.06031574681401253,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 15167
    },
    {
      "epoch": 15.46177370030581,
      "grad_norm": 0.06884558498859406,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15168
    },
    {
      "epoch": 15.462793068297655,
      "grad_norm": 0.11239506304264069,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15169
    },
    {
      "epoch": 15.463812436289501,
      "grad_norm": 0.02205599471926689,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15170
    },
    {
      "epoch": 15.464831804281346,
      "grad_norm": 0.05163084343075752,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 15171
    },
    {
      "epoch": 15.46585117227319,
      "grad_norm": 0.06429259479045868,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15172
    },
    {
      "epoch": 15.466870540265036,
      "grad_norm": 0.031097818166017532,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15173
    },
    {
      "epoch": 15.46788990825688,
      "grad_norm": 0.06730635464191437,
      "learning_rate": 0.0005,
      "loss": 0.2009,
      "step": 15174
    },
    {
      "epoch": 15.468909276248725,
      "grad_norm": 0.045228131115436554,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15175
    },
    {
      "epoch": 15.469928644240571,
      "grad_norm": 0.04218950867652893,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15176
    },
    {
      "epoch": 15.470948012232416,
      "grad_norm": 0.09237411618232727,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 15177
    },
    {
      "epoch": 15.47196738022426,
      "grad_norm": 0.041627027094364166,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 15178
    },
    {
      "epoch": 15.472986748216107,
      "grad_norm": 0.0667605772614479,
      "learning_rate": 0.0005,
      "loss": 0.1584,
      "step": 15179
    },
    {
      "epoch": 15.474006116207951,
      "grad_norm": 0.02452567033469677,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 15180
    },
    {
      "epoch": 15.475025484199795,
      "grad_norm": 0.04406061768531799,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15181
    },
    {
      "epoch": 15.476044852191642,
      "grad_norm": 0.09145888686180115,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15182
    },
    {
      "epoch": 15.477064220183486,
      "grad_norm": 0.022209184244275093,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 15183
    },
    {
      "epoch": 15.47808358817533,
      "grad_norm": 0.025168608874082565,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 15184
    },
    {
      "epoch": 15.479102956167177,
      "grad_norm": 0.06719226390123367,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 15185
    },
    {
      "epoch": 15.480122324159021,
      "grad_norm": 0.06094086170196533,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15186
    },
    {
      "epoch": 15.481141692150867,
      "grad_norm": 0.022461771965026855,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15187
    },
    {
      "epoch": 15.482161060142712,
      "grad_norm": 0.0648995116353035,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15188
    },
    {
      "epoch": 15.483180428134556,
      "grad_norm": 0.16568900644779205,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 15189
    },
    {
      "epoch": 15.484199796126402,
      "grad_norm": 0.053391095250844955,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15190
    },
    {
      "epoch": 15.485219164118247,
      "grad_norm": 0.033319201320409775,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15191
    },
    {
      "epoch": 15.486238532110091,
      "grad_norm": 0.10827736556529999,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15192
    },
    {
      "epoch": 15.487257900101937,
      "grad_norm": 0.09452562779188156,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15193
    },
    {
      "epoch": 15.488277268093782,
      "grad_norm": 0.07323826104402542,
      "learning_rate": 0.0005,
      "loss": 0.1906,
      "step": 15194
    },
    {
      "epoch": 15.489296636085626,
      "grad_norm": 0.038148198276758194,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 15195
    },
    {
      "epoch": 15.490316004077473,
      "grad_norm": 0.05434035137295723,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 15196
    },
    {
      "epoch": 15.491335372069317,
      "grad_norm": 0.02524588443338871,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 15197
    },
    {
      "epoch": 15.492354740061161,
      "grad_norm": 0.04087051376700401,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15198
    },
    {
      "epoch": 15.493374108053008,
      "grad_norm": 0.0560917966067791,
      "learning_rate": 0.0005,
      "loss": 0.1873,
      "step": 15199
    },
    {
      "epoch": 15.494393476044852,
      "grad_norm": 0.0549912191927433,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15200
    },
    {
      "epoch": 15.495412844036696,
      "grad_norm": 0.048848506063222885,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 15201
    },
    {
      "epoch": 15.496432212028543,
      "grad_norm": 0.07153301686048508,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 15202
    },
    {
      "epoch": 15.497451580020387,
      "grad_norm": 0.0329771563410759,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15203
    },
    {
      "epoch": 15.498470948012232,
      "grad_norm": 0.04953780770301819,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 15204
    },
    {
      "epoch": 15.499490316004078,
      "grad_norm": 0.06369703263044357,
      "learning_rate": 0.0005,
      "loss": 0.1909,
      "step": 15205
    },
    {
      "epoch": 15.500509683995922,
      "grad_norm": 0.05261789634823799,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15206
    },
    {
      "epoch": 15.501529051987767,
      "grad_norm": 0.04362348094582558,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15207
    },
    {
      "epoch": 15.502548419979613,
      "grad_norm": 0.08710431307554245,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 15208
    },
    {
      "epoch": 15.503567787971457,
      "grad_norm": 0.06428240984678268,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 15209
    },
    {
      "epoch": 15.504587155963304,
      "grad_norm": 0.0838879644870758,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 15210
    },
    {
      "epoch": 15.505606523955148,
      "grad_norm": 0.04515792056918144,
      "learning_rate": 0.0005,
      "loss": 0.1869,
      "step": 15211
    },
    {
      "epoch": 15.506625891946992,
      "grad_norm": 0.04227698594331741,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 15212
    },
    {
      "epoch": 15.507645259938839,
      "grad_norm": 0.06538081914186478,
      "learning_rate": 0.0005,
      "loss": 0.1562,
      "step": 15213
    },
    {
      "epoch": 15.508664627930683,
      "grad_norm": 0.11153367906808853,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 15214
    },
    {
      "epoch": 15.509683995922527,
      "grad_norm": 0.019891586154699326,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15215
    },
    {
      "epoch": 15.510703363914374,
      "grad_norm": 0.04715873673558235,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 15216
    },
    {
      "epoch": 15.511722731906218,
      "grad_norm": 0.062038857489824295,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15217
    },
    {
      "epoch": 15.512742099898063,
      "grad_norm": 0.026144029572606087,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15218
    },
    {
      "epoch": 15.513761467889909,
      "grad_norm": 0.04212917014956474,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 15219
    },
    {
      "epoch": 15.514780835881753,
      "grad_norm": 0.045886389911174774,
      "learning_rate": 0.0005,
      "loss": 0.1569,
      "step": 15220
    },
    {
      "epoch": 15.515800203873598,
      "grad_norm": 0.04411041736602783,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 15221
    },
    {
      "epoch": 15.516819571865444,
      "grad_norm": 0.07802978903055191,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 15222
    },
    {
      "epoch": 15.517838939857288,
      "grad_norm": 0.0301223061978817,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 15223
    },
    {
      "epoch": 15.518858307849133,
      "grad_norm": 0.048188578337430954,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15224
    },
    {
      "epoch": 15.519877675840979,
      "grad_norm": 0.02855610102415085,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 15225
    },
    {
      "epoch": 15.520897043832823,
      "grad_norm": 0.07876987010240555,
      "learning_rate": 0.0005,
      "loss": 0.1488,
      "step": 15226
    },
    {
      "epoch": 15.52191641182467,
      "grad_norm": 0.035169817507267,
      "learning_rate": 0.0005,
      "loss": 0.2036,
      "step": 15227
    },
    {
      "epoch": 15.522935779816514,
      "grad_norm": 0.0992712527513504,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 15228
    },
    {
      "epoch": 15.523955147808358,
      "grad_norm": 0.04922891780734062,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15229
    },
    {
      "epoch": 15.524974515800205,
      "grad_norm": 0.10891422629356384,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 15230
    },
    {
      "epoch": 15.525993883792049,
      "grad_norm": 0.05978810042142868,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 15231
    },
    {
      "epoch": 15.527013251783893,
      "grad_norm": 0.13378216326236725,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 15232
    },
    {
      "epoch": 15.52803261977574,
      "grad_norm": 0.04260796308517456,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 15233
    },
    {
      "epoch": 15.529051987767584,
      "grad_norm": 0.026377638801932335,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 15234
    },
    {
      "epoch": 15.530071355759429,
      "grad_norm": 0.03293437138199806,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15235
    },
    {
      "epoch": 15.531090723751275,
      "grad_norm": 0.03691534325480461,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 15236
    },
    {
      "epoch": 15.53211009174312,
      "grad_norm": 0.05443660169839859,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 15237
    },
    {
      "epoch": 15.533129459734964,
      "grad_norm": 0.042593080550432205,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 15238
    },
    {
      "epoch": 15.53414882772681,
      "grad_norm": 0.034652434289455414,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15239
    },
    {
      "epoch": 15.535168195718654,
      "grad_norm": 0.10753893107175827,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 15240
    },
    {
      "epoch": 15.536187563710499,
      "grad_norm": 0.04607955366373062,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 15241
    },
    {
      "epoch": 15.537206931702345,
      "grad_norm": 0.07572059333324432,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15242
    },
    {
      "epoch": 15.53822629969419,
      "grad_norm": 0.0539512075483799,
      "learning_rate": 0.0005,
      "loss": 0.1814,
      "step": 15243
    },
    {
      "epoch": 15.539245667686036,
      "grad_norm": 0.02882874570786953,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15244
    },
    {
      "epoch": 15.54026503567788,
      "grad_norm": 0.04174777492880821,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15245
    },
    {
      "epoch": 15.541284403669724,
      "grad_norm": 0.06227662041783333,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 15246
    },
    {
      "epoch": 15.54230377166157,
      "grad_norm": 0.028129102662205696,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15247
    },
    {
      "epoch": 15.543323139653415,
      "grad_norm": 0.07763305306434631,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 15248
    },
    {
      "epoch": 15.54434250764526,
      "grad_norm": 0.0678398385643959,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 15249
    },
    {
      "epoch": 15.545361875637106,
      "grad_norm": 0.11383190751075745,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15250
    },
    {
      "epoch": 15.54638124362895,
      "grad_norm": 0.07267226278781891,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15251
    },
    {
      "epoch": 15.547400611620795,
      "grad_norm": 0.06109916791319847,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15252
    },
    {
      "epoch": 15.54841997961264,
      "grad_norm": 0.030270766466856003,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15253
    },
    {
      "epoch": 15.549439347604485,
      "grad_norm": 0.03692276030778885,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15254
    },
    {
      "epoch": 15.55045871559633,
      "grad_norm": 0.04426784813404083,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15255
    },
    {
      "epoch": 15.551478083588176,
      "grad_norm": 0.012721382081508636,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15256
    },
    {
      "epoch": 15.55249745158002,
      "grad_norm": 0.08833261579275131,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 15257
    },
    {
      "epoch": 15.553516819571865,
      "grad_norm": 0.061321355402469635,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 15258
    },
    {
      "epoch": 15.554536187563711,
      "grad_norm": 0.04548795521259308,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15259
    },
    {
      "epoch": 15.555555555555555,
      "grad_norm": 0.024703212082386017,
      "learning_rate": 0.0005,
      "loss": 0.1816,
      "step": 15260
    },
    {
      "epoch": 15.5565749235474,
      "grad_norm": 0.07932396233081818,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 15261
    },
    {
      "epoch": 15.557594291539246,
      "grad_norm": 0.021839212626218796,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 15262
    },
    {
      "epoch": 15.55861365953109,
      "grad_norm": 0.03530420362949371,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15263
    },
    {
      "epoch": 15.559633027522935,
      "grad_norm": 0.06881946325302124,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 15264
    },
    {
      "epoch": 15.560652395514781,
      "grad_norm": 0.03989043086767197,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15265
    },
    {
      "epoch": 15.561671763506626,
      "grad_norm": 0.07775823026895523,
      "learning_rate": 0.0005,
      "loss": 0.1571,
      "step": 15266
    },
    {
      "epoch": 15.562691131498472,
      "grad_norm": 0.02621174417436123,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 15267
    },
    {
      "epoch": 15.563710499490316,
      "grad_norm": 0.04157813638448715,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 15268
    },
    {
      "epoch": 15.56472986748216,
      "grad_norm": 0.053853023797273636,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15269
    },
    {
      "epoch": 15.565749235474007,
      "grad_norm": 0.033757757395505905,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15270
    },
    {
      "epoch": 15.566768603465851,
      "grad_norm": 0.08689628541469574,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15271
    },
    {
      "epoch": 15.567787971457696,
      "grad_norm": 0.07687737792730331,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15272
    },
    {
      "epoch": 15.568807339449542,
      "grad_norm": 0.054185111075639725,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15273
    },
    {
      "epoch": 15.569826707441386,
      "grad_norm": 0.015962857753038406,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 15274
    },
    {
      "epoch": 15.57084607543323,
      "grad_norm": 0.04150644317269325,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15275
    },
    {
      "epoch": 15.571865443425077,
      "grad_norm": 0.09802768379449844,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 15276
    },
    {
      "epoch": 15.572884811416921,
      "grad_norm": 0.07419396936893463,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15277
    },
    {
      "epoch": 15.573904179408766,
      "grad_norm": 0.04904322326183319,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 15278
    },
    {
      "epoch": 15.574923547400612,
      "grad_norm": 0.027319947257637978,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 15279
    },
    {
      "epoch": 15.575942915392456,
      "grad_norm": 0.046665094792842865,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 15280
    },
    {
      "epoch": 15.576962283384301,
      "grad_norm": 0.09460385888814926,
      "learning_rate": 0.0005,
      "loss": 0.1838,
      "step": 15281
    },
    {
      "epoch": 15.577981651376147,
      "grad_norm": 0.020222201943397522,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 15282
    },
    {
      "epoch": 15.579001019367992,
      "grad_norm": 0.02498573809862137,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 15283
    },
    {
      "epoch": 15.580020387359838,
      "grad_norm": 0.060735974460840225,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 15284
    },
    {
      "epoch": 15.581039755351682,
      "grad_norm": 0.05233588069677353,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 15285
    },
    {
      "epoch": 15.582059123343527,
      "grad_norm": 0.09659343212842941,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15286
    },
    {
      "epoch": 15.583078491335373,
      "grad_norm": 0.02903147041797638,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 15287
    },
    {
      "epoch": 15.584097859327217,
      "grad_norm": 0.054991982877254486,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 15288
    },
    {
      "epoch": 15.585117227319062,
      "grad_norm": 0.12158156931400299,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 15289
    },
    {
      "epoch": 15.586136595310908,
      "grad_norm": 0.04119093716144562,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 15290
    },
    {
      "epoch": 15.587155963302752,
      "grad_norm": 0.15508630871772766,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15291
    },
    {
      "epoch": 15.588175331294597,
      "grad_norm": 0.07304036617279053,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 15292
    },
    {
      "epoch": 15.589194699286443,
      "grad_norm": 0.037212539464235306,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15293
    },
    {
      "epoch": 15.590214067278287,
      "grad_norm": 0.03119097277522087,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15294
    },
    {
      "epoch": 15.591233435270132,
      "grad_norm": 0.03173352777957916,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15295
    },
    {
      "epoch": 15.592252803261978,
      "grad_norm": 0.0471416674554348,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 15296
    },
    {
      "epoch": 15.593272171253822,
      "grad_norm": 0.04418833181262016,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 15297
    },
    {
      "epoch": 15.594291539245667,
      "grad_norm": 0.02316444180905819,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 15298
    },
    {
      "epoch": 15.595310907237513,
      "grad_norm": 0.11333014070987701,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 15299
    },
    {
      "epoch": 15.596330275229358,
      "grad_norm": 0.04706785827875137,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 15300
    },
    {
      "epoch": 15.597349643221204,
      "grad_norm": 0.043318115174770355,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15301
    },
    {
      "epoch": 15.598369011213048,
      "grad_norm": 0.08391997218132019,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 15302
    },
    {
      "epoch": 15.599388379204893,
      "grad_norm": 0.051058199256658554,
      "learning_rate": 0.0005,
      "loss": 0.1553,
      "step": 15303
    },
    {
      "epoch": 15.600407747196739,
      "grad_norm": 0.13374273478984833,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 15304
    },
    {
      "epoch": 15.601427115188583,
      "grad_norm": 0.1099301427602768,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 15305
    },
    {
      "epoch": 15.602446483180428,
      "grad_norm": 0.07237705588340759,
      "learning_rate": 0.0005,
      "loss": 0.1587,
      "step": 15306
    },
    {
      "epoch": 15.603465851172274,
      "grad_norm": 0.055105406790971756,
      "learning_rate": 0.0005,
      "loss": 0.1481,
      "step": 15307
    },
    {
      "epoch": 15.604485219164118,
      "grad_norm": 0.030033990740776062,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15308
    },
    {
      "epoch": 15.605504587155963,
      "grad_norm": 0.03600887581706047,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 15309
    },
    {
      "epoch": 15.606523955147809,
      "grad_norm": 0.13437093794345856,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 15310
    },
    {
      "epoch": 15.607543323139653,
      "grad_norm": 0.14368341863155365,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 15311
    },
    {
      "epoch": 15.608562691131498,
      "grad_norm": 0.02125277929008007,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15312
    },
    {
      "epoch": 15.609582059123344,
      "grad_norm": 0.029391657561063766,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 15313
    },
    {
      "epoch": 15.610601427115188,
      "grad_norm": 0.03898094221949577,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 15314
    },
    {
      "epoch": 15.611620795107033,
      "grad_norm": 0.04887431859970093,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 15315
    },
    {
      "epoch": 15.61264016309888,
      "grad_norm": 0.057359762489795685,
      "learning_rate": 0.0005,
      "loss": 0.1871,
      "step": 15316
    },
    {
      "epoch": 15.613659531090724,
      "grad_norm": 0.038171105086803436,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 15317
    },
    {
      "epoch": 15.614678899082568,
      "grad_norm": 0.03416512906551361,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 15318
    },
    {
      "epoch": 15.615698267074414,
      "grad_norm": 0.1014716625213623,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15319
    },
    {
      "epoch": 15.616717635066259,
      "grad_norm": 0.026999961584806442,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 15320
    },
    {
      "epoch": 15.617737003058103,
      "grad_norm": 0.05016074329614639,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15321
    },
    {
      "epoch": 15.61875637104995,
      "grad_norm": 0.06444845348596573,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15322
    },
    {
      "epoch": 15.619775739041794,
      "grad_norm": 0.13524958491325378,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 15323
    },
    {
      "epoch": 15.62079510703364,
      "grad_norm": 0.08699830621480942,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 15324
    },
    {
      "epoch": 15.621814475025484,
      "grad_norm": 0.05415909364819527,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 15325
    },
    {
      "epoch": 15.622833843017329,
      "grad_norm": 0.08337925374507904,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15326
    },
    {
      "epoch": 15.623853211009175,
      "grad_norm": 0.03822389617562294,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 15327
    },
    {
      "epoch": 15.62487257900102,
      "grad_norm": 0.021897537633776665,
      "learning_rate": 0.0005,
      "loss": 0.1793,
      "step": 15328
    },
    {
      "epoch": 15.625891946992864,
      "grad_norm": 0.03184192255139351,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15329
    },
    {
      "epoch": 15.62691131498471,
      "grad_norm": 0.07520946115255356,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 15330
    },
    {
      "epoch": 15.627930682976555,
      "grad_norm": 0.0417599231004715,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 15331
    },
    {
      "epoch": 15.628950050968399,
      "grad_norm": 0.07304990291595459,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 15332
    },
    {
      "epoch": 15.629969418960245,
      "grad_norm": 0.030068153515458107,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 15333
    },
    {
      "epoch": 15.63098878695209,
      "grad_norm": 0.05475393682718277,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 15334
    },
    {
      "epoch": 15.632008154943934,
      "grad_norm": 0.0506863035261631,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 15335
    },
    {
      "epoch": 15.63302752293578,
      "grad_norm": 0.08084789663553238,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 15336
    },
    {
      "epoch": 15.634046890927625,
      "grad_norm": 0.07347968965768814,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15337
    },
    {
      "epoch": 15.635066258919469,
      "grad_norm": 0.05140439793467522,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 15338
    },
    {
      "epoch": 15.636085626911315,
      "grad_norm": 0.0187205970287323,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15339
    },
    {
      "epoch": 15.63710499490316,
      "grad_norm": 0.022895406931638718,
      "learning_rate": 0.0005,
      "loss": 0.1537,
      "step": 15340
    },
    {
      "epoch": 15.638124362895006,
      "grad_norm": 0.04142259433865547,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15341
    },
    {
      "epoch": 15.63914373088685,
      "grad_norm": 0.0419553741812706,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 15342
    },
    {
      "epoch": 15.640163098878695,
      "grad_norm": 0.08229280263185501,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 15343
    },
    {
      "epoch": 15.641182466870541,
      "grad_norm": 0.06746245920658112,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 15344
    },
    {
      "epoch": 15.642201834862385,
      "grad_norm": 0.03239693492650986,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15345
    },
    {
      "epoch": 15.64322120285423,
      "grad_norm": 0.020326873287558556,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 15346
    },
    {
      "epoch": 15.644240570846076,
      "grad_norm": 0.022347578778862953,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15347
    },
    {
      "epoch": 15.64525993883792,
      "grad_norm": 0.04755670949816704,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 15348
    },
    {
      "epoch": 15.646279306829765,
      "grad_norm": 0.030650248751044273,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 15349
    },
    {
      "epoch": 15.647298674821611,
      "grad_norm": 0.054556600749492645,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15350
    },
    {
      "epoch": 15.648318042813456,
      "grad_norm": 0.03913316875696182,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15351
    },
    {
      "epoch": 15.6493374108053,
      "grad_norm": 0.1442107856273651,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15352
    },
    {
      "epoch": 15.650356778797146,
      "grad_norm": 0.054625824093818665,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 15353
    },
    {
      "epoch": 15.65137614678899,
      "grad_norm": 0.12132087349891663,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15354
    },
    {
      "epoch": 15.652395514780835,
      "grad_norm": 0.04132246971130371,
      "learning_rate": 0.0005,
      "loss": 0.1541,
      "step": 15355
    },
    {
      "epoch": 15.653414882772681,
      "grad_norm": 0.04361924156546593,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 15356
    },
    {
      "epoch": 15.654434250764526,
      "grad_norm": 0.09610582143068314,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 15357
    },
    {
      "epoch": 15.655453618756372,
      "grad_norm": 0.06335050612688065,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15358
    },
    {
      "epoch": 15.656472986748216,
      "grad_norm": 0.08335823565721512,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15359
    },
    {
      "epoch": 15.65749235474006,
      "grad_norm": 0.07097843289375305,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 15360
    },
    {
      "epoch": 15.658511722731905,
      "grad_norm": 0.07706709951162338,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 15361
    },
    {
      "epoch": 15.659531090723751,
      "grad_norm": 0.19011174142360687,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 15362
    },
    {
      "epoch": 15.660550458715596,
      "grad_norm": 0.029530897736549377,
      "learning_rate": 0.0005,
      "loss": 0.1494,
      "step": 15363
    },
    {
      "epoch": 15.661569826707442,
      "grad_norm": 0.042946040630340576,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 15364
    },
    {
      "epoch": 15.662589194699287,
      "grad_norm": 0.048750948160886765,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 15365
    },
    {
      "epoch": 15.663608562691131,
      "grad_norm": 0.07873424142599106,
      "learning_rate": 0.0005,
      "loss": 0.157,
      "step": 15366
    },
    {
      "epoch": 15.664627930682977,
      "grad_norm": 0.04800928756594658,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 15367
    },
    {
      "epoch": 15.665647298674822,
      "grad_norm": 0.029501015320420265,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 15368
    },
    {
      "epoch": 15.666666666666666,
      "grad_norm": 0.02848769910633564,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 15369
    },
    {
      "epoch": 15.667686034658512,
      "grad_norm": 0.04930414259433746,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15370
    },
    {
      "epoch": 15.668705402650357,
      "grad_norm": 0.07040256261825562,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15371
    },
    {
      "epoch": 15.669724770642201,
      "grad_norm": 0.05200943350791931,
      "learning_rate": 0.0005,
      "loss": 0.1913,
      "step": 15372
    },
    {
      "epoch": 15.670744138634047,
      "grad_norm": 0.020190920680761337,
      "learning_rate": 0.0005,
      "loss": 0.1555,
      "step": 15373
    },
    {
      "epoch": 15.671763506625892,
      "grad_norm": 0.030711881816387177,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 15374
    },
    {
      "epoch": 15.672782874617736,
      "grad_norm": 0.23963475227355957,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15375
    },
    {
      "epoch": 15.673802242609582,
      "grad_norm": 0.023072458803653717,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 15376
    },
    {
      "epoch": 15.674821610601427,
      "grad_norm": 0.05797029659152031,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 15377
    },
    {
      "epoch": 15.675840978593271,
      "grad_norm": 0.06210336089134216,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 15378
    },
    {
      "epoch": 15.676860346585118,
      "grad_norm": 0.03518747538328171,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15379
    },
    {
      "epoch": 15.677879714576962,
      "grad_norm": 0.08800893276929855,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15380
    },
    {
      "epoch": 15.678899082568808,
      "grad_norm": 0.08658435195684433,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 15381
    },
    {
      "epoch": 15.679918450560653,
      "grad_norm": 0.05413882061839104,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 15382
    },
    {
      "epoch": 15.680937818552497,
      "grad_norm": 0.09134598076343536,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 15383
    },
    {
      "epoch": 15.681957186544343,
      "grad_norm": 0.07902702689170837,
      "learning_rate": 0.0005,
      "loss": 0.1904,
      "step": 15384
    },
    {
      "epoch": 15.682976554536188,
      "grad_norm": 0.027394181117415428,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15385
    },
    {
      "epoch": 15.683995922528032,
      "grad_norm": 0.03697017952799797,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 15386
    },
    {
      "epoch": 15.685015290519878,
      "grad_norm": 0.024771634489297867,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 15387
    },
    {
      "epoch": 15.686034658511723,
      "grad_norm": 0.035100001841783524,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 15388
    },
    {
      "epoch": 15.687054026503567,
      "grad_norm": 0.08590728044509888,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 15389
    },
    {
      "epoch": 15.688073394495413,
      "grad_norm": 0.045136209577322006,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 15390
    },
    {
      "epoch": 15.689092762487258,
      "grad_norm": 0.04181475192308426,
      "learning_rate": 0.0005,
      "loss": 0.1866,
      "step": 15391
    },
    {
      "epoch": 15.690112130479102,
      "grad_norm": 0.05918329581618309,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 15392
    },
    {
      "epoch": 15.691131498470948,
      "grad_norm": 0.19072166085243225,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 15393
    },
    {
      "epoch": 15.692150866462793,
      "grad_norm": 0.051929183304309845,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15394
    },
    {
      "epoch": 15.693170234454637,
      "grad_norm": 0.048662129789590836,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15395
    },
    {
      "epoch": 15.694189602446484,
      "grad_norm": 0.03776722773909569,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 15396
    },
    {
      "epoch": 15.695208970438328,
      "grad_norm": 0.08014104515314102,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15397
    },
    {
      "epoch": 15.696228338430174,
      "grad_norm": 0.05407731235027313,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15398
    },
    {
      "epoch": 15.697247706422019,
      "grad_norm": 0.05789804086089134,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15399
    },
    {
      "epoch": 15.698267074413863,
      "grad_norm": 0.024417543783783913,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 15400
    },
    {
      "epoch": 15.69928644240571,
      "grad_norm": 0.0943375676870346,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 15401
    },
    {
      "epoch": 15.700305810397554,
      "grad_norm": 0.05717102810740471,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15402
    },
    {
      "epoch": 15.701325178389398,
      "grad_norm": 0.06135547533631325,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 15403
    },
    {
      "epoch": 15.702344546381244,
      "grad_norm": 0.04532572999596596,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 15404
    },
    {
      "epoch": 15.703363914373089,
      "grad_norm": 0.04257511720061302,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 15405
    },
    {
      "epoch": 15.704383282364933,
      "grad_norm": 0.05401389300823212,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 15406
    },
    {
      "epoch": 15.70540265035678,
      "grad_norm": 0.09685871005058289,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 15407
    },
    {
      "epoch": 15.706422018348624,
      "grad_norm": 0.0556446798145771,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 15408
    },
    {
      "epoch": 15.707441386340468,
      "grad_norm": 0.07241256535053253,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 15409
    },
    {
      "epoch": 15.708460754332314,
      "grad_norm": 0.1123688742518425,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 15410
    },
    {
      "epoch": 15.709480122324159,
      "grad_norm": 0.01191751379519701,
      "learning_rate": 0.0005,
      "loss": 0.1492,
      "step": 15411
    },
    {
      "epoch": 15.710499490316003,
      "grad_norm": 0.05495940148830414,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 15412
    },
    {
      "epoch": 15.71151885830785,
      "grad_norm": 0.1309986561536789,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 15413
    },
    {
      "epoch": 15.712538226299694,
      "grad_norm": 0.03177309036254883,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 15414
    },
    {
      "epoch": 15.713557594291538,
      "grad_norm": 0.049632325768470764,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15415
    },
    {
      "epoch": 15.714576962283385,
      "grad_norm": 0.015530986711382866,
      "learning_rate": 0.0005,
      "loss": 0.1538,
      "step": 15416
    },
    {
      "epoch": 15.715596330275229,
      "grad_norm": 0.03436606377363205,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 15417
    },
    {
      "epoch": 15.716615698267073,
      "grad_norm": 0.09742438793182373,
      "learning_rate": 0.0005,
      "loss": 0.184,
      "step": 15418
    },
    {
      "epoch": 15.71763506625892,
      "grad_norm": 0.034172531217336655,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15419
    },
    {
      "epoch": 15.718654434250764,
      "grad_norm": 0.07188228517770767,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 15420
    },
    {
      "epoch": 15.71967380224261,
      "grad_norm": 0.051134902983903885,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 15421
    },
    {
      "epoch": 15.720693170234455,
      "grad_norm": 0.11632902920246124,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15422
    },
    {
      "epoch": 15.7217125382263,
      "grad_norm": 0.02954767644405365,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 15423
    },
    {
      "epoch": 15.722731906218145,
      "grad_norm": 0.04675448313355446,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 15424
    },
    {
      "epoch": 15.72375127420999,
      "grad_norm": 0.034028422087430954,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15425
    },
    {
      "epoch": 15.724770642201834,
      "grad_norm": 0.047840118408203125,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15426
    },
    {
      "epoch": 15.72579001019368,
      "grad_norm": 0.03809051215648651,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15427
    },
    {
      "epoch": 15.726809378185525,
      "grad_norm": 0.08233156055212021,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15428
    },
    {
      "epoch": 15.72782874617737,
      "grad_norm": 0.041442763060331345,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 15429
    },
    {
      "epoch": 15.728848114169216,
      "grad_norm": 0.06631877273321152,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15430
    },
    {
      "epoch": 15.72986748216106,
      "grad_norm": 0.0621110238134861,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15431
    },
    {
      "epoch": 15.730886850152904,
      "grad_norm": 0.09154821187257767,
      "learning_rate": 0.0005,
      "loss": 0.1949,
      "step": 15432
    },
    {
      "epoch": 15.73190621814475,
      "grad_norm": 0.1022496148943901,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 15433
    },
    {
      "epoch": 15.732925586136595,
      "grad_norm": 0.07327978312969208,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 15434
    },
    {
      "epoch": 15.73394495412844,
      "grad_norm": 0.02025655098259449,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15435
    },
    {
      "epoch": 15.734964322120286,
      "grad_norm": 0.024841560050845146,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 15436
    },
    {
      "epoch": 15.73598369011213,
      "grad_norm": 0.030186817049980164,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 15437
    },
    {
      "epoch": 15.737003058103976,
      "grad_norm": 0.03554795682430267,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15438
    },
    {
      "epoch": 15.73802242609582,
      "grad_norm": 0.03703691437840462,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 15439
    },
    {
      "epoch": 15.739041794087665,
      "grad_norm": 0.04098360612988472,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15440
    },
    {
      "epoch": 15.740061162079511,
      "grad_norm": 0.0376463383436203,
      "learning_rate": 0.0005,
      "loss": 0.1853,
      "step": 15441
    },
    {
      "epoch": 15.741080530071356,
      "grad_norm": 0.07125774770975113,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 15442
    },
    {
      "epoch": 15.7420998980632,
      "grad_norm": 0.0740673691034317,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 15443
    },
    {
      "epoch": 15.743119266055047,
      "grad_norm": 0.05270605534315109,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 15444
    },
    {
      "epoch": 15.744138634046891,
      "grad_norm": 0.06413432955741882,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15445
    },
    {
      "epoch": 15.745158002038735,
      "grad_norm": 0.02946353890001774,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15446
    },
    {
      "epoch": 15.746177370030582,
      "grad_norm": 0.05173316225409508,
      "learning_rate": 0.0005,
      "loss": 0.1571,
      "step": 15447
    },
    {
      "epoch": 15.747196738022426,
      "grad_norm": 0.02516462840139866,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15448
    },
    {
      "epoch": 15.74821610601427,
      "grad_norm": 0.03445616364479065,
      "learning_rate": 0.0005,
      "loss": 0.1903,
      "step": 15449
    },
    {
      "epoch": 15.749235474006117,
      "grad_norm": 0.05283051356673241,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 15450
    },
    {
      "epoch": 15.750254841997961,
      "grad_norm": 0.026619451120495796,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 15451
    },
    {
      "epoch": 15.751274209989806,
      "grad_norm": 0.12288815528154373,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15452
    },
    {
      "epoch": 15.752293577981652,
      "grad_norm": 0.03416195884346962,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15453
    },
    {
      "epoch": 15.753312945973496,
      "grad_norm": 0.07775433361530304,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 15454
    },
    {
      "epoch": 15.754332313965342,
      "grad_norm": 0.03543269634246826,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15455
    },
    {
      "epoch": 15.755351681957187,
      "grad_norm": 0.04051773622632027,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 15456
    },
    {
      "epoch": 15.756371049949031,
      "grad_norm": 0.04480139911174774,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15457
    },
    {
      "epoch": 15.757390417940877,
      "grad_norm": 0.12061971426010132,
      "learning_rate": 0.0005,
      "loss": 0.1923,
      "step": 15458
    },
    {
      "epoch": 15.758409785932722,
      "grad_norm": 0.044754307717084885,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 15459
    },
    {
      "epoch": 15.759429153924566,
      "grad_norm": 0.02964220941066742,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 15460
    },
    {
      "epoch": 15.760448521916413,
      "grad_norm": 0.05966302752494812,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15461
    },
    {
      "epoch": 15.761467889908257,
      "grad_norm": 0.15930762887001038,
      "learning_rate": 0.0005,
      "loss": 0.1652,
      "step": 15462
    },
    {
      "epoch": 15.762487257900101,
      "grad_norm": 0.03235556185245514,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15463
    },
    {
      "epoch": 15.763506625891948,
      "grad_norm": 0.0522553026676178,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 15464
    },
    {
      "epoch": 15.764525993883792,
      "grad_norm": 0.020275838673114777,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 15465
    },
    {
      "epoch": 15.765545361875636,
      "grad_norm": 0.04487679526209831,
      "learning_rate": 0.0005,
      "loss": 0.1519,
      "step": 15466
    },
    {
      "epoch": 15.766564729867483,
      "grad_norm": 0.13865652680397034,
      "learning_rate": 0.0005,
      "loss": 0.1881,
      "step": 15467
    },
    {
      "epoch": 15.767584097859327,
      "grad_norm": 0.1263234168291092,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 15468
    },
    {
      "epoch": 15.768603465851172,
      "grad_norm": 0.049462299793958664,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 15469
    },
    {
      "epoch": 15.769622833843018,
      "grad_norm": 0.0567157082259655,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 15470
    },
    {
      "epoch": 15.770642201834862,
      "grad_norm": 0.03908339887857437,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 15471
    },
    {
      "epoch": 15.771661569826707,
      "grad_norm": 0.08780694752931595,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15472
    },
    {
      "epoch": 15.772680937818553,
      "grad_norm": 0.04210621491074562,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 15473
    },
    {
      "epoch": 15.773700305810397,
      "grad_norm": 0.033279191702604294,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 15474
    },
    {
      "epoch": 15.774719673802242,
      "grad_norm": 0.05176020413637161,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 15475
    },
    {
      "epoch": 15.775739041794088,
      "grad_norm": 0.03719943016767502,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 15476
    },
    {
      "epoch": 15.776758409785932,
      "grad_norm": 0.05409443750977516,
      "learning_rate": 0.0005,
      "loss": 0.1958,
      "step": 15477
    },
    {
      "epoch": 15.777777777777779,
      "grad_norm": 0.018503133207559586,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 15478
    },
    {
      "epoch": 15.778797145769623,
      "grad_norm": 0.10457582771778107,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15479
    },
    {
      "epoch": 15.779816513761467,
      "grad_norm": 0.06643547862768173,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 15480
    },
    {
      "epoch": 15.780835881753314,
      "grad_norm": 0.06387747824192047,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 15481
    },
    {
      "epoch": 15.781855249745158,
      "grad_norm": 0.04143039509654045,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15482
    },
    {
      "epoch": 15.782874617737003,
      "grad_norm": 0.10052445530891418,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 15483
    },
    {
      "epoch": 15.783893985728849,
      "grad_norm": 0.06647632271051407,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 15484
    },
    {
      "epoch": 15.784913353720693,
      "grad_norm": 0.05038675665855408,
      "learning_rate": 0.0005,
      "loss": 0.1952,
      "step": 15485
    },
    {
      "epoch": 15.785932721712538,
      "grad_norm": 0.026735255494713783,
      "learning_rate": 0.0005,
      "loss": 0.1548,
      "step": 15486
    },
    {
      "epoch": 15.786952089704384,
      "grad_norm": 0.06465214490890503,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15487
    },
    {
      "epoch": 15.787971457696228,
      "grad_norm": 0.026814334094524384,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15488
    },
    {
      "epoch": 15.788990825688073,
      "grad_norm": 0.06257505714893341,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 15489
    },
    {
      "epoch": 15.790010193679919,
      "grad_norm": 0.021766584366559982,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 15490
    },
    {
      "epoch": 15.791029561671763,
      "grad_norm": 0.01960132084786892,
      "learning_rate": 0.0005,
      "loss": 0.1588,
      "step": 15491
    },
    {
      "epoch": 15.792048929663608,
      "grad_norm": 0.09810664504766464,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15492
    },
    {
      "epoch": 15.793068297655454,
      "grad_norm": 0.045132577419281006,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15493
    },
    {
      "epoch": 15.794087665647298,
      "grad_norm": 0.08173602819442749,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 15494
    },
    {
      "epoch": 15.795107033639145,
      "grad_norm": 0.04261692985892296,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 15495
    },
    {
      "epoch": 15.796126401630989,
      "grad_norm": 0.05811729654669762,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 15496
    },
    {
      "epoch": 15.797145769622833,
      "grad_norm": 0.04278673976659775,
      "learning_rate": 0.0005,
      "loss": 0.153,
      "step": 15497
    },
    {
      "epoch": 15.79816513761468,
      "grad_norm": 0.049541931599378586,
      "learning_rate": 0.0005,
      "loss": 0.1898,
      "step": 15498
    },
    {
      "epoch": 15.799184505606524,
      "grad_norm": 0.11230538040399551,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15499
    },
    {
      "epoch": 15.800203873598369,
      "grad_norm": 0.029993832111358643,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15500
    },
    {
      "epoch": 15.801223241590215,
      "grad_norm": 0.0824468582868576,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 15501
    },
    {
      "epoch": 15.80224260958206,
      "grad_norm": 0.03531942516565323,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15502
    },
    {
      "epoch": 15.803261977573904,
      "grad_norm": 0.01560056023299694,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15503
    },
    {
      "epoch": 15.80428134556575,
      "grad_norm": 0.11556585878133774,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15504
    },
    {
      "epoch": 15.805300713557594,
      "grad_norm": 0.06469949334859848,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 15505
    },
    {
      "epoch": 15.806320081549439,
      "grad_norm": 0.0369119718670845,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 15506
    },
    {
      "epoch": 15.807339449541285,
      "grad_norm": 0.04862082004547119,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 15507
    },
    {
      "epoch": 15.80835881753313,
      "grad_norm": 0.047719523310661316,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 15508
    },
    {
      "epoch": 15.809378185524974,
      "grad_norm": 0.043320607393980026,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15509
    },
    {
      "epoch": 15.81039755351682,
      "grad_norm": 0.0755653977394104,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 15510
    },
    {
      "epoch": 15.811416921508664,
      "grad_norm": 0.031202003359794617,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 15511
    },
    {
      "epoch": 15.81243628950051,
      "grad_norm": 0.11209380626678467,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15512
    },
    {
      "epoch": 15.813455657492355,
      "grad_norm": 0.036446940153837204,
      "learning_rate": 0.0005,
      "loss": 0.1584,
      "step": 15513
    },
    {
      "epoch": 15.8144750254842,
      "grad_norm": 0.13790492713451385,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 15514
    },
    {
      "epoch": 15.815494393476044,
      "grad_norm": 0.06635692715644836,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 15515
    },
    {
      "epoch": 15.81651376146789,
      "grad_norm": 0.12718170881271362,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 15516
    },
    {
      "epoch": 15.817533129459735,
      "grad_norm": 0.055618882179260254,
      "learning_rate": 0.0005,
      "loss": 0.1578,
      "step": 15517
    },
    {
      "epoch": 15.81855249745158,
      "grad_norm": 0.022530797868967056,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 15518
    },
    {
      "epoch": 15.819571865443425,
      "grad_norm": 0.029545186087489128,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 15519
    },
    {
      "epoch": 15.82059123343527,
      "grad_norm": 0.052662283182144165,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 15520
    },
    {
      "epoch": 15.821610601427116,
      "grad_norm": 0.11350716650485992,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15521
    },
    {
      "epoch": 15.82262996941896,
      "grad_norm": 0.028885629028081894,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15522
    },
    {
      "epoch": 15.823649337410805,
      "grad_norm": 0.08344481885433197,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15523
    },
    {
      "epoch": 15.824668705402651,
      "grad_norm": 0.08688976615667343,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15524
    },
    {
      "epoch": 15.825688073394495,
      "grad_norm": 0.08854428678750992,
      "learning_rate": 0.0005,
      "loss": 0.1931,
      "step": 15525
    },
    {
      "epoch": 15.82670744138634,
      "grad_norm": 0.10894374549388885,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 15526
    },
    {
      "epoch": 15.827726809378186,
      "grad_norm": 0.025899594649672508,
      "learning_rate": 0.0005,
      "loss": 0.1605,
      "step": 15527
    },
    {
      "epoch": 15.82874617737003,
      "grad_norm": 0.041124388575553894,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15528
    },
    {
      "epoch": 15.829765545361875,
      "grad_norm": 0.16829083859920502,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15529
    },
    {
      "epoch": 15.830784913353721,
      "grad_norm": 0.03629118949174881,
      "learning_rate": 0.0005,
      "loss": 0.1836,
      "step": 15530
    },
    {
      "epoch": 15.831804281345565,
      "grad_norm": 0.05470992624759674,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 15531
    },
    {
      "epoch": 15.83282364933741,
      "grad_norm": 0.06727340072393417,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 15532
    },
    {
      "epoch": 15.833843017329256,
      "grad_norm": 0.01833692006766796,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15533
    },
    {
      "epoch": 15.8348623853211,
      "grad_norm": 0.06450407952070236,
      "learning_rate": 0.0005,
      "loss": 0.1826,
      "step": 15534
    },
    {
      "epoch": 15.835881753312947,
      "grad_norm": 0.07672698050737381,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 15535
    },
    {
      "epoch": 15.836901121304791,
      "grad_norm": 0.05052218958735466,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 15536
    },
    {
      "epoch": 15.837920489296636,
      "grad_norm": 0.05284309387207031,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 15537
    },
    {
      "epoch": 15.838939857288482,
      "grad_norm": 0.02432822808623314,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 15538
    },
    {
      "epoch": 15.839959225280326,
      "grad_norm": 0.10433235764503479,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 15539
    },
    {
      "epoch": 15.84097859327217,
      "grad_norm": 0.08786630630493164,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 15540
    },
    {
      "epoch": 15.841997961264017,
      "grad_norm": 0.09334021061658859,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15541
    },
    {
      "epoch": 15.843017329255861,
      "grad_norm": 0.0823824480175972,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 15542
    },
    {
      "epoch": 15.844036697247706,
      "grad_norm": 0.026208654046058655,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15543
    },
    {
      "epoch": 15.845056065239552,
      "grad_norm": 0.058996185660362244,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15544
    },
    {
      "epoch": 15.846075433231396,
      "grad_norm": 0.09604767709970474,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 15545
    },
    {
      "epoch": 15.84709480122324,
      "grad_norm": 0.07210452854633331,
      "learning_rate": 0.0005,
      "loss": 0.1881,
      "step": 15546
    },
    {
      "epoch": 15.848114169215087,
      "grad_norm": 0.05437956005334854,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15547
    },
    {
      "epoch": 15.849133537206932,
      "grad_norm": 0.06338295340538025,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15548
    },
    {
      "epoch": 15.850152905198776,
      "grad_norm": 0.05121706426143646,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15549
    },
    {
      "epoch": 15.851172273190622,
      "grad_norm": 0.10241397470235825,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15550
    },
    {
      "epoch": 15.852191641182467,
      "grad_norm": 0.04425828903913498,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15551
    },
    {
      "epoch": 15.853211009174313,
      "grad_norm": 0.06913015991449356,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15552
    },
    {
      "epoch": 15.854230377166157,
      "grad_norm": 0.0402788482606411,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15553
    },
    {
      "epoch": 15.855249745158002,
      "grad_norm": 0.030883224681019783,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15554
    },
    {
      "epoch": 15.856269113149848,
      "grad_norm": 0.033329181373119354,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15555
    },
    {
      "epoch": 15.857288481141692,
      "grad_norm": 0.035947639495134354,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 15556
    },
    {
      "epoch": 15.858307849133537,
      "grad_norm": 0.06730518490076065,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 15557
    },
    {
      "epoch": 15.859327217125383,
      "grad_norm": 0.035948097705841064,
      "learning_rate": 0.0005,
      "loss": 0.1859,
      "step": 15558
    },
    {
      "epoch": 15.860346585117227,
      "grad_norm": 0.018385279923677444,
      "learning_rate": 0.0005,
      "loss": 0.1561,
      "step": 15559
    },
    {
      "epoch": 15.861365953109072,
      "grad_norm": 0.021822944283485413,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15560
    },
    {
      "epoch": 15.862385321100918,
      "grad_norm": 0.06486895680427551,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15561
    },
    {
      "epoch": 15.863404689092762,
      "grad_norm": 0.0577007420361042,
      "learning_rate": 0.0005,
      "loss": 0.1525,
      "step": 15562
    },
    {
      "epoch": 15.864424057084607,
      "grad_norm": 0.12528257071971893,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 15563
    },
    {
      "epoch": 15.865443425076453,
      "grad_norm": 0.03203688561916351,
      "learning_rate": 0.0005,
      "loss": 0.1564,
      "step": 15564
    },
    {
      "epoch": 15.866462793068298,
      "grad_norm": 0.05289404094219208,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15565
    },
    {
      "epoch": 15.867482161060142,
      "grad_norm": 0.1684093475341797,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15566
    },
    {
      "epoch": 15.868501529051988,
      "grad_norm": 0.20227497816085815,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 15567
    },
    {
      "epoch": 15.869520897043833,
      "grad_norm": 0.027653401717543602,
      "learning_rate": 0.0005,
      "loss": 0.1566,
      "step": 15568
    },
    {
      "epoch": 15.870540265035677,
      "grad_norm": 0.03507334738969803,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 15569
    },
    {
      "epoch": 15.871559633027523,
      "grad_norm": 0.09326755255460739,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15570
    },
    {
      "epoch": 15.872579001019368,
      "grad_norm": 0.029657896608114243,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15571
    },
    {
      "epoch": 15.873598369011212,
      "grad_norm": 0.080294668674469,
      "learning_rate": 0.0005,
      "loss": 0.1929,
      "step": 15572
    },
    {
      "epoch": 15.874617737003058,
      "grad_norm": 0.032537516206502914,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 15573
    },
    {
      "epoch": 15.875637104994903,
      "grad_norm": 0.03958702087402344,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 15574
    },
    {
      "epoch": 15.876656472986749,
      "grad_norm": 0.03967878594994545,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 15575
    },
    {
      "epoch": 15.877675840978593,
      "grad_norm": 0.051885396242141724,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 15576
    },
    {
      "epoch": 15.878695208970438,
      "grad_norm": 0.021189076825976372,
      "learning_rate": 0.0005,
      "loss": 0.1552,
      "step": 15577
    },
    {
      "epoch": 15.879714576962284,
      "grad_norm": 0.04782906919717789,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15578
    },
    {
      "epoch": 15.880733944954128,
      "grad_norm": 0.020781368017196655,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15579
    },
    {
      "epoch": 15.881753312945973,
      "grad_norm": 0.02524137683212757,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15580
    },
    {
      "epoch": 15.88277268093782,
      "grad_norm": 0.0768866091966629,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 15581
    },
    {
      "epoch": 15.883792048929664,
      "grad_norm": 0.0857786238193512,
      "learning_rate": 0.0005,
      "loss": 0.1536,
      "step": 15582
    },
    {
      "epoch": 15.884811416921508,
      "grad_norm": 0.06744483858346939,
      "learning_rate": 0.0005,
      "loss": 0.1521,
      "step": 15583
    },
    {
      "epoch": 15.885830784913354,
      "grad_norm": 0.06901581585407257,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 15584
    },
    {
      "epoch": 15.886850152905199,
      "grad_norm": 0.07313612848520279,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15585
    },
    {
      "epoch": 15.887869520897043,
      "grad_norm": 0.07110737264156342,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 15586
    },
    {
      "epoch": 15.88888888888889,
      "grad_norm": 0.046562593430280685,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 15587
    },
    {
      "epoch": 15.889908256880734,
      "grad_norm": 0.10165510326623917,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15588
    },
    {
      "epoch": 15.890927624872578,
      "grad_norm": 0.02337975800037384,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15589
    },
    {
      "epoch": 15.891946992864424,
      "grad_norm": 0.11653512716293335,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15590
    },
    {
      "epoch": 15.892966360856269,
      "grad_norm": 0.01745012030005455,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 15591
    },
    {
      "epoch": 15.893985728848115,
      "grad_norm": 0.05238684266805649,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 15592
    },
    {
      "epoch": 15.89500509683996,
      "grad_norm": 0.05813238397240639,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 15593
    },
    {
      "epoch": 15.896024464831804,
      "grad_norm": 0.12908236682415009,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15594
    },
    {
      "epoch": 15.89704383282365,
      "grad_norm": 0.13722804188728333,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 15595
    },
    {
      "epoch": 15.898063200815495,
      "grad_norm": 0.06689389050006866,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 15596
    },
    {
      "epoch": 15.899082568807339,
      "grad_norm": 0.08908208459615707,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15597
    },
    {
      "epoch": 15.900101936799185,
      "grad_norm": 0.03343240171670914,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15598
    },
    {
      "epoch": 15.90112130479103,
      "grad_norm": 0.12549875676631927,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 15599
    },
    {
      "epoch": 15.902140672782874,
      "grad_norm": 0.03746212273836136,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 15600
    },
    {
      "epoch": 15.90316004077472,
      "grad_norm": 0.0689084529876709,
      "learning_rate": 0.0005,
      "loss": 0.1821,
      "step": 15601
    },
    {
      "epoch": 15.904179408766565,
      "grad_norm": 0.07319395989179611,
      "learning_rate": 0.0005,
      "loss": 0.1605,
      "step": 15602
    },
    {
      "epoch": 15.905198776758409,
      "grad_norm": 0.07592522352933884,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15603
    },
    {
      "epoch": 15.906218144750255,
      "grad_norm": 0.03572533279657364,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15604
    },
    {
      "epoch": 15.9072375127421,
      "grad_norm": 0.09569119662046432,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15605
    },
    {
      "epoch": 15.908256880733944,
      "grad_norm": 0.04955863207578659,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15606
    },
    {
      "epoch": 15.90927624872579,
      "grad_norm": 0.055594708770513535,
      "learning_rate": 0.0005,
      "loss": 0.1854,
      "step": 15607
    },
    {
      "epoch": 15.910295616717635,
      "grad_norm": 0.11641521751880646,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15608
    },
    {
      "epoch": 15.911314984709481,
      "grad_norm": 0.03901044651865959,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 15609
    },
    {
      "epoch": 15.912334352701325,
      "grad_norm": 0.05789416283369064,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15610
    },
    {
      "epoch": 15.91335372069317,
      "grad_norm": 0.054310351610183716,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 15611
    },
    {
      "epoch": 15.914373088685016,
      "grad_norm": 0.060285672545433044,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 15612
    },
    {
      "epoch": 15.91539245667686,
      "grad_norm": 0.019450556486845016,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 15613
    },
    {
      "epoch": 15.916411824668705,
      "grad_norm": 0.05219089984893799,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 15614
    },
    {
      "epoch": 15.917431192660551,
      "grad_norm": 0.06890477985143661,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 15615
    },
    {
      "epoch": 15.918450560652396,
      "grad_norm": 0.020044108852744102,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15616
    },
    {
      "epoch": 15.91946992864424,
      "grad_norm": 0.05178798735141754,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 15617
    },
    {
      "epoch": 15.920489296636086,
      "grad_norm": 0.04181972146034241,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 15618
    },
    {
      "epoch": 15.92150866462793,
      "grad_norm": 0.03922273591160774,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 15619
    },
    {
      "epoch": 15.922528032619775,
      "grad_norm": 0.0672805905342102,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 15620
    },
    {
      "epoch": 15.923547400611621,
      "grad_norm": 0.03161109238862991,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 15621
    },
    {
      "epoch": 15.924566768603466,
      "grad_norm": 0.05011648312211037,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 15622
    },
    {
      "epoch": 15.92558613659531,
      "grad_norm": 0.13937756419181824,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 15623
    },
    {
      "epoch": 15.926605504587156,
      "grad_norm": 0.055197324603796005,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 15624
    },
    {
      "epoch": 15.927624872579,
      "grad_norm": 0.07296385616064072,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 15625
    },
    {
      "epoch": 15.928644240570845,
      "grad_norm": 0.04858295992016792,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 15626
    },
    {
      "epoch": 15.929663608562691,
      "grad_norm": 0.06825553625822067,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15627
    },
    {
      "epoch": 15.930682976554536,
      "grad_norm": 0.03808237239718437,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15628
    },
    {
      "epoch": 15.93170234454638,
      "grad_norm": 0.03023330308496952,
      "learning_rate": 0.0005,
      "loss": 0.1549,
      "step": 15629
    },
    {
      "epoch": 15.932721712538227,
      "grad_norm": 0.05162639543414116,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15630
    },
    {
      "epoch": 15.933741080530071,
      "grad_norm": 0.16478371620178223,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 15631
    },
    {
      "epoch": 15.934760448521917,
      "grad_norm": 0.04922441393136978,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 15632
    },
    {
      "epoch": 15.935779816513762,
      "grad_norm": 0.07455059885978699,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15633
    },
    {
      "epoch": 15.936799184505606,
      "grad_norm": 0.06796325743198395,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 15634
    },
    {
      "epoch": 15.937818552497452,
      "grad_norm": 0.06418406963348389,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 15635
    },
    {
      "epoch": 15.938837920489297,
      "grad_norm": 0.051261093467473984,
      "learning_rate": 0.0005,
      "loss": 0.1895,
      "step": 15636
    },
    {
      "epoch": 15.939857288481141,
      "grad_norm": 0.05891229584813118,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15637
    },
    {
      "epoch": 15.940876656472987,
      "grad_norm": 0.10945137590169907,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 15638
    },
    {
      "epoch": 15.941896024464832,
      "grad_norm": 0.023929907009005547,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 15639
    },
    {
      "epoch": 15.942915392456676,
      "grad_norm": 0.11450343579053879,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15640
    },
    {
      "epoch": 15.943934760448522,
      "grad_norm": 0.08673205971717834,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15641
    },
    {
      "epoch": 15.944954128440367,
      "grad_norm": 0.12234550714492798,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15642
    },
    {
      "epoch": 15.945973496432211,
      "grad_norm": 0.0877017080783844,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 15643
    },
    {
      "epoch": 15.946992864424058,
      "grad_norm": 0.09260810166597366,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 15644
    },
    {
      "epoch": 15.948012232415902,
      "grad_norm": 0.0746920108795166,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 15645
    },
    {
      "epoch": 15.949031600407746,
      "grad_norm": 0.03804491460323334,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 15646
    },
    {
      "epoch": 15.950050968399593,
      "grad_norm": 0.036091022193431854,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15647
    },
    {
      "epoch": 15.951070336391437,
      "grad_norm": 0.08294624090194702,
      "learning_rate": 0.0005,
      "loss": 0.2021,
      "step": 15648
    },
    {
      "epoch": 15.952089704383283,
      "grad_norm": 0.0692308247089386,
      "learning_rate": 0.0005,
      "loss": 0.1899,
      "step": 15649
    },
    {
      "epoch": 15.953109072375128,
      "grad_norm": 0.053727034479379654,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 15650
    },
    {
      "epoch": 15.954128440366972,
      "grad_norm": 0.12065814435482025,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 15651
    },
    {
      "epoch": 15.955147808358818,
      "grad_norm": 0.03515414148569107,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15652
    },
    {
      "epoch": 15.956167176350663,
      "grad_norm": 0.021142354235053062,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15653
    },
    {
      "epoch": 15.957186544342507,
      "grad_norm": 0.025529049336910248,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 15654
    },
    {
      "epoch": 15.958205912334353,
      "grad_norm": 0.09083984047174454,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15655
    },
    {
      "epoch": 15.959225280326198,
      "grad_norm": 0.06084446981549263,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 15656
    },
    {
      "epoch": 15.960244648318042,
      "grad_norm": 0.023194292560219765,
      "learning_rate": 0.0005,
      "loss": 0.1954,
      "step": 15657
    },
    {
      "epoch": 15.961264016309888,
      "grad_norm": 0.028909023851156235,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15658
    },
    {
      "epoch": 15.962283384301733,
      "grad_norm": 0.07426720857620239,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15659
    },
    {
      "epoch": 15.963302752293577,
      "grad_norm": 0.01872086524963379,
      "learning_rate": 0.0005,
      "loss": 0.1564,
      "step": 15660
    },
    {
      "epoch": 15.964322120285424,
      "grad_norm": 0.06783194094896317,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 15661
    },
    {
      "epoch": 15.965341488277268,
      "grad_norm": 0.030108707025647163,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 15662
    },
    {
      "epoch": 15.966360856269112,
      "grad_norm": 0.06709510087966919,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 15663
    },
    {
      "epoch": 15.967380224260959,
      "grad_norm": 0.02189936302602291,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 15664
    },
    {
      "epoch": 15.968399592252803,
      "grad_norm": 0.0501306876540184,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 15665
    },
    {
      "epoch": 15.96941896024465,
      "grad_norm": 0.03458273783326149,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15666
    },
    {
      "epoch": 15.970438328236494,
      "grad_norm": 0.08572085201740265,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 15667
    },
    {
      "epoch": 15.971457696228338,
      "grad_norm": 0.047950390726327896,
      "learning_rate": 0.0005,
      "loss": 0.183,
      "step": 15668
    },
    {
      "epoch": 15.972477064220184,
      "grad_norm": 0.07711559534072876,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 15669
    },
    {
      "epoch": 15.973496432212029,
      "grad_norm": 0.02210334688425064,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15670
    },
    {
      "epoch": 15.974515800203873,
      "grad_norm": 0.0549420528113842,
      "learning_rate": 0.0005,
      "loss": 0.1553,
      "step": 15671
    },
    {
      "epoch": 15.97553516819572,
      "grad_norm": 0.062008850276470184,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 15672
    },
    {
      "epoch": 15.976554536187564,
      "grad_norm": 0.0674150213599205,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15673
    },
    {
      "epoch": 15.977573904179408,
      "grad_norm": 0.027865439653396606,
      "learning_rate": 0.0005,
      "loss": 0.1541,
      "step": 15674
    },
    {
      "epoch": 15.978593272171254,
      "grad_norm": 0.11465722322463989,
      "learning_rate": 0.0005,
      "loss": 0.1849,
      "step": 15675
    },
    {
      "epoch": 15.979612640163099,
      "grad_norm": 0.11690694093704224,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15676
    },
    {
      "epoch": 15.980632008154943,
      "grad_norm": 0.03743278235197067,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15677
    },
    {
      "epoch": 15.98165137614679,
      "grad_norm": 0.035461634397506714,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 15678
    },
    {
      "epoch": 15.982670744138634,
      "grad_norm": 0.03973941132426262,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 15679
    },
    {
      "epoch": 15.983690112130478,
      "grad_norm": 0.03264500945806503,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 15680
    },
    {
      "epoch": 15.984709480122325,
      "grad_norm": 0.23377196490764618,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 15681
    },
    {
      "epoch": 15.985728848114169,
      "grad_norm": 0.05222043767571449,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 15682
    },
    {
      "epoch": 15.986748216106013,
      "grad_norm": 0.02963166870176792,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 15683
    },
    {
      "epoch": 15.98776758409786,
      "grad_norm": 0.0562838576734066,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 15684
    },
    {
      "epoch": 15.988786952089704,
      "grad_norm": 0.11491771042346954,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 15685
    },
    {
      "epoch": 15.989806320081549,
      "grad_norm": 0.0411500483751297,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 15686
    },
    {
      "epoch": 15.990825688073395,
      "grad_norm": 0.08192505687475204,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 15687
    },
    {
      "epoch": 15.99184505606524,
      "grad_norm": 0.03346922621130943,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 15688
    },
    {
      "epoch": 15.992864424057085,
      "grad_norm": 0.040824633091688156,
      "learning_rate": 0.0005,
      "loss": 0.1555,
      "step": 15689
    },
    {
      "epoch": 15.99388379204893,
      "grad_norm": 0.08225414901971817,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 15690
    },
    {
      "epoch": 15.994903160040774,
      "grad_norm": 0.08239525556564331,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 15691
    },
    {
      "epoch": 15.99592252803262,
      "grad_norm": 0.1832587718963623,
      "learning_rate": 0.0005,
      "loss": 0.1953,
      "step": 15692
    },
    {
      "epoch": 15.996941896024465,
      "grad_norm": 0.04977685213088989,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15693
    },
    {
      "epoch": 15.99796126401631,
      "grad_norm": 0.05657348036766052,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 15694
    },
    {
      "epoch": 15.998980632008156,
      "grad_norm": 0.08098938316106796,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15695
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.09320801496505737,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 15696
    },
    {
      "epoch": 16.0,
      "eval_-_f1-score": 0.35294117647058826,
      "eval_-_precision": 0.5,
      "eval_-_recall": 0.2727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.968118913377755,
      "eval_<_precision": 0.9656441717791411,
      "eval_<_recall": 0.9706063720452209,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8207171314741036,
      "eval_=_precision": 0.8110236220472441,
      "eval_=_recall": 0.8306451612903226,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9692038314965495,
      "eval_>_precision": 0.9713047068538398,
      "eval_>_recall": 0.9671120246659815,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9639,
      "eval_loss": 0.1060953140258789,
      "eval_macro_avg_f1-score": 0.7777452632047491,
      "eval_macro_avg_precision": 0.8119931251700563,
      "eval_macro_avg_recall": 0.7602727076821993,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 13.0735,
      "eval_samples_per_second": 764.906,
      "eval_steps_per_second": 3.06,
      "eval_weighted_avg_f1-score": 0.9636377708301422,
      "eval_weighted_avg_precision": 0.963539015281717,
      "eval_weighted_avg_recall": 0.9639,
      "eval_weighted_avg_support": 10000.0,
      "step": 15696
    },
    {
      "epoch": 16.001019367991844,
      "grad_norm": 0.11037474125623703,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 15697
    },
    {
      "epoch": 16.00203873598369,
      "grad_norm": 0.049586907029151917,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15698
    },
    {
      "epoch": 16.003058103975537,
      "grad_norm": 0.024758880957961082,
      "learning_rate": 0.0005,
      "loss": 0.1567,
      "step": 15699
    },
    {
      "epoch": 16.00407747196738,
      "grad_norm": 0.05746142938733101,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15700
    },
    {
      "epoch": 16.005096839959226,
      "grad_norm": 0.016824238002300262,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 15701
    },
    {
      "epoch": 16.00611620795107,
      "grad_norm": 0.051367007195949554,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 15702
    },
    {
      "epoch": 16.007135575942915,
      "grad_norm": 0.027414308860898018,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15703
    },
    {
      "epoch": 16.00815494393476,
      "grad_norm": 0.06763272732496262,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15704
    },
    {
      "epoch": 16.009174311926607,
      "grad_norm": 0.0664309412240982,
      "learning_rate": 0.0005,
      "loss": 0.1863,
      "step": 15705
    },
    {
      "epoch": 16.01019367991845,
      "grad_norm": 0.07571618258953094,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15706
    },
    {
      "epoch": 16.011213047910296,
      "grad_norm": 0.02280738577246666,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15707
    },
    {
      "epoch": 16.01223241590214,
      "grad_norm": 0.03220238536596298,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 15708
    },
    {
      "epoch": 16.013251783893985,
      "grad_norm": 0.026225272566080093,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15709
    },
    {
      "epoch": 16.01427115188583,
      "grad_norm": 0.041359685361385345,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 15710
    },
    {
      "epoch": 16.015290519877677,
      "grad_norm": 0.06370141357183456,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15711
    },
    {
      "epoch": 16.01630988786952,
      "grad_norm": 0.053256623446941376,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15712
    },
    {
      "epoch": 16.017329255861366,
      "grad_norm": 0.11688336730003357,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 15713
    },
    {
      "epoch": 16.01834862385321,
      "grad_norm": 0.049907784909009933,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 15714
    },
    {
      "epoch": 16.019367991845055,
      "grad_norm": 0.014409168623387814,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 15715
    },
    {
      "epoch": 16.020387359836903,
      "grad_norm": 0.043994296342134476,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 15716
    },
    {
      "epoch": 16.021406727828747,
      "grad_norm": 0.039883799850940704,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15717
    },
    {
      "epoch": 16.02242609582059,
      "grad_norm": 0.09246553480625153,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 15718
    },
    {
      "epoch": 16.023445463812436,
      "grad_norm": 0.038315217941999435,
      "learning_rate": 0.0005,
      "loss": 0.1656,
      "step": 15719
    },
    {
      "epoch": 16.02446483180428,
      "grad_norm": 0.026438722386956215,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15720
    },
    {
      "epoch": 16.025484199796125,
      "grad_norm": 0.06784501671791077,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15721
    },
    {
      "epoch": 16.026503567787973,
      "grad_norm": 0.05133882164955139,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 15722
    },
    {
      "epoch": 16.027522935779817,
      "grad_norm": 0.11404012143611908,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15723
    },
    {
      "epoch": 16.028542303771662,
      "grad_norm": 0.054209042340517044,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 15724
    },
    {
      "epoch": 16.029561671763506,
      "grad_norm": 0.10021558403968811,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 15725
    },
    {
      "epoch": 16.03058103975535,
      "grad_norm": 0.12946046888828278,
      "learning_rate": 0.0005,
      "loss": 0.1841,
      "step": 15726
    },
    {
      "epoch": 16.031600407747195,
      "grad_norm": 0.07023932039737701,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15727
    },
    {
      "epoch": 16.032619775739043,
      "grad_norm": 0.03501013293862343,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15728
    },
    {
      "epoch": 16.033639143730888,
      "grad_norm": 0.032785020768642426,
      "learning_rate": 0.0005,
      "loss": 0.157,
      "step": 15729
    },
    {
      "epoch": 16.034658511722732,
      "grad_norm": 0.0646880492568016,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 15730
    },
    {
      "epoch": 16.035677879714576,
      "grad_norm": 0.044166628271341324,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 15731
    },
    {
      "epoch": 16.03669724770642,
      "grad_norm": 0.034843165427446365,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15732
    },
    {
      "epoch": 16.037716615698265,
      "grad_norm": 0.017367467284202576,
      "learning_rate": 0.0005,
      "loss": 0.1573,
      "step": 15733
    },
    {
      "epoch": 16.038735983690113,
      "grad_norm": 0.08607885241508484,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 15734
    },
    {
      "epoch": 16.039755351681958,
      "grad_norm": 0.11728344112634659,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 15735
    },
    {
      "epoch": 16.040774719673802,
      "grad_norm": 0.11094163358211517,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 15736
    },
    {
      "epoch": 16.041794087665647,
      "grad_norm": 0.03674658015370369,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15737
    },
    {
      "epoch": 16.04281345565749,
      "grad_norm": 0.04382734000682831,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 15738
    },
    {
      "epoch": 16.04383282364934,
      "grad_norm": 0.1462557017803192,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15739
    },
    {
      "epoch": 16.044852191641183,
      "grad_norm": 0.05391373857855797,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 15740
    },
    {
      "epoch": 16.045871559633028,
      "grad_norm": 0.027571963146328926,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 15741
    },
    {
      "epoch": 16.046890927624872,
      "grad_norm": 0.01831933669745922,
      "learning_rate": 0.0005,
      "loss": 0.152,
      "step": 15742
    },
    {
      "epoch": 16.047910295616717,
      "grad_norm": 0.0694456472992897,
      "learning_rate": 0.0005,
      "loss": 0.1909,
      "step": 15743
    },
    {
      "epoch": 16.04892966360856,
      "grad_norm": 0.04517197608947754,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 15744
    },
    {
      "epoch": 16.04994903160041,
      "grad_norm": 0.029964108020067215,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 15745
    },
    {
      "epoch": 16.050968399592254,
      "grad_norm": 0.04879932105541229,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15746
    },
    {
      "epoch": 16.051987767584098,
      "grad_norm": 0.08889389038085938,
      "learning_rate": 0.0005,
      "loss": 0.181,
      "step": 15747
    },
    {
      "epoch": 16.053007135575942,
      "grad_norm": 0.03629710152745247,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15748
    },
    {
      "epoch": 16.054026503567787,
      "grad_norm": 0.02771446295082569,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 15749
    },
    {
      "epoch": 16.05504587155963,
      "grad_norm": 0.04575536027550697,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15750
    },
    {
      "epoch": 16.05606523955148,
      "grad_norm": 0.04461607709527016,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15751
    },
    {
      "epoch": 16.057084607543324,
      "grad_norm": 0.10414566099643707,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15752
    },
    {
      "epoch": 16.058103975535168,
      "grad_norm": 0.08043144643306732,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 15753
    },
    {
      "epoch": 16.059123343527013,
      "grad_norm": 0.021991774439811707,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15754
    },
    {
      "epoch": 16.060142711518857,
      "grad_norm": 0.03921686112880707,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 15755
    },
    {
      "epoch": 16.061162079510705,
      "grad_norm": 0.05238218605518341,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 15756
    },
    {
      "epoch": 16.06218144750255,
      "grad_norm": 0.03743918240070343,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15757
    },
    {
      "epoch": 16.063200815494394,
      "grad_norm": 0.1161312684416771,
      "learning_rate": 0.0005,
      "loss": 0.1885,
      "step": 15758
    },
    {
      "epoch": 16.06422018348624,
      "grad_norm": 0.05950824171304703,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15759
    },
    {
      "epoch": 16.065239551478083,
      "grad_norm": 0.044554367661476135,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 15760
    },
    {
      "epoch": 16.066258919469927,
      "grad_norm": 0.025263242423534393,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 15761
    },
    {
      "epoch": 16.067278287461775,
      "grad_norm": 0.10684803873300552,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 15762
    },
    {
      "epoch": 16.06829765545362,
      "grad_norm": 0.051208313554525375,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 15763
    },
    {
      "epoch": 16.069317023445464,
      "grad_norm": 0.11404422670602798,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15764
    },
    {
      "epoch": 16.07033639143731,
      "grad_norm": 0.10539563000202179,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 15765
    },
    {
      "epoch": 16.071355759429153,
      "grad_norm": 0.05593777075409889,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 15766
    },
    {
      "epoch": 16.072375127420997,
      "grad_norm": 0.05391327664256096,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 15767
    },
    {
      "epoch": 16.073394495412845,
      "grad_norm": 0.10569311678409576,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15768
    },
    {
      "epoch": 16.07441386340469,
      "grad_norm": 0.011856994591653347,
      "learning_rate": 0.0005,
      "loss": 0.1495,
      "step": 15769
    },
    {
      "epoch": 16.075433231396534,
      "grad_norm": 0.06464652717113495,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 15770
    },
    {
      "epoch": 16.07645259938838,
      "grad_norm": 0.10400290042161942,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 15771
    },
    {
      "epoch": 16.077471967380223,
      "grad_norm": 0.04951911419630051,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15772
    },
    {
      "epoch": 16.07849133537207,
      "grad_norm": 0.031506795436143875,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15773
    },
    {
      "epoch": 16.079510703363916,
      "grad_norm": 0.036675192415714264,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15774
    },
    {
      "epoch": 16.08053007135576,
      "grad_norm": 0.05767200514674187,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 15775
    },
    {
      "epoch": 16.081549439347604,
      "grad_norm": 0.06506653130054474,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 15776
    },
    {
      "epoch": 16.08256880733945,
      "grad_norm": 0.07084756344556808,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 15777
    },
    {
      "epoch": 16.083588175331293,
      "grad_norm": 0.08796890825033188,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 15778
    },
    {
      "epoch": 16.08460754332314,
      "grad_norm": 0.03170524537563324,
      "learning_rate": 0.0005,
      "loss": 0.179,
      "step": 15779
    },
    {
      "epoch": 16.085626911314986,
      "grad_norm": 0.04068024083971977,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 15780
    },
    {
      "epoch": 16.08664627930683,
      "grad_norm": 0.05142991244792938,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 15781
    },
    {
      "epoch": 16.087665647298675,
      "grad_norm": 0.022851424291729927,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 15782
    },
    {
      "epoch": 16.08868501529052,
      "grad_norm": 0.10718201100826263,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15783
    },
    {
      "epoch": 16.089704383282363,
      "grad_norm": 0.021510759368538857,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 15784
    },
    {
      "epoch": 16.09072375127421,
      "grad_norm": 0.028496315702795982,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15785
    },
    {
      "epoch": 16.091743119266056,
      "grad_norm": 0.06652268767356873,
      "learning_rate": 0.0005,
      "loss": 0.1578,
      "step": 15786
    },
    {
      "epoch": 16.0927624872579,
      "grad_norm": 0.04940813407301903,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15787
    },
    {
      "epoch": 16.093781855249745,
      "grad_norm": 0.06727948784828186,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15788
    },
    {
      "epoch": 16.09480122324159,
      "grad_norm": 0.05372346192598343,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 15789
    },
    {
      "epoch": 16.095820591233434,
      "grad_norm": 0.13935762643814087,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15790
    },
    {
      "epoch": 16.09683995922528,
      "grad_norm": 0.053891412913799286,
      "learning_rate": 0.0005,
      "loss": 0.1584,
      "step": 15791
    },
    {
      "epoch": 16.097859327217126,
      "grad_norm": 0.0380525179207325,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 15792
    },
    {
      "epoch": 16.09887869520897,
      "grad_norm": 0.04973599314689636,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 15793
    },
    {
      "epoch": 16.099898063200815,
      "grad_norm": 0.029245197772979736,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 15794
    },
    {
      "epoch": 16.10091743119266,
      "grad_norm": 0.07252861559391022,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15795
    },
    {
      "epoch": 16.101936799184507,
      "grad_norm": 0.043832093477249146,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 15796
    },
    {
      "epoch": 16.10295616717635,
      "grad_norm": 0.06642762571573257,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15797
    },
    {
      "epoch": 16.103975535168196,
      "grad_norm": 0.043769657611846924,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 15798
    },
    {
      "epoch": 16.10499490316004,
      "grad_norm": 0.04091523215174675,
      "learning_rate": 0.0005,
      "loss": 0.1561,
      "step": 15799
    },
    {
      "epoch": 16.106014271151885,
      "grad_norm": 0.06742372363805771,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 15800
    },
    {
      "epoch": 16.10703363914373,
      "grad_norm": 0.0574771985411644,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15801
    },
    {
      "epoch": 16.108053007135577,
      "grad_norm": 0.04675769805908203,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 15802
    },
    {
      "epoch": 16.109072375127422,
      "grad_norm": 0.06038731709122658,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 15803
    },
    {
      "epoch": 16.110091743119266,
      "grad_norm": 0.07045645266771317,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 15804
    },
    {
      "epoch": 16.11111111111111,
      "grad_norm": 0.026775704696774483,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 15805
    },
    {
      "epoch": 16.112130479102955,
      "grad_norm": 0.11095564812421799,
      "learning_rate": 0.0005,
      "loss": 0.1876,
      "step": 15806
    },
    {
      "epoch": 16.1131498470948,
      "grad_norm": 0.18738436698913574,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 15807
    },
    {
      "epoch": 16.114169215086648,
      "grad_norm": 0.05247735232114792,
      "learning_rate": 0.0005,
      "loss": 0.1605,
      "step": 15808
    },
    {
      "epoch": 16.115188583078492,
      "grad_norm": 0.053691890090703964,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 15809
    },
    {
      "epoch": 16.116207951070336,
      "grad_norm": 0.026195289567112923,
      "learning_rate": 0.0005,
      "loss": 0.1567,
      "step": 15810
    },
    {
      "epoch": 16.11722731906218,
      "grad_norm": 0.020649876445531845,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15811
    },
    {
      "epoch": 16.118246687054025,
      "grad_norm": 0.030217314139008522,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 15812
    },
    {
      "epoch": 16.119266055045873,
      "grad_norm": 0.06866598129272461,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 15813
    },
    {
      "epoch": 16.120285423037718,
      "grad_norm": 0.05573071166872978,
      "learning_rate": 0.0005,
      "loss": 0.1874,
      "step": 15814
    },
    {
      "epoch": 16.121304791029562,
      "grad_norm": 0.048191994428634644,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15815
    },
    {
      "epoch": 16.122324159021407,
      "grad_norm": 0.01842861995100975,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15816
    },
    {
      "epoch": 16.12334352701325,
      "grad_norm": 0.09266547113656998,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 15817
    },
    {
      "epoch": 16.124362895005095,
      "grad_norm": 0.09666117280721664,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15818
    },
    {
      "epoch": 16.125382262996943,
      "grad_norm": 0.018520839512348175,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 15819
    },
    {
      "epoch": 16.126401630988788,
      "grad_norm": 0.03085412085056305,
      "learning_rate": 0.0005,
      "loss": 0.1549,
      "step": 15820
    },
    {
      "epoch": 16.127420998980632,
      "grad_norm": 0.054636575281620026,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 15821
    },
    {
      "epoch": 16.128440366972477,
      "grad_norm": 0.01842888630926609,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 15822
    },
    {
      "epoch": 16.12945973496432,
      "grad_norm": 0.08548536896705627,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 15823
    },
    {
      "epoch": 16.130479102956166,
      "grad_norm": 0.1053667962551117,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 15824
    },
    {
      "epoch": 16.131498470948014,
      "grad_norm": 0.12920816242694855,
      "learning_rate": 0.0005,
      "loss": 0.1886,
      "step": 15825
    },
    {
      "epoch": 16.132517838939858,
      "grad_norm": 0.04517762362957001,
      "learning_rate": 0.0005,
      "loss": 0.1877,
      "step": 15826
    },
    {
      "epoch": 16.133537206931702,
      "grad_norm": 0.02612372487783432,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 15827
    },
    {
      "epoch": 16.134556574923547,
      "grad_norm": 0.10286475718021393,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 15828
    },
    {
      "epoch": 16.13557594291539,
      "grad_norm": 0.031403549015522,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 15829
    },
    {
      "epoch": 16.136595310907236,
      "grad_norm": 0.09345600754022598,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 15830
    },
    {
      "epoch": 16.137614678899084,
      "grad_norm": 0.04840969666838646,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 15831
    },
    {
      "epoch": 16.138634046890928,
      "grad_norm": 0.04881974682211876,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15832
    },
    {
      "epoch": 16.139653414882773,
      "grad_norm": 0.04202212020754814,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 15833
    },
    {
      "epoch": 16.140672782874617,
      "grad_norm": 0.043681710958480835,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 15834
    },
    {
      "epoch": 16.14169215086646,
      "grad_norm": 0.025850769132375717,
      "learning_rate": 0.0005,
      "loss": 0.1572,
      "step": 15835
    },
    {
      "epoch": 16.14271151885831,
      "grad_norm": 0.06968627125024796,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15836
    },
    {
      "epoch": 16.143730886850154,
      "grad_norm": 0.027725622057914734,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 15837
    },
    {
      "epoch": 16.144750254842,
      "grad_norm": 0.07860517501831055,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 15838
    },
    {
      "epoch": 16.145769622833843,
      "grad_norm": 0.09673305600881577,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15839
    },
    {
      "epoch": 16.146788990825687,
      "grad_norm": 0.059363845735788345,
      "learning_rate": 0.0005,
      "loss": 0.1837,
      "step": 15840
    },
    {
      "epoch": 16.14780835881753,
      "grad_norm": 0.047906797379255295,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 15841
    },
    {
      "epoch": 16.14882772680938,
      "grad_norm": 0.03318693861365318,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 15842
    },
    {
      "epoch": 16.149847094801224,
      "grad_norm": 0.03394279256463051,
      "learning_rate": 0.0005,
      "loss": 0.1558,
      "step": 15843
    },
    {
      "epoch": 16.15086646279307,
      "grad_norm": 0.02742507867515087,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 15844
    },
    {
      "epoch": 16.151885830784913,
      "grad_norm": 0.03364061936736107,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 15845
    },
    {
      "epoch": 16.152905198776757,
      "grad_norm": 0.15052564442157745,
      "learning_rate": 0.0005,
      "loss": 0.1898,
      "step": 15846
    },
    {
      "epoch": 16.153924566768602,
      "grad_norm": 0.021747076883912086,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 15847
    },
    {
      "epoch": 16.15494393476045,
      "grad_norm": 0.06974662095308304,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 15848
    },
    {
      "epoch": 16.155963302752294,
      "grad_norm": 0.03888070210814476,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15849
    },
    {
      "epoch": 16.15698267074414,
      "grad_norm": 0.023932496085762978,
      "learning_rate": 0.0005,
      "loss": 0.1671,
      "step": 15850
    },
    {
      "epoch": 16.158002038735983,
      "grad_norm": 0.03025035932660103,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 15851
    },
    {
      "epoch": 16.159021406727827,
      "grad_norm": 0.04980938509106636,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 15852
    },
    {
      "epoch": 16.160040774719675,
      "grad_norm": 0.3174109160900116,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 15853
    },
    {
      "epoch": 16.16106014271152,
      "grad_norm": 0.07044462859630585,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 15854
    },
    {
      "epoch": 16.162079510703364,
      "grad_norm": 0.03123166412115097,
      "learning_rate": 0.0005,
      "loss": 0.1851,
      "step": 15855
    },
    {
      "epoch": 16.16309887869521,
      "grad_norm": 0.036598097532987595,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 15856
    },
    {
      "epoch": 16.164118246687053,
      "grad_norm": 0.025464270263910294,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15857
    },
    {
      "epoch": 16.165137614678898,
      "grad_norm": 0.03322324901819229,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 15858
    },
    {
      "epoch": 16.166156982670746,
      "grad_norm": 0.08728642761707306,
      "learning_rate": 0.0005,
      "loss": 0.1748,
      "step": 15859
    },
    {
      "epoch": 16.16717635066259,
      "grad_norm": 0.05628686398267746,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15860
    },
    {
      "epoch": 16.168195718654435,
      "grad_norm": 0.07227243483066559,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 15861
    },
    {
      "epoch": 16.16921508664628,
      "grad_norm": 0.022073926404118538,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15862
    },
    {
      "epoch": 16.170234454638123,
      "grad_norm": 0.055825501680374146,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 15863
    },
    {
      "epoch": 16.171253822629968,
      "grad_norm": 0.16441850364208221,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 15864
    },
    {
      "epoch": 16.172273190621816,
      "grad_norm": 0.16891175508499146,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 15865
    },
    {
      "epoch": 16.17329255861366,
      "grad_norm": 0.020466331392526627,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15866
    },
    {
      "epoch": 16.174311926605505,
      "grad_norm": 0.023871833458542824,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15867
    },
    {
      "epoch": 16.17533129459735,
      "grad_norm": 0.09178906679153442,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 15868
    },
    {
      "epoch": 16.176350662589194,
      "grad_norm": 0.034816548228263855,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 15869
    },
    {
      "epoch": 16.17737003058104,
      "grad_norm": 0.08549895137548447,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 15870
    },
    {
      "epoch": 16.178389398572886,
      "grad_norm": 0.028272712603211403,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 15871
    },
    {
      "epoch": 16.17940876656473,
      "grad_norm": 0.06128465756773949,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 15872
    },
    {
      "epoch": 16.180428134556575,
      "grad_norm": 0.03773539885878563,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 15873
    },
    {
      "epoch": 16.18144750254842,
      "grad_norm": 0.05336528271436691,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 15874
    },
    {
      "epoch": 16.182466870540264,
      "grad_norm": 0.038541316986083984,
      "learning_rate": 0.0005,
      "loss": 0.1516,
      "step": 15875
    },
    {
      "epoch": 16.18348623853211,
      "grad_norm": 0.1060345247387886,
      "learning_rate": 0.0005,
      "loss": 0.1849,
      "step": 15876
    },
    {
      "epoch": 16.184505606523956,
      "grad_norm": 0.03633793070912361,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15877
    },
    {
      "epoch": 16.1855249745158,
      "grad_norm": 0.026249464601278305,
      "learning_rate": 0.0005,
      "loss": 0.1813,
      "step": 15878
    },
    {
      "epoch": 16.186544342507645,
      "grad_norm": 0.05833670496940613,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 15879
    },
    {
      "epoch": 16.18756371049949,
      "grad_norm": 0.09816877543926239,
      "learning_rate": 0.0005,
      "loss": 0.1848,
      "step": 15880
    },
    {
      "epoch": 16.188583078491334,
      "grad_norm": 0.04182165861129761,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 15881
    },
    {
      "epoch": 16.189602446483182,
      "grad_norm": 0.05810707435011864,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 15882
    },
    {
      "epoch": 16.190621814475026,
      "grad_norm": 0.022333670407533646,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 15883
    },
    {
      "epoch": 16.19164118246687,
      "grad_norm": 0.05414782837033272,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 15884
    },
    {
      "epoch": 16.192660550458715,
      "grad_norm": 0.07154586166143417,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 15885
    },
    {
      "epoch": 16.19367991845056,
      "grad_norm": 0.0498010627925396,
      "learning_rate": 0.0005,
      "loss": 0.1566,
      "step": 15886
    },
    {
      "epoch": 16.194699286442404,
      "grad_norm": 0.02221340499818325,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15887
    },
    {
      "epoch": 16.195718654434252,
      "grad_norm": 0.032916922122240067,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 15888
    },
    {
      "epoch": 16.196738022426096,
      "grad_norm": 0.04823099449276924,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15889
    },
    {
      "epoch": 16.19775739041794,
      "grad_norm": 0.0457548052072525,
      "learning_rate": 0.0005,
      "loss": 0.1802,
      "step": 15890
    },
    {
      "epoch": 16.198776758409785,
      "grad_norm": 0.021133480593562126,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15891
    },
    {
      "epoch": 16.19979612640163,
      "grad_norm": 0.09699643403291702,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 15892
    },
    {
      "epoch": 16.200815494393478,
      "grad_norm": 0.06349410116672516,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 15893
    },
    {
      "epoch": 16.201834862385322,
      "grad_norm": 0.033602651208639145,
      "learning_rate": 0.0005,
      "loss": 0.1802,
      "step": 15894
    },
    {
      "epoch": 16.202854230377167,
      "grad_norm": 0.04637308791279793,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15895
    },
    {
      "epoch": 16.20387359836901,
      "grad_norm": 0.022920852527022362,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 15896
    },
    {
      "epoch": 16.204892966360855,
      "grad_norm": 0.07992223650217056,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 15897
    },
    {
      "epoch": 16.2059123343527,
      "grad_norm": 0.06582090258598328,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 15898
    },
    {
      "epoch": 16.206931702344548,
      "grad_norm": 0.043595634400844574,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15899
    },
    {
      "epoch": 16.207951070336392,
      "grad_norm": 0.06456105411052704,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 15900
    },
    {
      "epoch": 16.208970438328237,
      "grad_norm": 0.021440932527184486,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 15901
    },
    {
      "epoch": 16.20998980632008,
      "grad_norm": 0.09229408949613571,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 15902
    },
    {
      "epoch": 16.211009174311926,
      "grad_norm": 0.059783633798360825,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 15903
    },
    {
      "epoch": 16.21202854230377,
      "grad_norm": 0.0877176970243454,
      "learning_rate": 0.0005,
      "loss": 0.1492,
      "step": 15904
    },
    {
      "epoch": 16.213047910295618,
      "grad_norm": 0.07531518489122391,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 15905
    },
    {
      "epoch": 16.214067278287462,
      "grad_norm": 0.03639073297381401,
      "learning_rate": 0.0005,
      "loss": 0.1569,
      "step": 15906
    },
    {
      "epoch": 16.215086646279307,
      "grad_norm": 0.04386795684695244,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 15907
    },
    {
      "epoch": 16.21610601427115,
      "grad_norm": 0.045007914304733276,
      "learning_rate": 0.0005,
      "loss": 0.147,
      "step": 15908
    },
    {
      "epoch": 16.217125382262996,
      "grad_norm": 0.040680937469005585,
      "learning_rate": 0.0005,
      "loss": 0.1948,
      "step": 15909
    },
    {
      "epoch": 16.218144750254844,
      "grad_norm": 0.029843712225556374,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 15910
    },
    {
      "epoch": 16.219164118246688,
      "grad_norm": 0.08822523057460785,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 15911
    },
    {
      "epoch": 16.220183486238533,
      "grad_norm": 0.03271360322833061,
      "learning_rate": 0.0005,
      "loss": 0.1659,
      "step": 15912
    },
    {
      "epoch": 16.221202854230377,
      "grad_norm": 0.028310531750321388,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 15913
    },
    {
      "epoch": 16.22222222222222,
      "grad_norm": 0.09391321986913681,
      "learning_rate": 0.0005,
      "loss": 0.1859,
      "step": 15914
    },
    {
      "epoch": 16.223241590214066,
      "grad_norm": 0.02908143401145935,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15915
    },
    {
      "epoch": 16.224260958205914,
      "grad_norm": 0.04028557613492012,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 15916
    },
    {
      "epoch": 16.22528032619776,
      "grad_norm": 0.03654739633202553,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15917
    },
    {
      "epoch": 16.226299694189603,
      "grad_norm": 0.08838698267936707,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 15918
    },
    {
      "epoch": 16.227319062181447,
      "grad_norm": 0.08310026675462723,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15919
    },
    {
      "epoch": 16.22833843017329,
      "grad_norm": 0.04417472705245018,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 15920
    },
    {
      "epoch": 16.229357798165136,
      "grad_norm": 0.07432203739881516,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 15921
    },
    {
      "epoch": 16.230377166156984,
      "grad_norm": 0.04650997370481491,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 15922
    },
    {
      "epoch": 16.23139653414883,
      "grad_norm": 0.02611956186592579,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15923
    },
    {
      "epoch": 16.232415902140673,
      "grad_norm": 0.05364416167140007,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15924
    },
    {
      "epoch": 16.233435270132517,
      "grad_norm": 0.06207810714840889,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15925
    },
    {
      "epoch": 16.23445463812436,
      "grad_norm": 0.05691498517990112,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 15926
    },
    {
      "epoch": 16.235474006116206,
      "grad_norm": 0.07742374390363693,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 15927
    },
    {
      "epoch": 16.236493374108054,
      "grad_norm": 0.019503340125083923,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 15928
    },
    {
      "epoch": 16.2375127420999,
      "grad_norm": 0.026874084025621414,
      "learning_rate": 0.0005,
      "loss": 0.151,
      "step": 15929
    },
    {
      "epoch": 16.238532110091743,
      "grad_norm": 0.05870668962597847,
      "learning_rate": 0.0005,
      "loss": 0.1814,
      "step": 15930
    },
    {
      "epoch": 16.239551478083587,
      "grad_norm": 0.05705447122454643,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 15931
    },
    {
      "epoch": 16.240570846075432,
      "grad_norm": 0.11509057879447937,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15932
    },
    {
      "epoch": 16.24159021406728,
      "grad_norm": 0.0679110512137413,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 15933
    },
    {
      "epoch": 16.242609582059124,
      "grad_norm": 0.04941733554005623,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 15934
    },
    {
      "epoch": 16.24362895005097,
      "grad_norm": 0.016441861167550087,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 15935
    },
    {
      "epoch": 16.244648318042813,
      "grad_norm": 0.022940833121538162,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 15936
    },
    {
      "epoch": 16.245667686034658,
      "grad_norm": 0.04540437087416649,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 15937
    },
    {
      "epoch": 16.246687054026502,
      "grad_norm": 0.03315440192818642,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 15938
    },
    {
      "epoch": 16.24770642201835,
      "grad_norm": 0.04040693864226341,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 15939
    },
    {
      "epoch": 16.248725790010194,
      "grad_norm": 0.08170336484909058,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 15940
    },
    {
      "epoch": 16.24974515800204,
      "grad_norm": 0.06447873264551163,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15941
    },
    {
      "epoch": 16.250764525993883,
      "grad_norm": 0.08134283125400543,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 15942
    },
    {
      "epoch": 16.251783893985728,
      "grad_norm": 0.04418102651834488,
      "learning_rate": 0.0005,
      "loss": 0.168,
      "step": 15943
    },
    {
      "epoch": 16.252803261977572,
      "grad_norm": 0.06780901551246643,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 15944
    },
    {
      "epoch": 16.25382262996942,
      "grad_norm": 0.09271728247404099,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 15945
    },
    {
      "epoch": 16.254841997961265,
      "grad_norm": 0.01929609850049019,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15946
    },
    {
      "epoch": 16.25586136595311,
      "grad_norm": 0.02688705548644066,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 15947
    },
    {
      "epoch": 16.256880733944953,
      "grad_norm": 0.017079146578907967,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 15948
    },
    {
      "epoch": 16.257900101936798,
      "grad_norm": 0.02993808127939701,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 15949
    },
    {
      "epoch": 16.258919469928646,
      "grad_norm": 0.039694398641586304,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15950
    },
    {
      "epoch": 16.25993883792049,
      "grad_norm": 0.07187642902135849,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15951
    },
    {
      "epoch": 16.260958205912335,
      "grad_norm": 0.09511900693178177,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 15952
    },
    {
      "epoch": 16.26197757390418,
      "grad_norm": 0.07727741450071335,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 15953
    },
    {
      "epoch": 16.262996941896024,
      "grad_norm": 0.061403241008520126,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 15954
    },
    {
      "epoch": 16.264016309887868,
      "grad_norm": 0.039895474910736084,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 15955
    },
    {
      "epoch": 16.265035677879716,
      "grad_norm": 0.0385829322040081,
      "learning_rate": 0.0005,
      "loss": 0.1818,
      "step": 15956
    },
    {
      "epoch": 16.26605504587156,
      "grad_norm": 0.24807794392108917,
      "learning_rate": 0.0005,
      "loss": 0.1514,
      "step": 15957
    },
    {
      "epoch": 16.267074413863405,
      "grad_norm": 0.0839407667517662,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 15958
    },
    {
      "epoch": 16.26809378185525,
      "grad_norm": 0.11138474196195602,
      "learning_rate": 0.0005,
      "loss": 0.1821,
      "step": 15959
    },
    {
      "epoch": 16.269113149847094,
      "grad_norm": 0.08609957993030548,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 15960
    },
    {
      "epoch": 16.270132517838938,
      "grad_norm": 0.01814885064959526,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 15961
    },
    {
      "epoch": 16.271151885830786,
      "grad_norm": 0.09293656051158905,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 15962
    },
    {
      "epoch": 16.27217125382263,
      "grad_norm": 0.06675753742456436,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 15963
    },
    {
      "epoch": 16.273190621814475,
      "grad_norm": 0.12562784552574158,
      "learning_rate": 0.0005,
      "loss": 0.1793,
      "step": 15964
    },
    {
      "epoch": 16.27420998980632,
      "grad_norm": 0.023544907569885254,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 15965
    },
    {
      "epoch": 16.275229357798164,
      "grad_norm": 0.09085693210363388,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 15966
    },
    {
      "epoch": 16.276248725790012,
      "grad_norm": 0.1441657990217209,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 15967
    },
    {
      "epoch": 16.277268093781856,
      "grad_norm": 0.12018894404172897,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 15968
    },
    {
      "epoch": 16.2782874617737,
      "grad_norm": 0.09607309848070145,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 15969
    },
    {
      "epoch": 16.279306829765545,
      "grad_norm": 0.048817068338394165,
      "learning_rate": 0.0005,
      "loss": 0.1877,
      "step": 15970
    },
    {
      "epoch": 16.28032619775739,
      "grad_norm": 0.04662758484482765,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 15971
    },
    {
      "epoch": 16.281345565749234,
      "grad_norm": 0.042000662535429,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 15972
    },
    {
      "epoch": 16.282364933741082,
      "grad_norm": 0.04877941682934761,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 15973
    },
    {
      "epoch": 16.283384301732927,
      "grad_norm": 0.07473514974117279,
      "learning_rate": 0.0005,
      "loss": 0.1827,
      "step": 15974
    },
    {
      "epoch": 16.28440366972477,
      "grad_norm": 0.08533821254968643,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 15975
    },
    {
      "epoch": 16.285423037716615,
      "grad_norm": 0.030490338802337646,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 15976
    },
    {
      "epoch": 16.28644240570846,
      "grad_norm": 0.03561634197831154,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 15977
    },
    {
      "epoch": 16.287461773700304,
      "grad_norm": 0.041991349309682846,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 15978
    },
    {
      "epoch": 16.288481141692152,
      "grad_norm": 0.09608869254589081,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 15979
    },
    {
      "epoch": 16.289500509683997,
      "grad_norm": 0.09605298191308975,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 15980
    },
    {
      "epoch": 16.29051987767584,
      "grad_norm": 0.03857738897204399,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 15981
    },
    {
      "epoch": 16.291539245667686,
      "grad_norm": 0.058098193258047104,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 15982
    },
    {
      "epoch": 16.29255861365953,
      "grad_norm": 0.05124230310320854,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 15983
    },
    {
      "epoch": 16.293577981651374,
      "grad_norm": 0.09095349162817001,
      "learning_rate": 0.0005,
      "loss": 0.1899,
      "step": 15984
    },
    {
      "epoch": 16.294597349643222,
      "grad_norm": 0.039921559393405914,
      "learning_rate": 0.0005,
      "loss": 0.1498,
      "step": 15985
    },
    {
      "epoch": 16.295616717635067,
      "grad_norm": 0.046653490513563156,
      "learning_rate": 0.0005,
      "loss": 0.1516,
      "step": 15986
    },
    {
      "epoch": 16.29663608562691,
      "grad_norm": 0.10606983304023743,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 15987
    },
    {
      "epoch": 16.297655453618756,
      "grad_norm": 0.030765695497393608,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 15988
    },
    {
      "epoch": 16.2986748216106,
      "grad_norm": 0.051486678421497345,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 15989
    },
    {
      "epoch": 16.299694189602448,
      "grad_norm": 0.023427188396453857,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 15990
    },
    {
      "epoch": 16.300713557594293,
      "grad_norm": 0.054606564342975616,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 15991
    },
    {
      "epoch": 16.301732925586137,
      "grad_norm": 0.03656543046236038,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 15992
    },
    {
      "epoch": 16.30275229357798,
      "grad_norm": 0.07589969038963318,
      "learning_rate": 0.0005,
      "loss": 0.172,
      "step": 15993
    },
    {
      "epoch": 16.303771661569826,
      "grad_norm": 0.09628839790821075,
      "learning_rate": 0.0005,
      "loss": 0.1499,
      "step": 15994
    },
    {
      "epoch": 16.30479102956167,
      "grad_norm": 0.11949082463979721,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 15995
    },
    {
      "epoch": 16.30581039755352,
      "grad_norm": 0.06482767313718796,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 15996
    },
    {
      "epoch": 16.306829765545363,
      "grad_norm": 0.03360101953148842,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 15997
    },
    {
      "epoch": 16.307849133537207,
      "grad_norm": 0.05789605528116226,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 15998
    },
    {
      "epoch": 16.30886850152905,
      "grad_norm": 0.1204458475112915,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 15999
    },
    {
      "epoch": 16.309887869520896,
      "grad_norm": 0.06634150445461273,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16000
    },
    {
      "epoch": 16.31090723751274,
      "grad_norm": 0.03340102359652519,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 16001
    },
    {
      "epoch": 16.31192660550459,
      "grad_norm": 0.06374800950288773,
      "learning_rate": 0.0005,
      "loss": 0.1567,
      "step": 16002
    },
    {
      "epoch": 16.312945973496433,
      "grad_norm": 0.04197517782449722,
      "learning_rate": 0.0005,
      "loss": 0.1593,
      "step": 16003
    },
    {
      "epoch": 16.313965341488277,
      "grad_norm": 0.0284116268157959,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 16004
    },
    {
      "epoch": 16.31498470948012,
      "grad_norm": 0.09383174031972885,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 16005
    },
    {
      "epoch": 16.316004077471966,
      "grad_norm": 0.03214028477668762,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 16006
    },
    {
      "epoch": 16.317023445463814,
      "grad_norm": 0.09930381178855896,
      "learning_rate": 0.0005,
      "loss": 0.1793,
      "step": 16007
    },
    {
      "epoch": 16.31804281345566,
      "grad_norm": 0.03730287402868271,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16008
    },
    {
      "epoch": 16.319062181447503,
      "grad_norm": 0.0562189482152462,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16009
    },
    {
      "epoch": 16.320081549439347,
      "grad_norm": 0.08133073151111603,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 16010
    },
    {
      "epoch": 16.321100917431192,
      "grad_norm": 0.05730350315570831,
      "learning_rate": 0.0005,
      "loss": 0.1742,
      "step": 16011
    },
    {
      "epoch": 16.322120285423036,
      "grad_norm": 0.030524935573339462,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 16012
    },
    {
      "epoch": 16.323139653414884,
      "grad_norm": 0.0741628035902977,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16013
    },
    {
      "epoch": 16.32415902140673,
      "grad_norm": 0.04605502635240555,
      "learning_rate": 0.0005,
      "loss": 0.1547,
      "step": 16014
    },
    {
      "epoch": 16.325178389398573,
      "grad_norm": 0.02468547597527504,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 16015
    },
    {
      "epoch": 16.326197757390418,
      "grad_norm": 0.034959565848112106,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 16016
    },
    {
      "epoch": 16.327217125382262,
      "grad_norm": 0.037856701761484146,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 16017
    },
    {
      "epoch": 16.328236493374106,
      "grad_norm": 0.0632367953658104,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 16018
    },
    {
      "epoch": 16.329255861365954,
      "grad_norm": 0.041048821061849594,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 16019
    },
    {
      "epoch": 16.3302752293578,
      "grad_norm": 0.04922642186284065,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 16020
    },
    {
      "epoch": 16.331294597349643,
      "grad_norm": 0.09343424439430237,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16021
    },
    {
      "epoch": 16.332313965341488,
      "grad_norm": 0.04340202733874321,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 16022
    },
    {
      "epoch": 16.333333333333332,
      "grad_norm": 0.09195797890424728,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 16023
    },
    {
      "epoch": 16.33435270132518,
      "grad_norm": 0.11883152276277542,
      "learning_rate": 0.0005,
      "loss": 0.1915,
      "step": 16024
    },
    {
      "epoch": 16.335372069317025,
      "grad_norm": 0.07105295360088348,
      "learning_rate": 0.0005,
      "loss": 0.1884,
      "step": 16025
    },
    {
      "epoch": 16.33639143730887,
      "grad_norm": 0.07476861029863358,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 16026
    },
    {
      "epoch": 16.337410805300713,
      "grad_norm": 0.04926592484116554,
      "learning_rate": 0.0005,
      "loss": 0.1929,
      "step": 16027
    },
    {
      "epoch": 16.338430173292558,
      "grad_norm": 0.055001866072416306,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16028
    },
    {
      "epoch": 16.339449541284402,
      "grad_norm": 0.03150220960378647,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 16029
    },
    {
      "epoch": 16.34046890927625,
      "grad_norm": 0.051044851541519165,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 16030
    },
    {
      "epoch": 16.341488277268095,
      "grad_norm": 0.04254790395498276,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 16031
    },
    {
      "epoch": 16.34250764525994,
      "grad_norm": 0.06581446528434753,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 16032
    },
    {
      "epoch": 16.343527013251784,
      "grad_norm": 0.0421704463660717,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 16033
    },
    {
      "epoch": 16.344546381243628,
      "grad_norm": 0.0354047492146492,
      "learning_rate": 0.0005,
      "loss": 0.1998,
      "step": 16034
    },
    {
      "epoch": 16.345565749235472,
      "grad_norm": 0.06666573137044907,
      "learning_rate": 0.0005,
      "loss": 0.1906,
      "step": 16035
    },
    {
      "epoch": 16.34658511722732,
      "grad_norm": 0.0838015079498291,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 16036
    },
    {
      "epoch": 16.347604485219165,
      "grad_norm": 0.03450404852628708,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 16037
    },
    {
      "epoch": 16.34862385321101,
      "grad_norm": 0.051004428416490555,
      "learning_rate": 0.0005,
      "loss": 0.175,
      "step": 16038
    },
    {
      "epoch": 16.349643221202854,
      "grad_norm": 0.032645754516124725,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 16039
    },
    {
      "epoch": 16.350662589194698,
      "grad_norm": 0.06203148141503334,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 16040
    },
    {
      "epoch": 16.351681957186543,
      "grad_norm": 0.13232934474945068,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 16041
    },
    {
      "epoch": 16.35270132517839,
      "grad_norm": 0.021435892209410667,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 16042
    },
    {
      "epoch": 16.353720693170235,
      "grad_norm": 0.06441883742809296,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 16043
    },
    {
      "epoch": 16.35474006116208,
      "grad_norm": 0.02031281590461731,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 16044
    },
    {
      "epoch": 16.355759429153924,
      "grad_norm": 0.04390488937497139,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 16045
    },
    {
      "epoch": 16.35677879714577,
      "grad_norm": 0.015203704126179218,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 16046
    },
    {
      "epoch": 16.357798165137616,
      "grad_norm": 0.04473511129617691,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 16047
    },
    {
      "epoch": 16.35881753312946,
      "grad_norm": 0.040741901844739914,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 16048
    },
    {
      "epoch": 16.359836901121305,
      "grad_norm": 0.08144884556531906,
      "learning_rate": 0.0005,
      "loss": 0.1855,
      "step": 16049
    },
    {
      "epoch": 16.36085626911315,
      "grad_norm": 0.04177310690283775,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 16050
    },
    {
      "epoch": 16.361875637104994,
      "grad_norm": 0.0927162691950798,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16051
    },
    {
      "epoch": 16.36289500509684,
      "grad_norm": 0.16422154009342194,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 16052
    },
    {
      "epoch": 16.363914373088686,
      "grad_norm": 0.06082267686724663,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 16053
    },
    {
      "epoch": 16.36493374108053,
      "grad_norm": 0.01932341419160366,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16054
    },
    {
      "epoch": 16.365953109072375,
      "grad_norm": 0.08956745266914368,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 16055
    },
    {
      "epoch": 16.36697247706422,
      "grad_norm": 0.05241616070270538,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16056
    },
    {
      "epoch": 16.367991845056064,
      "grad_norm": 0.05702149495482445,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 16057
    },
    {
      "epoch": 16.36901121304791,
      "grad_norm": 0.01889197900891304,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 16058
    },
    {
      "epoch": 16.370030581039757,
      "grad_norm": 0.05272124707698822,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 16059
    },
    {
      "epoch": 16.3710499490316,
      "grad_norm": 0.08095896989107132,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 16060
    },
    {
      "epoch": 16.372069317023445,
      "grad_norm": 0.06314343214035034,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 16061
    },
    {
      "epoch": 16.37308868501529,
      "grad_norm": 0.031910043209791183,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 16062
    },
    {
      "epoch": 16.374108053007134,
      "grad_norm": 0.03936692327260971,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 16063
    },
    {
      "epoch": 16.375127420998982,
      "grad_norm": 0.027780473232269287,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 16064
    },
    {
      "epoch": 16.376146788990827,
      "grad_norm": 0.03005792200565338,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 16065
    },
    {
      "epoch": 16.37716615698267,
      "grad_norm": 0.020993554964661598,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 16066
    },
    {
      "epoch": 16.378185524974516,
      "grad_norm": 0.04901013523340225,
      "learning_rate": 0.0005,
      "loss": 0.1886,
      "step": 16067
    },
    {
      "epoch": 16.37920489296636,
      "grad_norm": 0.027314620092511177,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 16068
    },
    {
      "epoch": 16.380224260958204,
      "grad_norm": 0.037531573325395584,
      "learning_rate": 0.0005,
      "loss": 0.1624,
      "step": 16069
    },
    {
      "epoch": 16.381243628950052,
      "grad_norm": 0.014780608005821705,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16070
    },
    {
      "epoch": 16.382262996941897,
      "grad_norm": 0.027495739981532097,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16071
    },
    {
      "epoch": 16.38328236493374,
      "grad_norm": 0.07184932380914688,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 16072
    },
    {
      "epoch": 16.384301732925586,
      "grad_norm": 0.09484262019395828,
      "learning_rate": 0.0005,
      "loss": 0.1866,
      "step": 16073
    },
    {
      "epoch": 16.38532110091743,
      "grad_norm": 0.029489371925592422,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 16074
    },
    {
      "epoch": 16.386340468909275,
      "grad_norm": 0.022304780781269073,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 16075
    },
    {
      "epoch": 16.387359836901123,
      "grad_norm": 0.0580761656165123,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 16076
    },
    {
      "epoch": 16.388379204892967,
      "grad_norm": 0.03117649257183075,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 16077
    },
    {
      "epoch": 16.38939857288481,
      "grad_norm": 0.11157175898551941,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 16078
    },
    {
      "epoch": 16.390417940876656,
      "grad_norm": 0.0709124505519867,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 16079
    },
    {
      "epoch": 16.3914373088685,
      "grad_norm": 0.05908359959721565,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 16080
    },
    {
      "epoch": 16.39245667686035,
      "grad_norm": 0.019465269520878792,
      "learning_rate": 0.0005,
      "loss": 0.1492,
      "step": 16081
    },
    {
      "epoch": 16.393476044852193,
      "grad_norm": 0.0356002077460289,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 16082
    },
    {
      "epoch": 16.394495412844037,
      "grad_norm": 0.01692132279276848,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 16083
    },
    {
      "epoch": 16.39551478083588,
      "grad_norm": 0.08153880387544632,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 16084
    },
    {
      "epoch": 16.396534148827726,
      "grad_norm": 0.03950842469930649,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 16085
    },
    {
      "epoch": 16.39755351681957,
      "grad_norm": 0.03363605588674545,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 16086
    },
    {
      "epoch": 16.39857288481142,
      "grad_norm": 0.031289905309677124,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 16087
    },
    {
      "epoch": 16.399592252803263,
      "grad_norm": 0.025317193940281868,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 16088
    },
    {
      "epoch": 16.400611620795107,
      "grad_norm": 0.042847733944654465,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 16089
    },
    {
      "epoch": 16.401630988786952,
      "grad_norm": 0.0368446446955204,
      "learning_rate": 0.0005,
      "loss": 0.1896,
      "step": 16090
    },
    {
      "epoch": 16.402650356778796,
      "grad_norm": 0.07199351489543915,
      "learning_rate": 0.0005,
      "loss": 0.1511,
      "step": 16091
    },
    {
      "epoch": 16.40366972477064,
      "grad_norm": 0.050862230360507965,
      "learning_rate": 0.0005,
      "loss": 0.15,
      "step": 16092
    },
    {
      "epoch": 16.40468909276249,
      "grad_norm": 0.052251365035772324,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16093
    },
    {
      "epoch": 16.405708460754333,
      "grad_norm": 0.08229806274175644,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 16094
    },
    {
      "epoch": 16.406727828746178,
      "grad_norm": 0.027166936546564102,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 16095
    },
    {
      "epoch": 16.407747196738022,
      "grad_norm": 0.01922285556793213,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 16096
    },
    {
      "epoch": 16.408766564729866,
      "grad_norm": 0.03699234127998352,
      "learning_rate": 0.0005,
      "loss": 0.1598,
      "step": 16097
    },
    {
      "epoch": 16.40978593272171,
      "grad_norm": 0.06140894070267677,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 16098
    },
    {
      "epoch": 16.41080530071356,
      "grad_norm": 0.023883655667304993,
      "learning_rate": 0.0005,
      "loss": 0.1614,
      "step": 16099
    },
    {
      "epoch": 16.411824668705403,
      "grad_norm": 0.03585069626569748,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 16100
    },
    {
      "epoch": 16.412844036697248,
      "grad_norm": 0.03809244558215141,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16101
    },
    {
      "epoch": 16.413863404689092,
      "grad_norm": 0.0896812304854393,
      "learning_rate": 0.0005,
      "loss": 0.1855,
      "step": 16102
    },
    {
      "epoch": 16.414882772680937,
      "grad_norm": 0.05254750698804855,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 16103
    },
    {
      "epoch": 16.415902140672785,
      "grad_norm": 0.0680842250585556,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 16104
    },
    {
      "epoch": 16.41692150866463,
      "grad_norm": 0.031079277396202087,
      "learning_rate": 0.0005,
      "loss": 0.1523,
      "step": 16105
    },
    {
      "epoch": 16.417940876656473,
      "grad_norm": 0.04412168264389038,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 16106
    },
    {
      "epoch": 16.418960244648318,
      "grad_norm": 0.03022235445678234,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 16107
    },
    {
      "epoch": 16.419979612640162,
      "grad_norm": 0.016052404418587685,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 16108
    },
    {
      "epoch": 16.420998980632007,
      "grad_norm": 0.02491188980638981,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 16109
    },
    {
      "epoch": 16.422018348623855,
      "grad_norm": 0.07231205701828003,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 16110
    },
    {
      "epoch": 16.4230377166157,
      "grad_norm": 0.04683303087949753,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 16111
    },
    {
      "epoch": 16.424057084607544,
      "grad_norm": 0.03431324288249016,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 16112
    },
    {
      "epoch": 16.425076452599388,
      "grad_norm": 0.02824239619076252,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 16113
    },
    {
      "epoch": 16.426095820591232,
      "grad_norm": 0.021043408662080765,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 16114
    },
    {
      "epoch": 16.427115188583077,
      "grad_norm": 0.06842199712991714,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16115
    },
    {
      "epoch": 16.428134556574925,
      "grad_norm": 0.031044257804751396,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16116
    },
    {
      "epoch": 16.42915392456677,
      "grad_norm": 0.03377629071474075,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 16117
    },
    {
      "epoch": 16.430173292558614,
      "grad_norm": 0.066810242831707,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 16118
    },
    {
      "epoch": 16.431192660550458,
      "grad_norm": 0.04542933776974678,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 16119
    },
    {
      "epoch": 16.432212028542303,
      "grad_norm": 0.04241170361638069,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 16120
    },
    {
      "epoch": 16.43323139653415,
      "grad_norm": 0.013078311458230019,
      "learning_rate": 0.0005,
      "loss": 0.1541,
      "step": 16121
    },
    {
      "epoch": 16.434250764525995,
      "grad_norm": 0.020823607221245766,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 16122
    },
    {
      "epoch": 16.43527013251784,
      "grad_norm": 0.06614398956298828,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16123
    },
    {
      "epoch": 16.436289500509684,
      "grad_norm": 0.1147255226969719,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16124
    },
    {
      "epoch": 16.43730886850153,
      "grad_norm": 0.02047301083803177,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 16125
    },
    {
      "epoch": 16.438328236493373,
      "grad_norm": 0.10865048319101334,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 16126
    },
    {
      "epoch": 16.43934760448522,
      "grad_norm": 0.04014423117041588,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 16127
    },
    {
      "epoch": 16.440366972477065,
      "grad_norm": 0.17884649336338043,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16128
    },
    {
      "epoch": 16.44138634046891,
      "grad_norm": 0.018866946920752525,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 16129
    },
    {
      "epoch": 16.442405708460754,
      "grad_norm": 0.057550594210624695,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16130
    },
    {
      "epoch": 16.4434250764526,
      "grad_norm": 0.06050153449177742,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 16131
    },
    {
      "epoch": 16.444444444444443,
      "grad_norm": 0.04497891664505005,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 16132
    },
    {
      "epoch": 16.44546381243629,
      "grad_norm": 0.0638996958732605,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 16133
    },
    {
      "epoch": 16.446483180428135,
      "grad_norm": 0.04724021628499031,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 16134
    },
    {
      "epoch": 16.44750254841998,
      "grad_norm": 0.03600167855620384,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16135
    },
    {
      "epoch": 16.448521916411824,
      "grad_norm": 0.035426728427410126,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 16136
    },
    {
      "epoch": 16.44954128440367,
      "grad_norm": 0.05752960965037346,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16137
    },
    {
      "epoch": 16.450560652395517,
      "grad_norm": 0.027222180739045143,
      "learning_rate": 0.0005,
      "loss": 0.1545,
      "step": 16138
    },
    {
      "epoch": 16.45158002038736,
      "grad_norm": 0.048391927033662796,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 16139
    },
    {
      "epoch": 16.452599388379205,
      "grad_norm": 0.03621832653880119,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 16140
    },
    {
      "epoch": 16.45361875637105,
      "grad_norm": 0.07339336723089218,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 16141
    },
    {
      "epoch": 16.454638124362894,
      "grad_norm": 0.07569921016693115,
      "learning_rate": 0.0005,
      "loss": 0.1852,
      "step": 16142
    },
    {
      "epoch": 16.45565749235474,
      "grad_norm": 0.0744858905673027,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 16143
    },
    {
      "epoch": 16.456676860346587,
      "grad_norm": 0.02999144047498703,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16144
    },
    {
      "epoch": 16.45769622833843,
      "grad_norm": 0.05874331668019295,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 16145
    },
    {
      "epoch": 16.458715596330276,
      "grad_norm": 0.027125906199216843,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 16146
    },
    {
      "epoch": 16.45973496432212,
      "grad_norm": 0.10890570282936096,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 16147
    },
    {
      "epoch": 16.460754332313964,
      "grad_norm": 0.054433826357126236,
      "learning_rate": 0.0005,
      "loss": 0.156,
      "step": 16148
    },
    {
      "epoch": 16.46177370030581,
      "grad_norm": 0.03448646143078804,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16149
    },
    {
      "epoch": 16.462793068297657,
      "grad_norm": 0.057952046394348145,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 16150
    },
    {
      "epoch": 16.4638124362895,
      "grad_norm": 0.08620626479387283,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 16151
    },
    {
      "epoch": 16.464831804281346,
      "grad_norm": 0.15402798354625702,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 16152
    },
    {
      "epoch": 16.46585117227319,
      "grad_norm": 0.047917772084474564,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 16153
    },
    {
      "epoch": 16.466870540265035,
      "grad_norm": 0.08179076015949249,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 16154
    },
    {
      "epoch": 16.46788990825688,
      "grad_norm": 0.01653863675892353,
      "learning_rate": 0.0005,
      "loss": 0.1536,
      "step": 16155
    },
    {
      "epoch": 16.468909276248727,
      "grad_norm": 0.019857928156852722,
      "learning_rate": 0.0005,
      "loss": 0.1448,
      "step": 16156
    },
    {
      "epoch": 16.46992864424057,
      "grad_norm": 0.06583592295646667,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 16157
    },
    {
      "epoch": 16.470948012232416,
      "grad_norm": 0.0353471040725708,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 16158
    },
    {
      "epoch": 16.47196738022426,
      "grad_norm": 0.040307145565748215,
      "learning_rate": 0.0005,
      "loss": 0.1698,
      "step": 16159
    },
    {
      "epoch": 16.472986748216105,
      "grad_norm": 0.042659904807806015,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 16160
    },
    {
      "epoch": 16.474006116207953,
      "grad_norm": 0.07255759090185165,
      "learning_rate": 0.0005,
      "loss": 0.1887,
      "step": 16161
    },
    {
      "epoch": 16.475025484199797,
      "grad_norm": 0.04355701431632042,
      "learning_rate": 0.0005,
      "loss": 0.1558,
      "step": 16162
    },
    {
      "epoch": 16.47604485219164,
      "grad_norm": 0.1999855786561966,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 16163
    },
    {
      "epoch": 16.477064220183486,
      "grad_norm": 0.3958694636821747,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 16164
    },
    {
      "epoch": 16.47808358817533,
      "grad_norm": 0.04542820155620575,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 16165
    },
    {
      "epoch": 16.479102956167175,
      "grad_norm": 0.03805472329258919,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 16166
    },
    {
      "epoch": 16.480122324159023,
      "grad_norm": 0.034201085567474365,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 16167
    },
    {
      "epoch": 16.481141692150867,
      "grad_norm": 0.07256994396448135,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 16168
    },
    {
      "epoch": 16.48216106014271,
      "grad_norm": 0.07755021750926971,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16169
    },
    {
      "epoch": 16.483180428134556,
      "grad_norm": 0.03520679101347923,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 16170
    },
    {
      "epoch": 16.4841997961264,
      "grad_norm": 0.058867134153842926,
      "learning_rate": 0.0005,
      "loss": 0.1558,
      "step": 16171
    },
    {
      "epoch": 16.485219164118245,
      "grad_norm": 0.08749465644359589,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 16172
    },
    {
      "epoch": 16.486238532110093,
      "grad_norm": 0.028342870995402336,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 16173
    },
    {
      "epoch": 16.487257900101937,
      "grad_norm": 0.06954582035541534,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 16174
    },
    {
      "epoch": 16.488277268093782,
      "grad_norm": 0.06076708436012268,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 16175
    },
    {
      "epoch": 16.489296636085626,
      "grad_norm": 0.07436946779489517,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 16176
    },
    {
      "epoch": 16.49031600407747,
      "grad_norm": 0.021863257512450218,
      "learning_rate": 0.0005,
      "loss": 0.1604,
      "step": 16177
    },
    {
      "epoch": 16.49133537206932,
      "grad_norm": 0.14933301508426666,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 16178
    },
    {
      "epoch": 16.492354740061163,
      "grad_norm": 0.03484277054667473,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16179
    },
    {
      "epoch": 16.493374108053008,
      "grad_norm": 0.05425455421209335,
      "learning_rate": 0.0005,
      "loss": 0.1565,
      "step": 16180
    },
    {
      "epoch": 16.494393476044852,
      "grad_norm": 0.04197201877832413,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 16181
    },
    {
      "epoch": 16.495412844036696,
      "grad_norm": 0.05146969109773636,
      "learning_rate": 0.0005,
      "loss": 0.1808,
      "step": 16182
    },
    {
      "epoch": 16.49643221202854,
      "grad_norm": 0.1174786314368248,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16183
    },
    {
      "epoch": 16.49745158002039,
      "grad_norm": 0.054994191974401474,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 16184
    },
    {
      "epoch": 16.498470948012233,
      "grad_norm": 0.14701372385025024,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16185
    },
    {
      "epoch": 16.499490316004078,
      "grad_norm": 0.02961227484047413,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 16186
    },
    {
      "epoch": 16.500509683995922,
      "grad_norm": 0.07481372356414795,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 16187
    },
    {
      "epoch": 16.501529051987767,
      "grad_norm": 0.03739412501454353,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16188
    },
    {
      "epoch": 16.50254841997961,
      "grad_norm": 0.06721173226833344,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 16189
    },
    {
      "epoch": 16.50356778797146,
      "grad_norm": 0.11536245048046112,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 16190
    },
    {
      "epoch": 16.504587155963304,
      "grad_norm": 0.06976788491010666,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 16191
    },
    {
      "epoch": 16.505606523955148,
      "grad_norm": 0.10515574365854263,
      "learning_rate": 0.0005,
      "loss": 0.1833,
      "step": 16192
    },
    {
      "epoch": 16.506625891946992,
      "grad_norm": 0.06454658508300781,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 16193
    },
    {
      "epoch": 16.507645259938837,
      "grad_norm": 0.08120987564325333,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 16194
    },
    {
      "epoch": 16.508664627930685,
      "grad_norm": 0.047753140330314636,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16195
    },
    {
      "epoch": 16.50968399592253,
      "grad_norm": 0.058406952768564224,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 16196
    },
    {
      "epoch": 16.510703363914374,
      "grad_norm": 0.12636955082416534,
      "learning_rate": 0.0005,
      "loss": 0.1857,
      "step": 16197
    },
    {
      "epoch": 16.511722731906218,
      "grad_norm": 0.06479834765195847,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 16198
    },
    {
      "epoch": 16.512742099898063,
      "grad_norm": 0.11654812842607498,
      "learning_rate": 0.0005,
      "loss": 0.1848,
      "step": 16199
    },
    {
      "epoch": 16.513761467889907,
      "grad_norm": 0.05792379751801491,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16200
    },
    {
      "epoch": 16.514780835881755,
      "grad_norm": 0.019747186452150345,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16201
    },
    {
      "epoch": 16.5158002038736,
      "grad_norm": 0.11583877354860306,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16202
    },
    {
      "epoch": 16.516819571865444,
      "grad_norm": 0.03817971423268318,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 16203
    },
    {
      "epoch": 16.51783893985729,
      "grad_norm": 0.014377696439623833,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 16204
    },
    {
      "epoch": 16.518858307849133,
      "grad_norm": 0.03702126443386078,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 16205
    },
    {
      "epoch": 16.519877675840977,
      "grad_norm": 0.11606847494840622,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 16206
    },
    {
      "epoch": 16.520897043832825,
      "grad_norm": 0.11436782777309418,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 16207
    },
    {
      "epoch": 16.52191641182467,
      "grad_norm": 0.28087401390075684,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 16208
    },
    {
      "epoch": 16.522935779816514,
      "grad_norm": 0.032326940447092056,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 16209
    },
    {
      "epoch": 16.52395514780836,
      "grad_norm": 0.22037503123283386,
      "learning_rate": 0.0005,
      "loss": 0.1819,
      "step": 16210
    },
    {
      "epoch": 16.524974515800203,
      "grad_norm": 0.03451086953282356,
      "learning_rate": 0.0005,
      "loss": 0.1855,
      "step": 16211
    },
    {
      "epoch": 16.525993883792047,
      "grad_norm": 0.03616761416196823,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 16212
    },
    {
      "epoch": 16.527013251783895,
      "grad_norm": 0.042236294597387314,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16213
    },
    {
      "epoch": 16.52803261977574,
      "grad_norm": 0.1101667732000351,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 16214
    },
    {
      "epoch": 16.529051987767584,
      "grad_norm": 0.030884388834238052,
      "learning_rate": 0.0005,
      "loss": 0.1582,
      "step": 16215
    },
    {
      "epoch": 16.53007135575943,
      "grad_norm": 0.06493762135505676,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 16216
    },
    {
      "epoch": 16.531090723751273,
      "grad_norm": 0.03754059225320816,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 16217
    },
    {
      "epoch": 16.53211009174312,
      "grad_norm": 0.04011540487408638,
      "learning_rate": 0.0005,
      "loss": 0.1587,
      "step": 16218
    },
    {
      "epoch": 16.533129459734965,
      "grad_norm": 0.07201861590147018,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 16219
    },
    {
      "epoch": 16.53414882772681,
      "grad_norm": 0.07025039196014404,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 16220
    },
    {
      "epoch": 16.535168195718654,
      "grad_norm": 0.057897429913282394,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16221
    },
    {
      "epoch": 16.5361875637105,
      "grad_norm": 0.2757050096988678,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 16222
    },
    {
      "epoch": 16.537206931702343,
      "grad_norm": 0.08039789646863937,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 16223
    },
    {
      "epoch": 16.53822629969419,
      "grad_norm": 0.057079050689935684,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 16224
    },
    {
      "epoch": 16.539245667686036,
      "grad_norm": 0.06453495472669601,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 16225
    },
    {
      "epoch": 16.54026503567788,
      "grad_norm": 0.05031061917543411,
      "learning_rate": 0.0005,
      "loss": 0.1567,
      "step": 16226
    },
    {
      "epoch": 16.541284403669724,
      "grad_norm": 0.03398266062140465,
      "learning_rate": 0.0005,
      "loss": 0.1702,
      "step": 16227
    },
    {
      "epoch": 16.54230377166157,
      "grad_norm": 0.05507688969373703,
      "learning_rate": 0.0005,
      "loss": 0.1603,
      "step": 16228
    },
    {
      "epoch": 16.543323139653413,
      "grad_norm": 0.10533292591571808,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 16229
    },
    {
      "epoch": 16.54434250764526,
      "grad_norm": 0.039294783025979996,
      "learning_rate": 0.0005,
      "loss": 0.1537,
      "step": 16230
    },
    {
      "epoch": 16.545361875637106,
      "grad_norm": 0.048716213554143906,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 16231
    },
    {
      "epoch": 16.54638124362895,
      "grad_norm": 0.12321875989437103,
      "learning_rate": 0.0005,
      "loss": 0.1725,
      "step": 16232
    },
    {
      "epoch": 16.547400611620795,
      "grad_norm": 0.31603747606277466,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16233
    },
    {
      "epoch": 16.54841997961264,
      "grad_norm": 0.04601958394050598,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16234
    },
    {
      "epoch": 16.549439347604483,
      "grad_norm": 0.10273081809282303,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 16235
    },
    {
      "epoch": 16.55045871559633,
      "grad_norm": 0.05876263976097107,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16236
    },
    {
      "epoch": 16.551478083588176,
      "grad_norm": 0.053769201040267944,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 16237
    },
    {
      "epoch": 16.55249745158002,
      "grad_norm": 0.045156482607126236,
      "learning_rate": 0.0005,
      "loss": 0.1569,
      "step": 16238
    },
    {
      "epoch": 16.553516819571865,
      "grad_norm": 0.24613982439041138,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 16239
    },
    {
      "epoch": 16.55453618756371,
      "grad_norm": 0.07100100815296173,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 16240
    },
    {
      "epoch": 16.555555555555557,
      "grad_norm": 0.09002965688705444,
      "learning_rate": 0.0005,
      "loss": 0.1846,
      "step": 16241
    },
    {
      "epoch": 16.5565749235474,
      "grad_norm": 0.050347454845905304,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 16242
    },
    {
      "epoch": 16.557594291539246,
      "grad_norm": 0.12588098645210266,
      "learning_rate": 0.0005,
      "loss": 0.1653,
      "step": 16243
    },
    {
      "epoch": 16.55861365953109,
      "grad_norm": 0.06027228757739067,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 16244
    },
    {
      "epoch": 16.559633027522935,
      "grad_norm": 0.15279321372509003,
      "learning_rate": 0.0005,
      "loss": 0.162,
      "step": 16245
    },
    {
      "epoch": 16.56065239551478,
      "grad_norm": 0.05142173543572426,
      "learning_rate": 0.0005,
      "loss": 0.1538,
      "step": 16246
    },
    {
      "epoch": 16.561671763506627,
      "grad_norm": 0.1992378830909729,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 16247
    },
    {
      "epoch": 16.56269113149847,
      "grad_norm": 0.08086830377578735,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 16248
    },
    {
      "epoch": 16.563710499490316,
      "grad_norm": 0.07418449223041534,
      "learning_rate": 0.0005,
      "loss": 0.1771,
      "step": 16249
    },
    {
      "epoch": 16.56472986748216,
      "grad_norm": 0.0657871812582016,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 16250
    },
    {
      "epoch": 16.565749235474005,
      "grad_norm": 0.10974393039941788,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 16251
    },
    {
      "epoch": 16.56676860346585,
      "grad_norm": 0.13829289376735687,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 16252
    },
    {
      "epoch": 16.567787971457697,
      "grad_norm": 0.037831805646419525,
      "learning_rate": 0.0005,
      "loss": 0.1577,
      "step": 16253
    },
    {
      "epoch": 16.568807339449542,
      "grad_norm": 0.0401364229619503,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 16254
    },
    {
      "epoch": 16.569826707441386,
      "grad_norm": 0.09505890309810638,
      "learning_rate": 0.0005,
      "loss": 0.1781,
      "step": 16255
    },
    {
      "epoch": 16.57084607543323,
      "grad_norm": 0.04890364408493042,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16256
    },
    {
      "epoch": 16.571865443425075,
      "grad_norm": 0.029715923592448235,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 16257
    },
    {
      "epoch": 16.572884811416923,
      "grad_norm": 0.06794553250074387,
      "learning_rate": 0.0005,
      "loss": 0.1908,
      "step": 16258
    },
    {
      "epoch": 16.573904179408768,
      "grad_norm": 0.40415558218955994,
      "learning_rate": 0.0005,
      "loss": 0.1908,
      "step": 16259
    },
    {
      "epoch": 16.574923547400612,
      "grad_norm": 0.031591203063726425,
      "learning_rate": 0.0005,
      "loss": 0.1544,
      "step": 16260
    },
    {
      "epoch": 16.575942915392456,
      "grad_norm": 0.0662805438041687,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 16261
    },
    {
      "epoch": 16.5769622833843,
      "grad_norm": 0.02377874031662941,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 16262
    },
    {
      "epoch": 16.577981651376145,
      "grad_norm": 0.12105222046375275,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 16263
    },
    {
      "epoch": 16.579001019367993,
      "grad_norm": 0.09918949007987976,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16264
    },
    {
      "epoch": 16.580020387359838,
      "grad_norm": 0.07012127339839935,
      "learning_rate": 0.0005,
      "loss": 0.1838,
      "step": 16265
    },
    {
      "epoch": 16.581039755351682,
      "grad_norm": 0.05556251108646393,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16266
    },
    {
      "epoch": 16.582059123343527,
      "grad_norm": 0.07656718790531158,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16267
    },
    {
      "epoch": 16.58307849133537,
      "grad_norm": 0.055994972586631775,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16268
    },
    {
      "epoch": 16.584097859327215,
      "grad_norm": 0.12064748257398605,
      "learning_rate": 0.0005,
      "loss": 0.1785,
      "step": 16269
    },
    {
      "epoch": 16.585117227319063,
      "grad_norm": 0.03362160921096802,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16270
    },
    {
      "epoch": 16.586136595310908,
      "grad_norm": 0.08408522605895996,
      "learning_rate": 0.0005,
      "loss": 0.161,
      "step": 16271
    },
    {
      "epoch": 16.587155963302752,
      "grad_norm": 0.04574115201830864,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16272
    },
    {
      "epoch": 16.588175331294597,
      "grad_norm": 0.15360690653324127,
      "learning_rate": 0.0005,
      "loss": 0.1854,
      "step": 16273
    },
    {
      "epoch": 16.58919469928644,
      "grad_norm": 0.10739284753799438,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 16274
    },
    {
      "epoch": 16.59021406727829,
      "grad_norm": 0.10008116066455841,
      "learning_rate": 0.0005,
      "loss": 0.1935,
      "step": 16275
    },
    {
      "epoch": 16.591233435270134,
      "grad_norm": 0.09313108772039413,
      "learning_rate": 0.0005,
      "loss": 0.156,
      "step": 16276
    },
    {
      "epoch": 16.592252803261978,
      "grad_norm": 0.025386443361639977,
      "learning_rate": 0.0005,
      "loss": 0.1704,
      "step": 16277
    },
    {
      "epoch": 16.593272171253822,
      "grad_norm": 0.3982659876346588,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 16278
    },
    {
      "epoch": 16.594291539245667,
      "grad_norm": 0.16644859313964844,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 16279
    },
    {
      "epoch": 16.59531090723751,
      "grad_norm": 0.09997642785310745,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 16280
    },
    {
      "epoch": 16.59633027522936,
      "grad_norm": 0.03319508209824562,
      "learning_rate": 0.0005,
      "loss": 0.1592,
      "step": 16281
    },
    {
      "epoch": 16.597349643221204,
      "grad_norm": 0.05377428978681564,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 16282
    },
    {
      "epoch": 16.598369011213048,
      "grad_norm": 0.052714135497808456,
      "learning_rate": 0.0005,
      "loss": 0.1957,
      "step": 16283
    },
    {
      "epoch": 16.599388379204893,
      "grad_norm": 0.02488570287823677,
      "learning_rate": 0.0005,
      "loss": 0.1594,
      "step": 16284
    },
    {
      "epoch": 16.600407747196737,
      "grad_norm": 0.021552979946136475,
      "learning_rate": 0.0005,
      "loss": 0.1525,
      "step": 16285
    },
    {
      "epoch": 16.60142711518858,
      "grad_norm": 0.07754480838775635,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16286
    },
    {
      "epoch": 16.60244648318043,
      "grad_norm": 0.09611421078443527,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 16287
    },
    {
      "epoch": 16.603465851172274,
      "grad_norm": 0.08780641108751297,
      "learning_rate": 0.0005,
      "loss": 0.1975,
      "step": 16288
    },
    {
      "epoch": 16.60448521916412,
      "grad_norm": 0.08473937958478928,
      "learning_rate": 0.0005,
      "loss": 0.187,
      "step": 16289
    },
    {
      "epoch": 16.605504587155963,
      "grad_norm": 0.025655467063188553,
      "learning_rate": 0.0005,
      "loss": 0.1809,
      "step": 16290
    },
    {
      "epoch": 16.606523955147807,
      "grad_norm": 0.08657190203666687,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 16291
    },
    {
      "epoch": 16.60754332313965,
      "grad_norm": 0.12755616009235382,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 16292
    },
    {
      "epoch": 16.6085626911315,
      "grad_norm": 0.14940787851810455,
      "learning_rate": 0.0005,
      "loss": 0.1896,
      "step": 16293
    },
    {
      "epoch": 16.609582059123344,
      "grad_norm": 0.14998358488082886,
      "learning_rate": 0.0005,
      "loss": 0.1786,
      "step": 16294
    },
    {
      "epoch": 16.61060142711519,
      "grad_norm": 0.14542421698570251,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 16295
    },
    {
      "epoch": 16.611620795107033,
      "grad_norm": 0.06313028931617737,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 16296
    },
    {
      "epoch": 16.612640163098877,
      "grad_norm": 0.05536751076579094,
      "learning_rate": 0.0005,
      "loss": 0.1882,
      "step": 16297
    },
    {
      "epoch": 16.613659531090725,
      "grad_norm": 0.08722462505102158,
      "learning_rate": 0.0005,
      "loss": 0.1803,
      "step": 16298
    },
    {
      "epoch": 16.61467889908257,
      "grad_norm": 0.07035064697265625,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 16299
    },
    {
      "epoch": 16.615698267074414,
      "grad_norm": 0.037976380437612534,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16300
    },
    {
      "epoch": 16.61671763506626,
      "grad_norm": 0.05955827981233597,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16301
    },
    {
      "epoch": 16.617737003058103,
      "grad_norm": 0.03437639772891998,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 16302
    },
    {
      "epoch": 16.618756371049948,
      "grad_norm": 0.07091344892978668,
      "learning_rate": 0.0005,
      "loss": 0.1847,
      "step": 16303
    },
    {
      "epoch": 16.619775739041796,
      "grad_norm": 0.10024796426296234,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 16304
    },
    {
      "epoch": 16.62079510703364,
      "grad_norm": 0.048445262014865875,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16305
    },
    {
      "epoch": 16.621814475025484,
      "grad_norm": 0.0382700189948082,
      "learning_rate": 0.0005,
      "loss": 0.1667,
      "step": 16306
    },
    {
      "epoch": 16.62283384301733,
      "grad_norm": 0.062131449580192566,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 16307
    },
    {
      "epoch": 16.623853211009173,
      "grad_norm": 0.054270606487989426,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 16308
    },
    {
      "epoch": 16.624872579001018,
      "grad_norm": 0.032990213483572006,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 16309
    },
    {
      "epoch": 16.625891946992866,
      "grad_norm": 0.06591247767210007,
      "learning_rate": 0.0005,
      "loss": 0.1746,
      "step": 16310
    },
    {
      "epoch": 16.62691131498471,
      "grad_norm": 0.11574828624725342,
      "learning_rate": 0.0005,
      "loss": 0.1885,
      "step": 16311
    },
    {
      "epoch": 16.627930682976555,
      "grad_norm": 0.059800587594509125,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16312
    },
    {
      "epoch": 16.6289500509684,
      "grad_norm": 0.030510392040014267,
      "learning_rate": 0.0005,
      "loss": 0.1517,
      "step": 16313
    },
    {
      "epoch": 16.629969418960243,
      "grad_norm": 0.03182489797472954,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 16314
    },
    {
      "epoch": 16.63098878695209,
      "grad_norm": 0.07495178282260895,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16315
    },
    {
      "epoch": 16.632008154943936,
      "grad_norm": 0.05464543402194977,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 16316
    },
    {
      "epoch": 16.63302752293578,
      "grad_norm": 0.06888019293546677,
      "learning_rate": 0.0005,
      "loss": 0.1516,
      "step": 16317
    },
    {
      "epoch": 16.634046890927625,
      "grad_norm": 0.05426262319087982,
      "learning_rate": 0.0005,
      "loss": 0.1635,
      "step": 16318
    },
    {
      "epoch": 16.63506625891947,
      "grad_norm": 0.264871209859848,
      "learning_rate": 0.0005,
      "loss": 0.1848,
      "step": 16319
    },
    {
      "epoch": 16.636085626911314,
      "grad_norm": 0.04471024498343468,
      "learning_rate": 0.0005,
      "loss": 0.1882,
      "step": 16320
    },
    {
      "epoch": 16.63710499490316,
      "grad_norm": 0.13199397921562195,
      "learning_rate": 0.0005,
      "loss": 0.1726,
      "step": 16321
    },
    {
      "epoch": 16.638124362895006,
      "grad_norm": 0.023486018180847168,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16322
    },
    {
      "epoch": 16.63914373088685,
      "grad_norm": 0.02452140301465988,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 16323
    },
    {
      "epoch": 16.640163098878695,
      "grad_norm": 0.09950321167707443,
      "learning_rate": 0.0005,
      "loss": 0.1881,
      "step": 16324
    },
    {
      "epoch": 16.64118246687054,
      "grad_norm": 0.04043283313512802,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 16325
    },
    {
      "epoch": 16.642201834862384,
      "grad_norm": 0.07520873099565506,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 16326
    },
    {
      "epoch": 16.64322120285423,
      "grad_norm": 0.07185117900371552,
      "learning_rate": 0.0005,
      "loss": 0.1721,
      "step": 16327
    },
    {
      "epoch": 16.644240570846076,
      "grad_norm": 0.06509667634963989,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 16328
    },
    {
      "epoch": 16.64525993883792,
      "grad_norm": 0.11281383782625198,
      "learning_rate": 0.0005,
      "loss": 0.1576,
      "step": 16329
    },
    {
      "epoch": 16.646279306829765,
      "grad_norm": 0.03352266177535057,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 16330
    },
    {
      "epoch": 16.64729867482161,
      "grad_norm": 0.057602014392614365,
      "learning_rate": 0.0005,
      "loss": 0.1575,
      "step": 16331
    },
    {
      "epoch": 16.648318042813457,
      "grad_norm": 0.07901202887296677,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 16332
    },
    {
      "epoch": 16.649337410805302,
      "grad_norm": 0.06274131685495377,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 16333
    },
    {
      "epoch": 16.650356778797146,
      "grad_norm": 0.0746985599398613,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 16334
    },
    {
      "epoch": 16.65137614678899,
      "grad_norm": 0.04724012315273285,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 16335
    },
    {
      "epoch": 16.652395514780835,
      "grad_norm": 0.14027546346187592,
      "learning_rate": 0.0005,
      "loss": 0.1907,
      "step": 16336
    },
    {
      "epoch": 16.65341488277268,
      "grad_norm": 0.03500893712043762,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 16337
    },
    {
      "epoch": 16.654434250764528,
      "grad_norm": 0.04748856648802757,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 16338
    },
    {
      "epoch": 16.655453618756372,
      "grad_norm": 0.08680576831102371,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 16339
    },
    {
      "epoch": 16.656472986748216,
      "grad_norm": 0.08514404296875,
      "learning_rate": 0.0005,
      "loss": 0.1649,
      "step": 16340
    },
    {
      "epoch": 16.65749235474006,
      "grad_norm": 0.057179488241672516,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 16341
    },
    {
      "epoch": 16.658511722731905,
      "grad_norm": 0.1524246484041214,
      "learning_rate": 0.0005,
      "loss": 0.1754,
      "step": 16342
    },
    {
      "epoch": 16.65953109072375,
      "grad_norm": 0.07468949258327484,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 16343
    },
    {
      "epoch": 16.660550458715598,
      "grad_norm": 0.034023888409137726,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16344
    },
    {
      "epoch": 16.661569826707442,
      "grad_norm": 0.10385146737098694,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 16345
    },
    {
      "epoch": 16.662589194699287,
      "grad_norm": 0.09532933682203293,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 16346
    },
    {
      "epoch": 16.66360856269113,
      "grad_norm": 0.04682965949177742,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 16347
    },
    {
      "epoch": 16.664627930682975,
      "grad_norm": 0.04734313115477562,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 16348
    },
    {
      "epoch": 16.66564729867482,
      "grad_norm": 0.06796800345182419,
      "learning_rate": 0.0005,
      "loss": 0.1617,
      "step": 16349
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.07235123217105865,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 16350
    },
    {
      "epoch": 16.667686034658512,
      "grad_norm": 0.03405063599348068,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 16351
    },
    {
      "epoch": 16.668705402650357,
      "grad_norm": 0.05387384817004204,
      "learning_rate": 0.0005,
      "loss": 0.1886,
      "step": 16352
    },
    {
      "epoch": 16.6697247706422,
      "grad_norm": 0.08217691630125046,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16353
    },
    {
      "epoch": 16.670744138634046,
      "grad_norm": 0.07299157232046127,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 16354
    },
    {
      "epoch": 16.671763506625894,
      "grad_norm": 0.02674693986773491,
      "learning_rate": 0.0005,
      "loss": 0.1636,
      "step": 16355
    },
    {
      "epoch": 16.672782874617738,
      "grad_norm": 0.08023477345705032,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16356
    },
    {
      "epoch": 16.673802242609582,
      "grad_norm": 0.08482833951711655,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 16357
    },
    {
      "epoch": 16.674821610601427,
      "grad_norm": 0.04876803606748581,
      "learning_rate": 0.0005,
      "loss": 0.1871,
      "step": 16358
    },
    {
      "epoch": 16.67584097859327,
      "grad_norm": 0.019634105265140533,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 16359
    },
    {
      "epoch": 16.676860346585116,
      "grad_norm": 0.08558550477027893,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 16360
    },
    {
      "epoch": 16.677879714576964,
      "grad_norm": 0.022706802934408188,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 16361
    },
    {
      "epoch": 16.678899082568808,
      "grad_norm": 0.033378150314092636,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 16362
    },
    {
      "epoch": 16.679918450560653,
      "grad_norm": 0.0759645327925682,
      "learning_rate": 0.0005,
      "loss": 0.1797,
      "step": 16363
    },
    {
      "epoch": 16.680937818552497,
      "grad_norm": 0.035983484238386154,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 16364
    },
    {
      "epoch": 16.68195718654434,
      "grad_norm": 0.06980712711811066,
      "learning_rate": 0.0005,
      "loss": 0.1692,
      "step": 16365
    },
    {
      "epoch": 16.682976554536186,
      "grad_norm": 0.07694578170776367,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 16366
    },
    {
      "epoch": 16.683995922528034,
      "grad_norm": 0.02583479695022106,
      "learning_rate": 0.0005,
      "loss": 0.1641,
      "step": 16367
    },
    {
      "epoch": 16.68501529051988,
      "grad_norm": 0.084718257188797,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 16368
    },
    {
      "epoch": 16.686034658511723,
      "grad_norm": 0.04612590745091438,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 16369
    },
    {
      "epoch": 16.687054026503567,
      "grad_norm": 0.04524179920554161,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 16370
    },
    {
      "epoch": 16.68807339449541,
      "grad_norm": 0.07225881516933441,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 16371
    },
    {
      "epoch": 16.68909276248726,
      "grad_norm": 0.03770652785897255,
      "learning_rate": 0.0005,
      "loss": 0.1588,
      "step": 16372
    },
    {
      "epoch": 16.690112130479104,
      "grad_norm": 0.08340060710906982,
      "learning_rate": 0.0005,
      "loss": 0.1685,
      "step": 16373
    },
    {
      "epoch": 16.69113149847095,
      "grad_norm": 0.07549767196178436,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16374
    },
    {
      "epoch": 16.692150866462793,
      "grad_norm": 0.12096596509218216,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 16375
    },
    {
      "epoch": 16.693170234454637,
      "grad_norm": 0.06007751077413559,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 16376
    },
    {
      "epoch": 16.69418960244648,
      "grad_norm": 0.04415005445480347,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 16377
    },
    {
      "epoch": 16.69520897043833,
      "grad_norm": 0.04000863432884216,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16378
    },
    {
      "epoch": 16.696228338430174,
      "grad_norm": 0.04869762435555458,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 16379
    },
    {
      "epoch": 16.69724770642202,
      "grad_norm": 0.05809267237782478,
      "learning_rate": 0.0005,
      "loss": 0.1509,
      "step": 16380
    },
    {
      "epoch": 16.698267074413863,
      "grad_norm": 0.062120236456394196,
      "learning_rate": 0.0005,
      "loss": 0.1647,
      "step": 16381
    },
    {
      "epoch": 16.699286442405707,
      "grad_norm": 0.04292844980955124,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 16382
    },
    {
      "epoch": 16.700305810397552,
      "grad_norm": 0.06861675530672073,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 16383
    },
    {
      "epoch": 16.7013251783894,
      "grad_norm": 0.037230830639600754,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 16384
    },
    {
      "epoch": 16.702344546381244,
      "grad_norm": 0.042807139456272125,
      "learning_rate": 0.0005,
      "loss": 0.1438,
      "step": 16385
    },
    {
      "epoch": 16.70336391437309,
      "grad_norm": 0.13873191177845,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 16386
    },
    {
      "epoch": 16.704383282364933,
      "grad_norm": 0.041408807039260864,
      "learning_rate": 0.0005,
      "loss": 0.1876,
      "step": 16387
    },
    {
      "epoch": 16.705402650356778,
      "grad_norm": 0.20474447309970856,
      "learning_rate": 0.0005,
      "loss": 0.1759,
      "step": 16388
    },
    {
      "epoch": 16.706422018348626,
      "grad_norm": 0.05856369435787201,
      "learning_rate": 0.0005,
      "loss": 0.1727,
      "step": 16389
    },
    {
      "epoch": 16.70744138634047,
      "grad_norm": 0.06710267812013626,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 16390
    },
    {
      "epoch": 16.708460754332314,
      "grad_norm": 0.048297569155693054,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 16391
    },
    {
      "epoch": 16.70948012232416,
      "grad_norm": 0.12241850793361664,
      "learning_rate": 0.0005,
      "loss": 0.1644,
      "step": 16392
    },
    {
      "epoch": 16.710499490316003,
      "grad_norm": 0.03533447906374931,
      "learning_rate": 0.0005,
      "loss": 0.157,
      "step": 16393
    },
    {
      "epoch": 16.711518858307848,
      "grad_norm": 0.09515561908483505,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 16394
    },
    {
      "epoch": 16.712538226299696,
      "grad_norm": 0.05972031131386757,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 16395
    },
    {
      "epoch": 16.71355759429154,
      "grad_norm": 0.08789369463920593,
      "learning_rate": 0.0005,
      "loss": 0.1792,
      "step": 16396
    },
    {
      "epoch": 16.714576962283385,
      "grad_norm": 0.052130844444036484,
      "learning_rate": 0.0005,
      "loss": 0.1763,
      "step": 16397
    },
    {
      "epoch": 16.71559633027523,
      "grad_norm": 0.11872679740190506,
      "learning_rate": 0.0005,
      "loss": 0.182,
      "step": 16398
    },
    {
      "epoch": 16.716615698267073,
      "grad_norm": 0.02920432575047016,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 16399
    },
    {
      "epoch": 16.717635066258918,
      "grad_norm": 0.04004024341702461,
      "learning_rate": 0.0005,
      "loss": 0.1794,
      "step": 16400
    },
    {
      "epoch": 16.718654434250766,
      "grad_norm": 0.03645028918981552,
      "learning_rate": 0.0005,
      "loss": 0.1541,
      "step": 16401
    },
    {
      "epoch": 16.71967380224261,
      "grad_norm": 0.113665372133255,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16402
    },
    {
      "epoch": 16.720693170234455,
      "grad_norm": 0.07669761776924133,
      "learning_rate": 0.0005,
      "loss": 0.1801,
      "step": 16403
    },
    {
      "epoch": 16.7217125382263,
      "grad_norm": 0.11030662804841995,
      "learning_rate": 0.0005,
      "loss": 0.1798,
      "step": 16404
    },
    {
      "epoch": 16.722731906218144,
      "grad_norm": 0.027770016342401505,
      "learning_rate": 0.0005,
      "loss": 0.1536,
      "step": 16405
    },
    {
      "epoch": 16.723751274209988,
      "grad_norm": 0.018138309940695763,
      "learning_rate": 0.0005,
      "loss": 0.1554,
      "step": 16406
    },
    {
      "epoch": 16.724770642201836,
      "grad_norm": 0.16506849229335785,
      "learning_rate": 0.0005,
      "loss": 0.1766,
      "step": 16407
    },
    {
      "epoch": 16.72579001019368,
      "grad_norm": 0.09135634452104568,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 16408
    },
    {
      "epoch": 16.726809378185525,
      "grad_norm": 0.01854238659143448,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 16409
    },
    {
      "epoch": 16.72782874617737,
      "grad_norm": 0.06294796615839005,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 16410
    },
    {
      "epoch": 16.728848114169214,
      "grad_norm": 0.16609621047973633,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 16411
    },
    {
      "epoch": 16.729867482161062,
      "grad_norm": 0.12592877447605133,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 16412
    },
    {
      "epoch": 16.730886850152906,
      "grad_norm": 0.05736072361469269,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 16413
    },
    {
      "epoch": 16.73190621814475,
      "grad_norm": 0.04407399520277977,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16414
    },
    {
      "epoch": 16.732925586136595,
      "grad_norm": 0.10833054780960083,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 16415
    },
    {
      "epoch": 16.73394495412844,
      "grad_norm": 0.0848153829574585,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16416
    },
    {
      "epoch": 16.734964322120284,
      "grad_norm": 0.06457923352718353,
      "learning_rate": 0.0005,
      "loss": 0.1687,
      "step": 16417
    },
    {
      "epoch": 16.735983690112132,
      "grad_norm": 0.0783020630478859,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 16418
    },
    {
      "epoch": 16.737003058103976,
      "grad_norm": 0.016485432162880898,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16419
    },
    {
      "epoch": 16.73802242609582,
      "grad_norm": 0.09294001758098602,
      "learning_rate": 0.0005,
      "loss": 0.1802,
      "step": 16420
    },
    {
      "epoch": 16.739041794087665,
      "grad_norm": 0.08349268138408661,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 16421
    },
    {
      "epoch": 16.74006116207951,
      "grad_norm": 0.14923976361751556,
      "learning_rate": 0.0005,
      "loss": 0.202,
      "step": 16422
    },
    {
      "epoch": 16.741080530071354,
      "grad_norm": 0.15031419694423676,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 16423
    },
    {
      "epoch": 16.742099898063202,
      "grad_norm": 0.025200242176651955,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 16424
    },
    {
      "epoch": 16.743119266055047,
      "grad_norm": 0.06655161082744598,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16425
    },
    {
      "epoch": 16.74413863404689,
      "grad_norm": 0.060920894145965576,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16426
    },
    {
      "epoch": 16.745158002038735,
      "grad_norm": 0.05406055971980095,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 16427
    },
    {
      "epoch": 16.74617737003058,
      "grad_norm": 0.05054621770977974,
      "learning_rate": 0.0005,
      "loss": 0.1571,
      "step": 16428
    },
    {
      "epoch": 16.747196738022428,
      "grad_norm": 0.07478322088718414,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 16429
    },
    {
      "epoch": 16.748216106014272,
      "grad_norm": 0.10809933394193649,
      "learning_rate": 0.0005,
      "loss": 0.1769,
      "step": 16430
    },
    {
      "epoch": 16.749235474006117,
      "grad_norm": 0.06682486832141876,
      "learning_rate": 0.0005,
      "loss": 0.1731,
      "step": 16431
    },
    {
      "epoch": 16.75025484199796,
      "grad_norm": 0.05792827531695366,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 16432
    },
    {
      "epoch": 16.751274209989806,
      "grad_norm": 0.04404864460229874,
      "learning_rate": 0.0005,
      "loss": 0.1638,
      "step": 16433
    },
    {
      "epoch": 16.75229357798165,
      "grad_norm": 0.055252738296985626,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 16434
    },
    {
      "epoch": 16.753312945973498,
      "grad_norm": 0.0758548453450203,
      "learning_rate": 0.0005,
      "loss": 0.1823,
      "step": 16435
    },
    {
      "epoch": 16.754332313965342,
      "grad_norm": 0.06321898102760315,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 16436
    },
    {
      "epoch": 16.755351681957187,
      "grad_norm": 0.05177377909421921,
      "learning_rate": 0.0005,
      "loss": 0.1642,
      "step": 16437
    },
    {
      "epoch": 16.75637104994903,
      "grad_norm": 0.05280280485749245,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 16438
    },
    {
      "epoch": 16.757390417940876,
      "grad_norm": 0.13313385844230652,
      "learning_rate": 0.0005,
      "loss": 0.1738,
      "step": 16439
    },
    {
      "epoch": 16.75840978593272,
      "grad_norm": 0.07577385008335114,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 16440
    },
    {
      "epoch": 16.759429153924568,
      "grad_norm": 0.0888901948928833,
      "learning_rate": 0.0005,
      "loss": 0.1722,
      "step": 16441
    },
    {
      "epoch": 16.760448521916413,
      "grad_norm": 0.022873183712363243,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 16442
    },
    {
      "epoch": 16.761467889908257,
      "grad_norm": 0.04169030860066414,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16443
    },
    {
      "epoch": 16.7624872579001,
      "grad_norm": 0.1514401137828827,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 16444
    },
    {
      "epoch": 16.763506625891946,
      "grad_norm": 0.03285780921578407,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 16445
    },
    {
      "epoch": 16.764525993883794,
      "grad_norm": 0.08477075397968292,
      "learning_rate": 0.0005,
      "loss": 0.1896,
      "step": 16446
    },
    {
      "epoch": 16.76554536187564,
      "grad_norm": 0.16505339741706848,
      "learning_rate": 0.0005,
      "loss": 0.1622,
      "step": 16447
    },
    {
      "epoch": 16.766564729867483,
      "grad_norm": 0.08169025182723999,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16448
    },
    {
      "epoch": 16.767584097859327,
      "grad_norm": 0.025280119851231575,
      "learning_rate": 0.0005,
      "loss": 0.1599,
      "step": 16449
    },
    {
      "epoch": 16.76860346585117,
      "grad_norm": 0.03540947660803795,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16450
    },
    {
      "epoch": 16.769622833843016,
      "grad_norm": 0.04123988002538681,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 16451
    },
    {
      "epoch": 16.770642201834864,
      "grad_norm": 0.03686124086380005,
      "learning_rate": 0.0005,
      "loss": 0.1914,
      "step": 16452
    },
    {
      "epoch": 16.77166156982671,
      "grad_norm": 0.09565015882253647,
      "learning_rate": 0.0005,
      "loss": 0.1689,
      "step": 16453
    },
    {
      "epoch": 16.772680937818553,
      "grad_norm": 0.03773832693696022,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16454
    },
    {
      "epoch": 16.773700305810397,
      "grad_norm": 0.05307190492749214,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 16455
    },
    {
      "epoch": 16.77471967380224,
      "grad_norm": 0.16380800306797028,
      "learning_rate": 0.0005,
      "loss": 0.1864,
      "step": 16456
    },
    {
      "epoch": 16.775739041794086,
      "grad_norm": 0.07707681506872177,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 16457
    },
    {
      "epoch": 16.776758409785934,
      "grad_norm": 0.03277081623673439,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16458
    },
    {
      "epoch": 16.77777777777778,
      "grad_norm": 0.0360313318669796,
      "learning_rate": 0.0005,
      "loss": 0.1716,
      "step": 16459
    },
    {
      "epoch": 16.778797145769623,
      "grad_norm": 0.055354662239551544,
      "learning_rate": 0.0005,
      "loss": 0.1812,
      "step": 16460
    },
    {
      "epoch": 16.779816513761467,
      "grad_norm": 0.03867616876959801,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 16461
    },
    {
      "epoch": 16.780835881753312,
      "grad_norm": 0.08419445157051086,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 16462
    },
    {
      "epoch": 16.781855249745156,
      "grad_norm": 0.06763967126607895,
      "learning_rate": 0.0005,
      "loss": 0.1829,
      "step": 16463
    },
    {
      "epoch": 16.782874617737004,
      "grad_norm": 0.07205614447593689,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16464
    },
    {
      "epoch": 16.78389398572885,
      "grad_norm": 0.06288810819387436,
      "learning_rate": 0.0005,
      "loss": 0.1774,
      "step": 16465
    },
    {
      "epoch": 16.784913353720693,
      "grad_norm": 0.06989763677120209,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 16466
    },
    {
      "epoch": 16.785932721712538,
      "grad_norm": 0.03747117146849632,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 16467
    },
    {
      "epoch": 16.786952089704382,
      "grad_norm": 0.08068399876356125,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 16468
    },
    {
      "epoch": 16.78797145769623,
      "grad_norm": 0.06549204140901566,
      "learning_rate": 0.0005,
      "loss": 0.1782,
      "step": 16469
    },
    {
      "epoch": 16.788990825688074,
      "grad_norm": 0.07808145880699158,
      "learning_rate": 0.0005,
      "loss": 0.192,
      "step": 16470
    },
    {
      "epoch": 16.79001019367992,
      "grad_norm": 0.0281953364610672,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 16471
    },
    {
      "epoch": 16.791029561671763,
      "grad_norm": 0.07539601624011993,
      "learning_rate": 0.0005,
      "loss": 0.1613,
      "step": 16472
    },
    {
      "epoch": 16.792048929663608,
      "grad_norm": 0.05940256267786026,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 16473
    },
    {
      "epoch": 16.793068297655452,
      "grad_norm": 0.042369868606328964,
      "learning_rate": 0.0005,
      "loss": 0.1699,
      "step": 16474
    },
    {
      "epoch": 16.7940876656473,
      "grad_norm": 0.020814454182982445,
      "learning_rate": 0.0005,
      "loss": 0.166,
      "step": 16475
    },
    {
      "epoch": 16.795107033639145,
      "grad_norm": 0.07631773501634598,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 16476
    },
    {
      "epoch": 16.79612640163099,
      "grad_norm": 0.030526313930749893,
      "learning_rate": 0.0005,
      "loss": 0.1591,
      "step": 16477
    },
    {
      "epoch": 16.797145769622833,
      "grad_norm": 0.054349254816770554,
      "learning_rate": 0.0005,
      "loss": 0.1547,
      "step": 16478
    },
    {
      "epoch": 16.798165137614678,
      "grad_norm": 0.052608609199523926,
      "learning_rate": 0.0005,
      "loss": 0.1606,
      "step": 16479
    },
    {
      "epoch": 16.799184505606522,
      "grad_norm": 0.033280324190855026,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 16480
    },
    {
      "epoch": 16.80020387359837,
      "grad_norm": 0.03537029027938843,
      "learning_rate": 0.0005,
      "loss": 0.1696,
      "step": 16481
    },
    {
      "epoch": 16.801223241590215,
      "grad_norm": 0.05714380741119385,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16482
    },
    {
      "epoch": 16.80224260958206,
      "grad_norm": 0.12691091001033783,
      "learning_rate": 0.0005,
      "loss": 0.1732,
      "step": 16483
    },
    {
      "epoch": 16.803261977573904,
      "grad_norm": 0.16634583473205566,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16484
    },
    {
      "epoch": 16.804281345565748,
      "grad_norm": 0.04674308001995087,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 16485
    },
    {
      "epoch": 16.805300713557592,
      "grad_norm": 0.0862235277891159,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 16486
    },
    {
      "epoch": 16.80632008154944,
      "grad_norm": 0.041124604642391205,
      "learning_rate": 0.0005,
      "loss": 0.1949,
      "step": 16487
    },
    {
      "epoch": 16.807339449541285,
      "grad_norm": 0.09563840180635452,
      "learning_rate": 0.0005,
      "loss": 0.1796,
      "step": 16488
    },
    {
      "epoch": 16.80835881753313,
      "grad_norm": 0.056049179285764694,
      "learning_rate": 0.0005,
      "loss": 0.1637,
      "step": 16489
    },
    {
      "epoch": 16.809378185524974,
      "grad_norm": 0.09994476288557053,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16490
    },
    {
      "epoch": 16.810397553516818,
      "grad_norm": 0.059125274419784546,
      "learning_rate": 0.0005,
      "loss": 0.1724,
      "step": 16491
    },
    {
      "epoch": 16.811416921508666,
      "grad_norm": 0.058381251990795135,
      "learning_rate": 0.0005,
      "loss": 0.167,
      "step": 16492
    },
    {
      "epoch": 16.81243628950051,
      "grad_norm": 0.0445265993475914,
      "learning_rate": 0.0005,
      "loss": 0.1619,
      "step": 16493
    },
    {
      "epoch": 16.813455657492355,
      "grad_norm": 0.07839135080575943,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 16494
    },
    {
      "epoch": 16.8144750254842,
      "grad_norm": 0.0370061993598938,
      "learning_rate": 0.0005,
      "loss": 0.1935,
      "step": 16495
    },
    {
      "epoch": 16.815494393476044,
      "grad_norm": 0.053855329751968384,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 16496
    },
    {
      "epoch": 16.81651376146789,
      "grad_norm": 0.02844630926847458,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 16497
    },
    {
      "epoch": 16.817533129459736,
      "grad_norm": 0.030454915016889572,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 16498
    },
    {
      "epoch": 16.81855249745158,
      "grad_norm": 0.026192575693130493,
      "learning_rate": 0.0005,
      "loss": 0.1609,
      "step": 16499
    },
    {
      "epoch": 16.819571865443425,
      "grad_norm": 0.034952856600284576,
      "learning_rate": 0.0005,
      "loss": 0.1787,
      "step": 16500
    },
    {
      "epoch": 16.82059123343527,
      "grad_norm": 0.12072725594043732,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 16501
    },
    {
      "epoch": 16.821610601427114,
      "grad_norm": 0.05921149626374245,
      "learning_rate": 0.0005,
      "loss": 0.1729,
      "step": 16502
    },
    {
      "epoch": 16.822629969418962,
      "grad_norm": 0.11231471598148346,
      "learning_rate": 0.0005,
      "loss": 0.1652,
      "step": 16503
    },
    {
      "epoch": 16.823649337410806,
      "grad_norm": 0.033405601978302,
      "learning_rate": 0.0005,
      "loss": 0.1665,
      "step": 16504
    },
    {
      "epoch": 16.82466870540265,
      "grad_norm": 0.04305018112063408,
      "learning_rate": 0.0005,
      "loss": 0.1669,
      "step": 16505
    },
    {
      "epoch": 16.825688073394495,
      "grad_norm": 0.05978487432003021,
      "learning_rate": 0.0005,
      "loss": 0.1611,
      "step": 16506
    },
    {
      "epoch": 16.82670744138634,
      "grad_norm": 0.028338376432657242,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 16507
    },
    {
      "epoch": 16.827726809378184,
      "grad_norm": 0.09534755349159241,
      "learning_rate": 0.0005,
      "loss": 0.1521,
      "step": 16508
    },
    {
      "epoch": 16.828746177370032,
      "grad_norm": 0.08853092789649963,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 16509
    },
    {
      "epoch": 16.829765545361877,
      "grad_norm": 0.05570271983742714,
      "learning_rate": 0.0005,
      "loss": 0.171,
      "step": 16510
    },
    {
      "epoch": 16.83078491335372,
      "grad_norm": 0.025343945249915123,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 16511
    },
    {
      "epoch": 16.831804281345565,
      "grad_norm": 0.07144805043935776,
      "learning_rate": 0.0005,
      "loss": 0.1873,
      "step": 16512
    },
    {
      "epoch": 16.83282364933741,
      "grad_norm": 0.0819208025932312,
      "learning_rate": 0.0005,
      "loss": 0.1556,
      "step": 16513
    },
    {
      "epoch": 16.833843017329254,
      "grad_norm": 0.044923268258571625,
      "learning_rate": 0.0005,
      "loss": 0.1783,
      "step": 16514
    },
    {
      "epoch": 16.834862385321102,
      "grad_norm": 0.05546150356531143,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16515
    },
    {
      "epoch": 16.835881753312947,
      "grad_norm": 0.15607115626335144,
      "learning_rate": 0.0005,
      "loss": 0.1658,
      "step": 16516
    },
    {
      "epoch": 16.83690112130479,
      "grad_norm": 0.10732942074537277,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 16517
    },
    {
      "epoch": 16.837920489296636,
      "grad_norm": 0.0599730983376503,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16518
    },
    {
      "epoch": 16.83893985728848,
      "grad_norm": 0.05357123911380768,
      "learning_rate": 0.0005,
      "loss": 0.1646,
      "step": 16519
    },
    {
      "epoch": 16.839959225280325,
      "grad_norm": 0.06170476973056793,
      "learning_rate": 0.0005,
      "loss": 0.1914,
      "step": 16520
    },
    {
      "epoch": 16.840978593272173,
      "grad_norm": 0.05038757249712944,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 16521
    },
    {
      "epoch": 16.841997961264017,
      "grad_norm": 0.06299332529306412,
      "learning_rate": 0.0005,
      "loss": 0.1777,
      "step": 16522
    },
    {
      "epoch": 16.84301732925586,
      "grad_norm": 0.08531560003757477,
      "learning_rate": 0.0005,
      "loss": 0.1757,
      "step": 16523
    },
    {
      "epoch": 16.844036697247706,
      "grad_norm": 0.04360853135585785,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16524
    },
    {
      "epoch": 16.84505606523955,
      "grad_norm": 0.04352366551756859,
      "learning_rate": 0.0005,
      "loss": 0.1917,
      "step": 16525
    },
    {
      "epoch": 16.846075433231398,
      "grad_norm": 0.22756588459014893,
      "learning_rate": 0.0005,
      "loss": 0.1805,
      "step": 16526
    },
    {
      "epoch": 16.847094801223243,
      "grad_norm": 0.03833181783556938,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 16527
    },
    {
      "epoch": 16.848114169215087,
      "grad_norm": 0.09264644980430603,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 16528
    },
    {
      "epoch": 16.84913353720693,
      "grad_norm": 0.09870566427707672,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16529
    },
    {
      "epoch": 16.850152905198776,
      "grad_norm": 0.04612623527646065,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 16530
    },
    {
      "epoch": 16.85117227319062,
      "grad_norm": 0.07581240683794022,
      "learning_rate": 0.0005,
      "loss": 0.152,
      "step": 16531
    },
    {
      "epoch": 16.85219164118247,
      "grad_norm": 0.07918784767389297,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 16532
    },
    {
      "epoch": 16.853211009174313,
      "grad_norm": 0.03542923554778099,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 16533
    },
    {
      "epoch": 16.854230377166157,
      "grad_norm": 0.03837573155760765,
      "learning_rate": 0.0005,
      "loss": 0.1758,
      "step": 16534
    },
    {
      "epoch": 16.855249745158,
      "grad_norm": 0.12599264085292816,
      "learning_rate": 0.0005,
      "loss": 0.1676,
      "step": 16535
    },
    {
      "epoch": 16.856269113149846,
      "grad_norm": 0.04052498936653137,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 16536
    },
    {
      "epoch": 16.85728848114169,
      "grad_norm": 0.1365896612405777,
      "learning_rate": 0.0005,
      "loss": 0.1652,
      "step": 16537
    },
    {
      "epoch": 16.85830784913354,
      "grad_norm": 0.05811072513461113,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16538
    },
    {
      "epoch": 16.859327217125383,
      "grad_norm": 0.026140591129660606,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 16539
    },
    {
      "epoch": 16.860346585117227,
      "grad_norm": 0.04720226675271988,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 16540
    },
    {
      "epoch": 16.861365953109072,
      "grad_norm": 0.04403967782855034,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 16541
    },
    {
      "epoch": 16.862385321100916,
      "grad_norm": 0.044657766819000244,
      "learning_rate": 0.0005,
      "loss": 0.1709,
      "step": 16542
    },
    {
      "epoch": 16.86340468909276,
      "grad_norm": 0.02963753417134285,
      "learning_rate": 0.0005,
      "loss": 0.1703,
      "step": 16543
    },
    {
      "epoch": 16.86442405708461,
      "grad_norm": 0.032186444848775864,
      "learning_rate": 0.0005,
      "loss": 0.1814,
      "step": 16544
    },
    {
      "epoch": 16.865443425076453,
      "grad_norm": 0.12530578672885895,
      "learning_rate": 0.0005,
      "loss": 0.1686,
      "step": 16545
    },
    {
      "epoch": 16.866462793068298,
      "grad_norm": 0.06701384484767914,
      "learning_rate": 0.0005,
      "loss": 0.1661,
      "step": 16546
    },
    {
      "epoch": 16.867482161060142,
      "grad_norm": 0.05131122097373009,
      "learning_rate": 0.0005,
      "loss": 0.1589,
      "step": 16547
    },
    {
      "epoch": 16.868501529051986,
      "grad_norm": 0.04971699044108391,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16548
    },
    {
      "epoch": 16.869520897043834,
      "grad_norm": 0.0984727218747139,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 16549
    },
    {
      "epoch": 16.87054026503568,
      "grad_norm": 0.053041357547044754,
      "learning_rate": 0.0005,
      "loss": 0.1648,
      "step": 16550
    },
    {
      "epoch": 16.871559633027523,
      "grad_norm": 0.056894607841968536,
      "learning_rate": 0.0005,
      "loss": 0.177,
      "step": 16551
    },
    {
      "epoch": 16.872579001019368,
      "grad_norm": 0.08051188290119171,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16552
    },
    {
      "epoch": 16.873598369011212,
      "grad_norm": 0.10025094449520111,
      "learning_rate": 0.0005,
      "loss": 0.1655,
      "step": 16553
    },
    {
      "epoch": 16.874617737003057,
      "grad_norm": 0.0662354975938797,
      "learning_rate": 0.0005,
      "loss": 0.1516,
      "step": 16554
    },
    {
      "epoch": 16.875637104994905,
      "grad_norm": 0.09649662673473358,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16555
    },
    {
      "epoch": 16.87665647298675,
      "grad_norm": 0.03625662252306938,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 16556
    },
    {
      "epoch": 16.877675840978593,
      "grad_norm": 0.08574829250574112,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 16557
    },
    {
      "epoch": 16.878695208970438,
      "grad_norm": 0.15375499427318573,
      "learning_rate": 0.0005,
      "loss": 0.16,
      "step": 16558
    },
    {
      "epoch": 16.879714576962282,
      "grad_norm": 0.07695849239826202,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 16559
    },
    {
      "epoch": 16.88073394495413,
      "grad_norm": 0.0677776038646698,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 16560
    },
    {
      "epoch": 16.881753312945975,
      "grad_norm": 0.07147970050573349,
      "learning_rate": 0.0005,
      "loss": 0.1744,
      "step": 16561
    },
    {
      "epoch": 16.88277268093782,
      "grad_norm": 0.0954892486333847,
      "learning_rate": 0.0005,
      "loss": 0.1882,
      "step": 16562
    },
    {
      "epoch": 16.883792048929664,
      "grad_norm": 0.0670974925160408,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 16563
    },
    {
      "epoch": 16.884811416921508,
      "grad_norm": 0.05347883328795433,
      "learning_rate": 0.0005,
      "loss": 0.1705,
      "step": 16564
    },
    {
      "epoch": 16.885830784913352,
      "grad_norm": 0.04227958619594574,
      "learning_rate": 0.0005,
      "loss": 0.1755,
      "step": 16565
    },
    {
      "epoch": 16.8868501529052,
      "grad_norm": 0.07520788908004761,
      "learning_rate": 0.0005,
      "loss": 0.1865,
      "step": 16566
    },
    {
      "epoch": 16.887869520897045,
      "grad_norm": 0.04659130424261093,
      "learning_rate": 0.0005,
      "loss": 0.1737,
      "step": 16567
    },
    {
      "epoch": 16.88888888888889,
      "grad_norm": 0.04794323071837425,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 16568
    },
    {
      "epoch": 16.889908256880734,
      "grad_norm": 0.16019169986248016,
      "learning_rate": 0.0005,
      "loss": 0.1791,
      "step": 16569
    },
    {
      "epoch": 16.890927624872578,
      "grad_norm": 0.053749024868011475,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16570
    },
    {
      "epoch": 16.891946992864423,
      "grad_norm": 0.05581911653280258,
      "learning_rate": 0.0005,
      "loss": 0.174,
      "step": 16571
    },
    {
      "epoch": 16.89296636085627,
      "grad_norm": 0.0752391442656517,
      "learning_rate": 0.0005,
      "loss": 0.1825,
      "step": 16572
    },
    {
      "epoch": 16.893985728848115,
      "grad_norm": 0.05735313519835472,
      "learning_rate": 0.0005,
      "loss": 0.1779,
      "step": 16573
    },
    {
      "epoch": 16.89500509683996,
      "grad_norm": 0.06549764424562454,
      "learning_rate": 0.0005,
      "loss": 0.1631,
      "step": 16574
    },
    {
      "epoch": 16.896024464831804,
      "grad_norm": 0.08402896672487259,
      "learning_rate": 0.0005,
      "loss": 0.173,
      "step": 16575
    },
    {
      "epoch": 16.89704383282365,
      "grad_norm": 0.057748403400182724,
      "learning_rate": 0.0005,
      "loss": 0.1741,
      "step": 16576
    },
    {
      "epoch": 16.898063200815493,
      "grad_norm": 0.060669053345918655,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 16577
    },
    {
      "epoch": 16.89908256880734,
      "grad_norm": 0.041906241327524185,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 16578
    },
    {
      "epoch": 16.900101936799185,
      "grad_norm": 0.057016029953956604,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 16579
    },
    {
      "epoch": 16.90112130479103,
      "grad_norm": 0.07656410336494446,
      "learning_rate": 0.0005,
      "loss": 0.1799,
      "step": 16580
    },
    {
      "epoch": 16.902140672782874,
      "grad_norm": 0.034839823842048645,
      "learning_rate": 0.0005,
      "loss": 0.1768,
      "step": 16581
    },
    {
      "epoch": 16.90316004077472,
      "grad_norm": 0.05224029719829559,
      "learning_rate": 0.0005,
      "loss": 0.1981,
      "step": 16582
    },
    {
      "epoch": 16.904179408766566,
      "grad_norm": 0.041514888405799866,
      "learning_rate": 0.0005,
      "loss": 0.1815,
      "step": 16583
    },
    {
      "epoch": 16.90519877675841,
      "grad_norm": 0.037612561136484146,
      "learning_rate": 0.0005,
      "loss": 0.165,
      "step": 16584
    },
    {
      "epoch": 16.906218144750255,
      "grad_norm": 0.03122648037970066,
      "learning_rate": 0.0005,
      "loss": 0.1511,
      "step": 16585
    },
    {
      "epoch": 16.9072375127421,
      "grad_norm": 0.0793832391500473,
      "learning_rate": 0.0005,
      "loss": 0.1713,
      "step": 16586
    },
    {
      "epoch": 16.908256880733944,
      "grad_norm": 0.05255795642733574,
      "learning_rate": 0.0005,
      "loss": 0.1775,
      "step": 16587
    },
    {
      "epoch": 16.90927624872579,
      "grad_norm": 0.042102962732315063,
      "learning_rate": 0.0005,
      "loss": 0.1832,
      "step": 16588
    },
    {
      "epoch": 16.910295616717637,
      "grad_norm": 0.06979968398809433,
      "learning_rate": 0.0005,
      "loss": 0.17,
      "step": 16589
    },
    {
      "epoch": 16.91131498470948,
      "grad_norm": 0.09435836970806122,
      "learning_rate": 0.0005,
      "loss": 0.1801,
      "step": 16590
    },
    {
      "epoch": 16.912334352701325,
      "grad_norm": 0.027110585942864418,
      "learning_rate": 0.0005,
      "loss": 0.1633,
      "step": 16591
    },
    {
      "epoch": 16.91335372069317,
      "grad_norm": 0.02878112532198429,
      "learning_rate": 0.0005,
      "loss": 0.1691,
      "step": 16592
    },
    {
      "epoch": 16.914373088685014,
      "grad_norm": 0.027737537398934364,
      "learning_rate": 0.0005,
      "loss": 0.1677,
      "step": 16593
    },
    {
      "epoch": 16.91539245667686,
      "grad_norm": 0.04351911321282387,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16594
    },
    {
      "epoch": 16.916411824668707,
      "grad_norm": 0.08242159336805344,
      "learning_rate": 0.0005,
      "loss": 0.1837,
      "step": 16595
    },
    {
      "epoch": 16.91743119266055,
      "grad_norm": 0.05124348774552345,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 16596
    },
    {
      "epoch": 16.918450560652396,
      "grad_norm": 0.07849214226007462,
      "learning_rate": 0.0005,
      "loss": 0.1627,
      "step": 16597
    },
    {
      "epoch": 16.91946992864424,
      "grad_norm": 0.022425899282097816,
      "learning_rate": 0.0005,
      "loss": 0.1621,
      "step": 16598
    },
    {
      "epoch": 16.920489296636084,
      "grad_norm": 0.06883256137371063,
      "learning_rate": 0.0005,
      "loss": 0.1837,
      "step": 16599
    },
    {
      "epoch": 16.92150866462793,
      "grad_norm": 0.029008587822318077,
      "learning_rate": 0.0005,
      "loss": 0.1683,
      "step": 16600
    },
    {
      "epoch": 16.922528032619777,
      "grad_norm": 0.06946463137865067,
      "learning_rate": 0.0005,
      "loss": 0.1553,
      "step": 16601
    },
    {
      "epoch": 16.92354740061162,
      "grad_norm": 0.06925511360168457,
      "learning_rate": 0.0005,
      "loss": 0.1776,
      "step": 16602
    },
    {
      "epoch": 16.924566768603466,
      "grad_norm": 0.06456174701452255,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16603
    },
    {
      "epoch": 16.92558613659531,
      "grad_norm": 0.02235632762312889,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 16604
    },
    {
      "epoch": 16.926605504587155,
      "grad_norm": 0.031969111412763596,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16605
    },
    {
      "epoch": 16.927624872579003,
      "grad_norm": 0.05744094401597977,
      "learning_rate": 0.0005,
      "loss": 0.1715,
      "step": 16606
    },
    {
      "epoch": 16.928644240570847,
      "grad_norm": 0.05606573075056076,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 16607
    },
    {
      "epoch": 16.92966360856269,
      "grad_norm": 0.03201155364513397,
      "learning_rate": 0.0005,
      "loss": 0.1752,
      "step": 16608
    },
    {
      "epoch": 16.930682976554536,
      "grad_norm": 0.0732155591249466,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 16609
    },
    {
      "epoch": 16.93170234454638,
      "grad_norm": 0.07156384736299515,
      "learning_rate": 0.0005,
      "loss": 0.1708,
      "step": 16610
    },
    {
      "epoch": 16.932721712538225,
      "grad_norm": 0.05275376886129379,
      "learning_rate": 0.0005,
      "loss": 0.1608,
      "step": 16611
    },
    {
      "epoch": 16.933741080530073,
      "grad_norm": 0.05367807298898697,
      "learning_rate": 0.0005,
      "loss": 0.1672,
      "step": 16612
    },
    {
      "epoch": 16.934760448521917,
      "grad_norm": 0.03054000623524189,
      "learning_rate": 0.0005,
      "loss": 0.1697,
      "step": 16613
    },
    {
      "epoch": 16.93577981651376,
      "grad_norm": 0.06791350245475769,
      "learning_rate": 0.0005,
      "loss": 0.1882,
      "step": 16614
    },
    {
      "epoch": 16.936799184505606,
      "grad_norm": 0.03696122393012047,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 16615
    },
    {
      "epoch": 16.93781855249745,
      "grad_norm": 0.07729650288820267,
      "learning_rate": 0.0005,
      "loss": 0.1693,
      "step": 16616
    },
    {
      "epoch": 16.938837920489295,
      "grad_norm": 0.03516756743192673,
      "learning_rate": 0.0005,
      "loss": 0.163,
      "step": 16617
    },
    {
      "epoch": 16.939857288481143,
      "grad_norm": 0.051335468888282776,
      "learning_rate": 0.0005,
      "loss": 0.1711,
      "step": 16618
    },
    {
      "epoch": 16.940876656472987,
      "grad_norm": 0.02193249762058258,
      "learning_rate": 0.0005,
      "loss": 0.1586,
      "step": 16619
    },
    {
      "epoch": 16.941896024464832,
      "grad_norm": 0.0447634719312191,
      "learning_rate": 0.0005,
      "loss": 0.1514,
      "step": 16620
    },
    {
      "epoch": 16.942915392456676,
      "grad_norm": 0.026070142164826393,
      "learning_rate": 0.0005,
      "loss": 0.1714,
      "step": 16621
    },
    {
      "epoch": 16.94393476044852,
      "grad_norm": 0.02530893124639988,
      "learning_rate": 0.0005,
      "loss": 0.1632,
      "step": 16622
    },
    {
      "epoch": 16.94495412844037,
      "grad_norm": 0.06832815706729889,
      "learning_rate": 0.0005,
      "loss": 0.1749,
      "step": 16623
    },
    {
      "epoch": 16.945973496432213,
      "grad_norm": 0.07234613597393036,
      "learning_rate": 0.0005,
      "loss": 0.1736,
      "step": 16624
    },
    {
      "epoch": 16.946992864424058,
      "grad_norm": 0.05546135827898979,
      "learning_rate": 0.0005,
      "loss": 0.1678,
      "step": 16625
    },
    {
      "epoch": 16.948012232415902,
      "grad_norm": 0.06340695172548294,
      "learning_rate": 0.0005,
      "loss": 0.1559,
      "step": 16626
    },
    {
      "epoch": 16.949031600407746,
      "grad_norm": 0.052469879388809204,
      "learning_rate": 0.0005,
      "loss": 0.1764,
      "step": 16627
    },
    {
      "epoch": 16.95005096839959,
      "grad_norm": 0.037526685744524,
      "learning_rate": 0.0005,
      "loss": 0.1851,
      "step": 16628
    },
    {
      "epoch": 16.95107033639144,
      "grad_norm": 0.04763048514723778,
      "learning_rate": 0.0005,
      "loss": 0.1643,
      "step": 16629
    },
    {
      "epoch": 16.952089704383283,
      "grad_norm": 0.04306694492697716,
      "learning_rate": 0.0005,
      "loss": 0.1532,
      "step": 16630
    },
    {
      "epoch": 16.953109072375128,
      "grad_norm": 0.13726654648780823,
      "learning_rate": 0.0005,
      "loss": 0.1733,
      "step": 16631
    },
    {
      "epoch": 16.954128440366972,
      "grad_norm": 0.06239550560712814,
      "learning_rate": 0.0005,
      "loss": 0.1788,
      "step": 16632
    },
    {
      "epoch": 16.955147808358817,
      "grad_norm": 0.08276741951704025,
      "learning_rate": 0.0005,
      "loss": 0.1844,
      "step": 16633
    },
    {
      "epoch": 16.95616717635066,
      "grad_norm": 0.04892122372984886,
      "learning_rate": 0.0005,
      "loss": 0.1888,
      "step": 16634
    },
    {
      "epoch": 16.95718654434251,
      "grad_norm": 0.08303840458393097,
      "learning_rate": 0.0005,
      "loss": 0.1674,
      "step": 16635
    },
    {
      "epoch": 16.958205912334353,
      "grad_norm": 0.06806040555238724,
      "learning_rate": 0.0005,
      "loss": 0.1626,
      "step": 16636
    },
    {
      "epoch": 16.959225280326198,
      "grad_norm": 0.08850248903036118,
      "learning_rate": 0.0005,
      "loss": 0.1718,
      "step": 16637
    },
    {
      "epoch": 16.960244648318042,
      "grad_norm": 0.03770865127444267,
      "learning_rate": 0.0005,
      "loss": 0.1681,
      "step": 16638
    },
    {
      "epoch": 16.961264016309887,
      "grad_norm": 0.027344269677996635,
      "learning_rate": 0.0005,
      "loss": 0.1666,
      "step": 16639
    },
    {
      "epoch": 16.962283384301735,
      "grad_norm": 0.0885411947965622,
      "learning_rate": 0.0005,
      "loss": 0.178,
      "step": 16640
    },
    {
      "epoch": 16.96330275229358,
      "grad_norm": 0.04444120451807976,
      "learning_rate": 0.0005,
      "loss": 0.1639,
      "step": 16641
    },
    {
      "epoch": 16.964322120285424,
      "grad_norm": 0.08853340148925781,
      "learning_rate": 0.0005,
      "loss": 0.1719,
      "step": 16642
    },
    {
      "epoch": 16.965341488277268,
      "grad_norm": 0.08868709951639175,
      "learning_rate": 0.0005,
      "loss": 0.1824,
      "step": 16643
    },
    {
      "epoch": 16.966360856269112,
      "grad_norm": 0.03407934680581093,
      "learning_rate": 0.0005,
      "loss": 0.1735,
      "step": 16644
    },
    {
      "epoch": 16.967380224260957,
      "grad_norm": 0.12807510793209076,
      "learning_rate": 0.0005,
      "loss": 0.1625,
      "step": 16645
    },
    {
      "epoch": 16.968399592252805,
      "grad_norm": 0.07135994732379913,
      "learning_rate": 0.0005,
      "loss": 0.1761,
      "step": 16646
    },
    {
      "epoch": 16.96941896024465,
      "grad_norm": 0.09530847519636154,
      "learning_rate": 0.0005,
      "loss": 0.1654,
      "step": 16647
    },
    {
      "epoch": 16.970438328236494,
      "grad_norm": 0.06684552878141403,
      "learning_rate": 0.0005,
      "loss": 0.1628,
      "step": 16648
    },
    {
      "epoch": 16.971457696228338,
      "grad_norm": 0.04419419914484024,
      "learning_rate": 0.0005,
      "loss": 0.1747,
      "step": 16649
    },
    {
      "epoch": 16.972477064220183,
      "grad_norm": 0.05409274250268936,
      "learning_rate": 0.0005,
      "loss": 0.1682,
      "step": 16650
    },
    {
      "epoch": 16.973496432212027,
      "grad_norm": 0.11128107458353043,
      "learning_rate": 0.0005,
      "loss": 0.1707,
      "step": 16651
    },
    {
      "epoch": 16.974515800203875,
      "grad_norm": 0.02610461227595806,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 16652
    },
    {
      "epoch": 16.97553516819572,
      "grad_norm": 0.0740729346871376,
      "learning_rate": 0.0005,
      "loss": 0.1843,
      "step": 16653
    },
    {
      "epoch": 16.976554536187564,
      "grad_norm": 0.07422042638063431,
      "learning_rate": 0.0005,
      "loss": 0.1743,
      "step": 16654
    },
    {
      "epoch": 16.97757390417941,
      "grad_norm": 0.06770063936710358,
      "learning_rate": 0.0005,
      "loss": 0.158,
      "step": 16655
    },
    {
      "epoch": 16.978593272171253,
      "grad_norm": 0.06003535911440849,
      "learning_rate": 0.0005,
      "loss": 0.1772,
      "step": 16656
    },
    {
      "epoch": 16.979612640163097,
      "grad_norm": 0.08633396029472351,
      "learning_rate": 0.0005,
      "loss": 0.1831,
      "step": 16657
    },
    {
      "epoch": 16.980632008154945,
      "grad_norm": 0.045570723712444305,
      "learning_rate": 0.0005,
      "loss": 0.1602,
      "step": 16658
    },
    {
      "epoch": 16.98165137614679,
      "grad_norm": 0.03996383771300316,
      "learning_rate": 0.0005,
      "loss": 0.1923,
      "step": 16659
    },
    {
      "epoch": 16.982670744138634,
      "grad_norm": 0.045690033584833145,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16660
    },
    {
      "epoch": 16.98369011213048,
      "grad_norm": 0.09737667441368103,
      "learning_rate": 0.0005,
      "loss": 0.1664,
      "step": 16661
    },
    {
      "epoch": 16.984709480122323,
      "grad_norm": 0.030540937557816505,
      "learning_rate": 0.0005,
      "loss": 0.1581,
      "step": 16662
    },
    {
      "epoch": 16.98572884811417,
      "grad_norm": 0.24056987464427948,
      "learning_rate": 0.0005,
      "loss": 0.1675,
      "step": 16663
    },
    {
      "epoch": 16.986748216106015,
      "grad_norm": 0.07779810577630997,
      "learning_rate": 0.0005,
      "loss": 0.1765,
      "step": 16664
    },
    {
      "epoch": 16.98776758409786,
      "grad_norm": 0.018367407843470573,
      "learning_rate": 0.0005,
      "loss": 0.1616,
      "step": 16665
    },
    {
      "epoch": 16.988786952089704,
      "grad_norm": 0.05354940518736839,
      "learning_rate": 0.0005,
      "loss": 0.1663,
      "step": 16666
    },
    {
      "epoch": 16.98980632008155,
      "grad_norm": 0.05749710649251938,
      "learning_rate": 0.0005,
      "loss": 0.1597,
      "step": 16667
    },
    {
      "epoch": 16.990825688073393,
      "grad_norm": 0.06684665381908417,
      "learning_rate": 0.0005,
      "loss": 0.1595,
      "step": 16668
    },
    {
      "epoch": 16.99184505606524,
      "grad_norm": 0.10206489264965057,
      "learning_rate": 0.0005,
      "loss": 0.1532,
      "step": 16669
    },
    {
      "epoch": 16.992864424057085,
      "grad_norm": 0.03728671744465828,
      "learning_rate": 0.0005,
      "loss": 0.1583,
      "step": 16670
    },
    {
      "epoch": 16.99388379204893,
      "grad_norm": 0.06536094099283218,
      "learning_rate": 0.0005,
      "loss": 0.1694,
      "step": 16671
    },
    {
      "epoch": 16.994903160040774,
      "grad_norm": 0.04801851883530617,
      "learning_rate": 0.0005,
      "loss": 0.1615,
      "step": 16672
    },
    {
      "epoch": 16.99592252803262,
      "grad_norm": 0.030032223090529442,
      "learning_rate": 0.0005,
      "loss": 0.1688,
      "step": 16673
    },
    {
      "epoch": 16.996941896024463,
      "grad_norm": 0.07765543460845947,
      "learning_rate": 0.0005,
      "loss": 0.1804,
      "step": 16674
    },
    {
      "epoch": 16.99796126401631,
      "grad_norm": 0.11094680428504944,
      "learning_rate": 0.0005,
      "loss": 0.1753,
      "step": 16675
    },
    {
      "epoch": 16.998980632008156,
      "grad_norm": 0.12509752810001373,
      "learning_rate": 0.0005,
      "loss": 0.1967,
      "step": 16676
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.050490666180849075,
      "learning_rate": 0.0005,
      "loss": 0.176,
      "step": 16677
    },
    {
      "epoch": 17.0,
      "eval_-_f1-score": 0.32432432432432434,
      "eval_-_precision": 0.4,
      "eval_-_recall": 0.2727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.968724279835391,
      "eval_<_precision": 0.9697219361483007,
      "eval_<_recall": 0.9677286742034944,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8368200836820083,
      "eval_=_precision": 0.8695652173913043,
      "eval_=_recall": 0.8064516129032258,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.9685611879160266,
      "eval_>_precision": 0.9651020408163266,
      "eval_>_recall": 0.9720452209660843,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.9643,
      "eval_loss": 0.10562422126531601,
      "eval_macro_avg_f1-score": 0.7746074689394375,
      "eval_macro_avg_precision": 0.8010972985889828,
      "eval_macro_avg_recall": 0.7547381952000192,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 12.9359,
      "eval_samples_per_second": 773.042,
      "eval_steps_per_second": 3.092,
      "eval_weighted_avg_f1-score": 0.9639560316498921,
      "eval_weighted_avg_precision": 0.9637370821845954,
      "eval_weighted_avg_recall": 0.9643,
      "eval_weighted_avg_support": 10000.0,
      "step": 16677
    },
    {
      "epoch": 17.001019367991844,
      "grad_norm": 0.0281242486089468,
      "learning_rate": 0.00025,
      "loss": 0.1825,
      "step": 16678
    },
    {
      "epoch": 17.00203873598369,
      "grad_norm": 0.10789456218481064,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 16679
    },
    {
      "epoch": 17.003058103975537,
      "grad_norm": 0.06917732208967209,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 16680
    },
    {
      "epoch": 17.00407747196738,
      "grad_norm": 0.06709259748458862,
      "learning_rate": 0.00025,
      "loss": 0.179,
      "step": 16681
    },
    {
      "epoch": 17.005096839959226,
      "grad_norm": 0.04158883914351463,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 16682
    },
    {
      "epoch": 17.00611620795107,
      "grad_norm": 0.04601811617612839,
      "learning_rate": 0.00025,
      "loss": 0.1923,
      "step": 16683
    },
    {
      "epoch": 17.007135575942915,
      "grad_norm": 0.060244202613830566,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 16684
    },
    {
      "epoch": 17.00815494393476,
      "grad_norm": 0.03633887320756912,
      "learning_rate": 0.00025,
      "loss": 0.1532,
      "step": 16685
    },
    {
      "epoch": 17.009174311926607,
      "grad_norm": 0.02835707552731037,
      "learning_rate": 0.00025,
      "loss": 0.161,
      "step": 16686
    },
    {
      "epoch": 17.01019367991845,
      "grad_norm": 0.1394737958908081,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 16687
    },
    {
      "epoch": 17.011213047910296,
      "grad_norm": 0.10336434096097946,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 16688
    },
    {
      "epoch": 17.01223241590214,
      "grad_norm": 0.032689016312360764,
      "learning_rate": 0.00025,
      "loss": 0.1605,
      "step": 16689
    },
    {
      "epoch": 17.013251783893985,
      "grad_norm": 0.02301810495555401,
      "learning_rate": 0.00025,
      "loss": 0.1522,
      "step": 16690
    },
    {
      "epoch": 17.01427115188583,
      "grad_norm": 0.06876031309366226,
      "learning_rate": 0.00025,
      "loss": 0.179,
      "step": 16691
    },
    {
      "epoch": 17.015290519877677,
      "grad_norm": 0.05361749231815338,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 16692
    },
    {
      "epoch": 17.01630988786952,
      "grad_norm": 0.03669670596718788,
      "learning_rate": 0.00025,
      "loss": 0.1721,
      "step": 16693
    },
    {
      "epoch": 17.017329255861366,
      "grad_norm": 0.05014937371015549,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 16694
    },
    {
      "epoch": 17.01834862385321,
      "grad_norm": 0.17435164749622345,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 16695
    },
    {
      "epoch": 17.019367991845055,
      "grad_norm": 0.022243229672312737,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 16696
    },
    {
      "epoch": 17.020387359836903,
      "grad_norm": 0.029229283332824707,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 16697
    },
    {
      "epoch": 17.021406727828747,
      "grad_norm": 0.06660714745521545,
      "learning_rate": 0.00025,
      "loss": 0.1705,
      "step": 16698
    },
    {
      "epoch": 17.02242609582059,
      "grad_norm": 0.13159605860710144,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 16699
    },
    {
      "epoch": 17.023445463812436,
      "grad_norm": 0.03876581788063049,
      "learning_rate": 0.00025,
      "loss": 0.1699,
      "step": 16700
    },
    {
      "epoch": 17.02446483180428,
      "grad_norm": 0.024773234501481056,
      "learning_rate": 0.00025,
      "loss": 0.1655,
      "step": 16701
    },
    {
      "epoch": 17.025484199796125,
      "grad_norm": 0.022527316585183144,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 16702
    },
    {
      "epoch": 17.026503567787973,
      "grad_norm": 0.0428486242890358,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 16703
    },
    {
      "epoch": 17.027522935779817,
      "grad_norm": 0.06013815104961395,
      "learning_rate": 0.00025,
      "loss": 0.157,
      "step": 16704
    },
    {
      "epoch": 17.028542303771662,
      "grad_norm": 0.04412288963794708,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 16705
    },
    {
      "epoch": 17.029561671763506,
      "grad_norm": 0.06259114295244217,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 16706
    },
    {
      "epoch": 17.03058103975535,
      "grad_norm": 0.053440023213624954,
      "learning_rate": 0.00025,
      "loss": 0.171,
      "step": 16707
    },
    {
      "epoch": 17.031600407747195,
      "grad_norm": 0.055836912244558334,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 16708
    },
    {
      "epoch": 17.032619775739043,
      "grad_norm": 0.030474981293082237,
      "learning_rate": 0.00025,
      "loss": 0.1549,
      "step": 16709
    },
    {
      "epoch": 17.033639143730888,
      "grad_norm": 0.06091941148042679,
      "learning_rate": 0.00025,
      "loss": 0.1758,
      "step": 16710
    },
    {
      "epoch": 17.034658511722732,
      "grad_norm": 0.05706121399998665,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 16711
    },
    {
      "epoch": 17.035677879714576,
      "grad_norm": 0.02633129246532917,
      "learning_rate": 0.00025,
      "loss": 0.1545,
      "step": 16712
    },
    {
      "epoch": 17.03669724770642,
      "grad_norm": 0.03642614930868149,
      "learning_rate": 0.00025,
      "loss": 0.1572,
      "step": 16713
    },
    {
      "epoch": 17.037716615698265,
      "grad_norm": 0.0673946738243103,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 16714
    },
    {
      "epoch": 17.038735983690113,
      "grad_norm": 0.039917510002851486,
      "learning_rate": 0.00025,
      "loss": 0.1647,
      "step": 16715
    },
    {
      "epoch": 17.039755351681958,
      "grad_norm": 0.032474078238010406,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 16716
    },
    {
      "epoch": 17.040774719673802,
      "grad_norm": 0.04203691706061363,
      "learning_rate": 0.00025,
      "loss": 0.1726,
      "step": 16717
    },
    {
      "epoch": 17.041794087665647,
      "grad_norm": 0.039939239621162415,
      "learning_rate": 0.00025,
      "loss": 0.1532,
      "step": 16718
    },
    {
      "epoch": 17.04281345565749,
      "grad_norm": 0.07346995174884796,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 16719
    },
    {
      "epoch": 17.04383282364934,
      "grad_norm": 0.042672447860240936,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 16720
    },
    {
      "epoch": 17.044852191641183,
      "grad_norm": 0.11001687496900558,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 16721
    },
    {
      "epoch": 17.045871559633028,
      "grad_norm": 0.025763515383005142,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 16722
    },
    {
      "epoch": 17.046890927624872,
      "grad_norm": 0.0940999835729599,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 16723
    },
    {
      "epoch": 17.047910295616717,
      "grad_norm": 0.018670737743377686,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 16724
    },
    {
      "epoch": 17.04892966360856,
      "grad_norm": 0.05032743886113167,
      "learning_rate": 0.00025,
      "loss": 0.1647,
      "step": 16725
    },
    {
      "epoch": 17.04994903160041,
      "grad_norm": 0.04165220633149147,
      "learning_rate": 0.00025,
      "loss": 0.1665,
      "step": 16726
    },
    {
      "epoch": 17.050968399592254,
      "grad_norm": 0.03456078842282295,
      "learning_rate": 0.00025,
      "loss": 0.1627,
      "step": 16727
    },
    {
      "epoch": 17.051987767584098,
      "grad_norm": 0.043359749019145966,
      "learning_rate": 0.00025,
      "loss": 0.1729,
      "step": 16728
    },
    {
      "epoch": 17.053007135575942,
      "grad_norm": 0.05169106647372246,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 16729
    },
    {
      "epoch": 17.054026503567787,
      "grad_norm": 0.016340220347046852,
      "learning_rate": 0.00025,
      "loss": 0.1709,
      "step": 16730
    },
    {
      "epoch": 17.05504587155963,
      "grad_norm": 0.030282361432909966,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 16731
    },
    {
      "epoch": 17.05606523955148,
      "grad_norm": 0.02416055090725422,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 16732
    },
    {
      "epoch": 17.057084607543324,
      "grad_norm": 0.06419742852449417,
      "learning_rate": 0.00025,
      "loss": 0.183,
      "step": 16733
    },
    {
      "epoch": 17.058103975535168,
      "grad_norm": 0.03831106424331665,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 16734
    },
    {
      "epoch": 17.059123343527013,
      "grad_norm": 0.18141703307628632,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 16735
    },
    {
      "epoch": 17.060142711518857,
      "grad_norm": 0.022426631301641464,
      "learning_rate": 0.00025,
      "loss": 0.1681,
      "step": 16736
    },
    {
      "epoch": 17.061162079510705,
      "grad_norm": 0.022098930552601814,
      "learning_rate": 0.00025,
      "loss": 0.1807,
      "step": 16737
    },
    {
      "epoch": 17.06218144750255,
      "grad_norm": 0.06973755359649658,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 16738
    },
    {
      "epoch": 17.063200815494394,
      "grad_norm": 0.07437200099229813,
      "learning_rate": 0.00025,
      "loss": 0.1791,
      "step": 16739
    },
    {
      "epoch": 17.06422018348624,
      "grad_norm": 0.03469448909163475,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 16740
    },
    {
      "epoch": 17.065239551478083,
      "grad_norm": 0.03106057085096836,
      "learning_rate": 0.00025,
      "loss": 0.1619,
      "step": 16741
    },
    {
      "epoch": 17.066258919469927,
      "grad_norm": 0.06575502455234528,
      "learning_rate": 0.00025,
      "loss": 0.1785,
      "step": 16742
    },
    {
      "epoch": 17.067278287461775,
      "grad_norm": 0.027529222890734673,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 16743
    },
    {
      "epoch": 17.06829765545362,
      "grad_norm": 0.15139642357826233,
      "learning_rate": 0.00025,
      "loss": 0.2034,
      "step": 16744
    },
    {
      "epoch": 17.069317023445464,
      "grad_norm": 0.04258936271071434,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 16745
    },
    {
      "epoch": 17.07033639143731,
      "grad_norm": 0.04241851717233658,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 16746
    },
    {
      "epoch": 17.071355759429153,
      "grad_norm": 0.05544343590736389,
      "learning_rate": 0.00025,
      "loss": 0.179,
      "step": 16747
    },
    {
      "epoch": 17.072375127420997,
      "grad_norm": 0.05807063356041908,
      "learning_rate": 0.00025,
      "loss": 0.1628,
      "step": 16748
    },
    {
      "epoch": 17.073394495412845,
      "grad_norm": 0.057844653725624084,
      "learning_rate": 0.00025,
      "loss": 0.1615,
      "step": 16749
    },
    {
      "epoch": 17.07441386340469,
      "grad_norm": 0.09722570329904556,
      "learning_rate": 0.00025,
      "loss": 0.1787,
      "step": 16750
    },
    {
      "epoch": 17.075433231396534,
      "grad_norm": 0.03902284428477287,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 16751
    },
    {
      "epoch": 17.07645259938838,
      "grad_norm": 0.05591560900211334,
      "learning_rate": 0.00025,
      "loss": 0.162,
      "step": 16752
    },
    {
      "epoch": 17.077471967380223,
      "grad_norm": 0.037702374160289764,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 16753
    },
    {
      "epoch": 17.07849133537207,
      "grad_norm": 0.02302619442343712,
      "learning_rate": 0.00025,
      "loss": 0.1755,
      "step": 16754
    },
    {
      "epoch": 17.079510703363916,
      "grad_norm": 0.06937602907419205,
      "learning_rate": 0.00025,
      "loss": 0.1753,
      "step": 16755
    },
    {
      "epoch": 17.08053007135576,
      "grad_norm": 0.029575452208518982,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 16756
    },
    {
      "epoch": 17.081549439347604,
      "grad_norm": 0.0313095897436142,
      "learning_rate": 0.00025,
      "loss": 0.1608,
      "step": 16757
    },
    {
      "epoch": 17.08256880733945,
      "grad_norm": 0.047161418944597244,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 16758
    },
    {
      "epoch": 17.083588175331293,
      "grad_norm": 0.036206625401973724,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 16759
    },
    {
      "epoch": 17.08460754332314,
      "grad_norm": 0.031348951160907745,
      "learning_rate": 0.00025,
      "loss": 0.1501,
      "step": 16760
    },
    {
      "epoch": 17.085626911314986,
      "grad_norm": 0.21490511298179626,
      "learning_rate": 0.00025,
      "loss": 0.1744,
      "step": 16761
    },
    {
      "epoch": 17.08664627930683,
      "grad_norm": 0.10780926793813705,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16762
    },
    {
      "epoch": 17.087665647298675,
      "grad_norm": 0.04737520590424538,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 16763
    },
    {
      "epoch": 17.08868501529052,
      "grad_norm": 0.048777226358652115,
      "learning_rate": 0.00025,
      "loss": 0.1786,
      "step": 16764
    },
    {
      "epoch": 17.089704383282363,
      "grad_norm": 0.06418617069721222,
      "learning_rate": 0.00025,
      "loss": 0.1759,
      "step": 16765
    },
    {
      "epoch": 17.09072375127421,
      "grad_norm": 0.06440028548240662,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 16766
    },
    {
      "epoch": 17.091743119266056,
      "grad_norm": 0.03579648584127426,
      "learning_rate": 0.00025,
      "loss": 0.1764,
      "step": 16767
    },
    {
      "epoch": 17.0927624872579,
      "grad_norm": 0.03060027025640011,
      "learning_rate": 0.00025,
      "loss": 0.1705,
      "step": 16768
    },
    {
      "epoch": 17.093781855249745,
      "grad_norm": 0.04531572759151459,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 16769
    },
    {
      "epoch": 17.09480122324159,
      "grad_norm": 0.042530227452516556,
      "learning_rate": 0.00025,
      "loss": 0.175,
      "step": 16770
    },
    {
      "epoch": 17.095820591233434,
      "grad_norm": 0.11702337861061096,
      "learning_rate": 0.00025,
      "loss": 0.1843,
      "step": 16771
    },
    {
      "epoch": 17.09683995922528,
      "grad_norm": 0.15227870643138885,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 16772
    },
    {
      "epoch": 17.097859327217126,
      "grad_norm": 0.1687544733285904,
      "learning_rate": 0.00025,
      "loss": 0.1842,
      "step": 16773
    },
    {
      "epoch": 17.09887869520897,
      "grad_norm": 0.02688179723918438,
      "learning_rate": 0.00025,
      "loss": 0.158,
      "step": 16774
    },
    {
      "epoch": 17.099898063200815,
      "grad_norm": 0.0352114774286747,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 16775
    },
    {
      "epoch": 17.10091743119266,
      "grad_norm": 0.03672074154019356,
      "learning_rate": 0.00025,
      "loss": 0.158,
      "step": 16776
    },
    {
      "epoch": 17.101936799184507,
      "grad_norm": 0.04048439860343933,
      "learning_rate": 0.00025,
      "loss": 0.1559,
      "step": 16777
    },
    {
      "epoch": 17.10295616717635,
      "grad_norm": 0.05270736664533615,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 16778
    },
    {
      "epoch": 17.103975535168196,
      "grad_norm": 0.015158543363213539,
      "learning_rate": 0.00025,
      "loss": 0.1509,
      "step": 16779
    },
    {
      "epoch": 17.10499490316004,
      "grad_norm": 0.025726616382598877,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 16780
    },
    {
      "epoch": 17.106014271151885,
      "grad_norm": 0.08326518535614014,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 16781
    },
    {
      "epoch": 17.10703363914373,
      "grad_norm": 0.026383686810731888,
      "learning_rate": 0.00025,
      "loss": 0.1721,
      "step": 16782
    },
    {
      "epoch": 17.108053007135577,
      "grad_norm": 0.07395729422569275,
      "learning_rate": 0.00025,
      "loss": 0.1586,
      "step": 16783
    },
    {
      "epoch": 17.109072375127422,
      "grad_norm": 0.060400236397981644,
      "learning_rate": 0.00025,
      "loss": 0.1841,
      "step": 16784
    },
    {
      "epoch": 17.110091743119266,
      "grad_norm": 0.05438806116580963,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 16785
    },
    {
      "epoch": 17.11111111111111,
      "grad_norm": 0.03520895913243294,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16786
    },
    {
      "epoch": 17.112130479102955,
      "grad_norm": 0.02495349943637848,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 16787
    },
    {
      "epoch": 17.1131498470948,
      "grad_norm": 0.03849584236741066,
      "learning_rate": 0.00025,
      "loss": 0.1586,
      "step": 16788
    },
    {
      "epoch": 17.114169215086648,
      "grad_norm": 0.07006118446588516,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 16789
    },
    {
      "epoch": 17.115188583078492,
      "grad_norm": 0.06179555132985115,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 16790
    },
    {
      "epoch": 17.116207951070336,
      "grad_norm": 0.06951701641082764,
      "learning_rate": 0.00025,
      "loss": 0.1818,
      "step": 16791
    },
    {
      "epoch": 17.11722731906218,
      "grad_norm": 0.019954117015004158,
      "learning_rate": 0.00025,
      "loss": 0.1747,
      "step": 16792
    },
    {
      "epoch": 17.118246687054025,
      "grad_norm": 0.032113756984472275,
      "learning_rate": 0.00025,
      "loss": 0.1554,
      "step": 16793
    },
    {
      "epoch": 17.119266055045873,
      "grad_norm": 0.030939467251300812,
      "learning_rate": 0.00025,
      "loss": 0.1775,
      "step": 16794
    },
    {
      "epoch": 17.120285423037718,
      "grad_norm": 0.01851477101445198,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 16795
    },
    {
      "epoch": 17.121304791029562,
      "grad_norm": 0.0632377341389656,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 16796
    },
    {
      "epoch": 17.122324159021407,
      "grad_norm": 0.06523098796606064,
      "learning_rate": 0.00025,
      "loss": 0.1627,
      "step": 16797
    },
    {
      "epoch": 17.12334352701325,
      "grad_norm": 0.07579907029867172,
      "learning_rate": 0.00025,
      "loss": 0.1771,
      "step": 16798
    },
    {
      "epoch": 17.124362895005095,
      "grad_norm": 0.03758547082543373,
      "learning_rate": 0.00025,
      "loss": 0.1722,
      "step": 16799
    },
    {
      "epoch": 17.125382262996943,
      "grad_norm": 0.034185852855443954,
      "learning_rate": 0.00025,
      "loss": 0.1692,
      "step": 16800
    },
    {
      "epoch": 17.126401630988788,
      "grad_norm": 0.05398792773485184,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 16801
    },
    {
      "epoch": 17.127420998980632,
      "grad_norm": 0.11527486890554428,
      "learning_rate": 0.00025,
      "loss": 0.1553,
      "step": 16802
    },
    {
      "epoch": 17.128440366972477,
      "grad_norm": 0.23469460010528564,
      "learning_rate": 0.00025,
      "loss": 0.1835,
      "step": 16803
    },
    {
      "epoch": 17.12945973496432,
      "grad_norm": 0.11694426834583282,
      "learning_rate": 0.00025,
      "loss": 0.1838,
      "step": 16804
    },
    {
      "epoch": 17.130479102956166,
      "grad_norm": 0.06727828830480576,
      "learning_rate": 0.00025,
      "loss": 0.1681,
      "step": 16805
    },
    {
      "epoch": 17.131498470948014,
      "grad_norm": 0.0699952244758606,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 16806
    },
    {
      "epoch": 17.132517838939858,
      "grad_norm": 0.048961225897073746,
      "learning_rate": 0.00025,
      "loss": 0.1624,
      "step": 16807
    },
    {
      "epoch": 17.133537206931702,
      "grad_norm": 0.0707813948392868,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 16808
    },
    {
      "epoch": 17.134556574923547,
      "grad_norm": 0.04614797979593277,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 16809
    },
    {
      "epoch": 17.13557594291539,
      "grad_norm": 0.01827140338718891,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 16810
    },
    {
      "epoch": 17.136595310907236,
      "grad_norm": 0.02582191489636898,
      "learning_rate": 0.00025,
      "loss": 0.1599,
      "step": 16811
    },
    {
      "epoch": 17.137614678899084,
      "grad_norm": 0.0323001891374588,
      "learning_rate": 0.00025,
      "loss": 0.1591,
      "step": 16812
    },
    {
      "epoch": 17.138634046890928,
      "grad_norm": 0.02045471966266632,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 16813
    },
    {
      "epoch": 17.139653414882773,
      "grad_norm": 0.03728998452425003,
      "learning_rate": 0.00025,
      "loss": 0.1482,
      "step": 16814
    },
    {
      "epoch": 17.140672782874617,
      "grad_norm": 0.02533639967441559,
      "learning_rate": 0.00025,
      "loss": 0.1549,
      "step": 16815
    },
    {
      "epoch": 17.14169215086646,
      "grad_norm": 0.03861595317721367,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 16816
    },
    {
      "epoch": 17.14271151885831,
      "grad_norm": 0.024998946115374565,
      "learning_rate": 0.00025,
      "loss": 0.162,
      "step": 16817
    },
    {
      "epoch": 17.143730886850154,
      "grad_norm": 0.038759637624025345,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 16818
    },
    {
      "epoch": 17.144750254842,
      "grad_norm": 0.0652032271027565,
      "learning_rate": 0.00025,
      "loss": 0.1676,
      "step": 16819
    },
    {
      "epoch": 17.145769622833843,
      "grad_norm": 0.033730167895555496,
      "learning_rate": 0.00025,
      "loss": 0.168,
      "step": 16820
    },
    {
      "epoch": 17.146788990825687,
      "grad_norm": 0.03218049183487892,
      "learning_rate": 0.00025,
      "loss": 0.1533,
      "step": 16821
    },
    {
      "epoch": 17.14780835881753,
      "grad_norm": 0.04724486544728279,
      "learning_rate": 0.00025,
      "loss": 0.1749,
      "step": 16822
    },
    {
      "epoch": 17.14882772680938,
      "grad_norm": 0.050176266580820084,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 16823
    },
    {
      "epoch": 17.149847094801224,
      "grad_norm": 0.10034347325563431,
      "learning_rate": 0.00025,
      "loss": 0.1969,
      "step": 16824
    },
    {
      "epoch": 17.15086646279307,
      "grad_norm": 0.01937851496040821,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 16825
    },
    {
      "epoch": 17.151885830784913,
      "grad_norm": 0.035825490951538086,
      "learning_rate": 0.00025,
      "loss": 0.1666,
      "step": 16826
    },
    {
      "epoch": 17.152905198776757,
      "grad_norm": 0.01891477033495903,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 16827
    },
    {
      "epoch": 17.153924566768602,
      "grad_norm": 0.023394815623760223,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 16828
    },
    {
      "epoch": 17.15494393476045,
      "grad_norm": 0.05125728249549866,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 16829
    },
    {
      "epoch": 17.155963302752294,
      "grad_norm": 0.014004762284457684,
      "learning_rate": 0.00025,
      "loss": 0.1533,
      "step": 16830
    },
    {
      "epoch": 17.15698267074414,
      "grad_norm": 0.04995936155319214,
      "learning_rate": 0.00025,
      "loss": 0.1763,
      "step": 16831
    },
    {
      "epoch": 17.158002038735983,
      "grad_norm": 0.0569966621696949,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 16832
    },
    {
      "epoch": 17.159021406727827,
      "grad_norm": 0.06734300404787064,
      "learning_rate": 0.00025,
      "loss": 0.1644,
      "step": 16833
    },
    {
      "epoch": 17.160040774719675,
      "grad_norm": 0.058798786252737045,
      "learning_rate": 0.00025,
      "loss": 0.1588,
      "step": 16834
    },
    {
      "epoch": 17.16106014271152,
      "grad_norm": 0.03549433499574661,
      "learning_rate": 0.00025,
      "loss": 0.1509,
      "step": 16835
    },
    {
      "epoch": 17.162079510703364,
      "grad_norm": 0.059635743498802185,
      "learning_rate": 0.00025,
      "loss": 0.1792,
      "step": 16836
    },
    {
      "epoch": 17.16309887869521,
      "grad_norm": 0.025971736758947372,
      "learning_rate": 0.00025,
      "loss": 0.1508,
      "step": 16837
    },
    {
      "epoch": 17.164118246687053,
      "grad_norm": 0.0439685694873333,
      "learning_rate": 0.00025,
      "loss": 0.1561,
      "step": 16838
    },
    {
      "epoch": 17.165137614678898,
      "grad_norm": 0.03245125710964203,
      "learning_rate": 0.00025,
      "loss": 0.1621,
      "step": 16839
    },
    {
      "epoch": 17.166156982670746,
      "grad_norm": 0.018255343660712242,
      "learning_rate": 0.00025,
      "loss": 0.1538,
      "step": 16840
    },
    {
      "epoch": 17.16717635066259,
      "grad_norm": 0.025962507352232933,
      "learning_rate": 0.00025,
      "loss": 0.1477,
      "step": 16841
    },
    {
      "epoch": 17.168195718654435,
      "grad_norm": 0.034909069538116455,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 16842
    },
    {
      "epoch": 17.16921508664628,
      "grad_norm": 0.05559025704860687,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 16843
    },
    {
      "epoch": 17.170234454638123,
      "grad_norm": 0.04501262307167053,
      "learning_rate": 0.00025,
      "loss": 0.1777,
      "step": 16844
    },
    {
      "epoch": 17.171253822629968,
      "grad_norm": 0.04648497700691223,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 16845
    },
    {
      "epoch": 17.172273190621816,
      "grad_norm": 0.038676902651786804,
      "learning_rate": 0.00025,
      "loss": 0.1715,
      "step": 16846
    },
    {
      "epoch": 17.17329255861366,
      "grad_norm": 0.019836805760860443,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16847
    },
    {
      "epoch": 17.174311926605505,
      "grad_norm": 0.03197631612420082,
      "learning_rate": 0.00025,
      "loss": 0.156,
      "step": 16848
    },
    {
      "epoch": 17.17533129459735,
      "grad_norm": 0.0957348570227623,
      "learning_rate": 0.00025,
      "loss": 0.182,
      "step": 16849
    },
    {
      "epoch": 17.176350662589194,
      "grad_norm": 0.03946371003985405,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 16850
    },
    {
      "epoch": 17.17737003058104,
      "grad_norm": 0.022205017507076263,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 16851
    },
    {
      "epoch": 17.178389398572886,
      "grad_norm": 0.024812430143356323,
      "learning_rate": 0.00025,
      "loss": 0.167,
      "step": 16852
    },
    {
      "epoch": 17.17940876656473,
      "grad_norm": 0.06920677423477173,
      "learning_rate": 0.00025,
      "loss": 0.1809,
      "step": 16853
    },
    {
      "epoch": 17.180428134556575,
      "grad_norm": 0.03438214585185051,
      "learning_rate": 0.00025,
      "loss": 0.1833,
      "step": 16854
    },
    {
      "epoch": 17.18144750254842,
      "grad_norm": 0.013097469694912434,
      "learning_rate": 0.00025,
      "loss": 0.1724,
      "step": 16855
    },
    {
      "epoch": 17.182466870540264,
      "grad_norm": 0.10422107577323914,
      "learning_rate": 0.00025,
      "loss": 0.1721,
      "step": 16856
    },
    {
      "epoch": 17.18348623853211,
      "grad_norm": 0.14184331893920898,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16857
    },
    {
      "epoch": 17.184505606523956,
      "grad_norm": 0.04192975163459778,
      "learning_rate": 0.00025,
      "loss": 0.1549,
      "step": 16858
    },
    {
      "epoch": 17.1855249745158,
      "grad_norm": 0.03939459100365639,
      "learning_rate": 0.00025,
      "loss": 0.1661,
      "step": 16859
    },
    {
      "epoch": 17.186544342507645,
      "grad_norm": 0.01977277360856533,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 16860
    },
    {
      "epoch": 17.18756371049949,
      "grad_norm": 0.05038778483867645,
      "learning_rate": 0.00025,
      "loss": 0.1589,
      "step": 16861
    },
    {
      "epoch": 17.188583078491334,
      "grad_norm": 0.032367292791604996,
      "learning_rate": 0.00025,
      "loss": 0.1792,
      "step": 16862
    },
    {
      "epoch": 17.189602446483182,
      "grad_norm": 0.05523985996842384,
      "learning_rate": 0.00025,
      "loss": 0.1583,
      "step": 16863
    },
    {
      "epoch": 17.190621814475026,
      "grad_norm": 0.04833366721868515,
      "learning_rate": 0.00025,
      "loss": 0.1486,
      "step": 16864
    },
    {
      "epoch": 17.19164118246687,
      "grad_norm": 0.141756072640419,
      "learning_rate": 0.00025,
      "loss": 0.1686,
      "step": 16865
    },
    {
      "epoch": 17.192660550458715,
      "grad_norm": 0.03224676474928856,
      "learning_rate": 0.00025,
      "loss": 0.1581,
      "step": 16866
    },
    {
      "epoch": 17.19367991845056,
      "grad_norm": 0.025502821430563927,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 16867
    },
    {
      "epoch": 17.194699286442404,
      "grad_norm": 0.08563907444477081,
      "learning_rate": 0.00025,
      "loss": 0.1782,
      "step": 16868
    },
    {
      "epoch": 17.195718654434252,
      "grad_norm": 0.029729578644037247,
      "learning_rate": 0.00025,
      "loss": 0.1703,
      "step": 16869
    },
    {
      "epoch": 17.196738022426096,
      "grad_norm": 0.046873293817043304,
      "learning_rate": 0.00025,
      "loss": 0.1847,
      "step": 16870
    },
    {
      "epoch": 17.19775739041794,
      "grad_norm": 0.09453700482845306,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 16871
    },
    {
      "epoch": 17.198776758409785,
      "grad_norm": 0.029145250096917152,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 16872
    },
    {
      "epoch": 17.19979612640163,
      "grad_norm": 0.044746555387973785,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 16873
    },
    {
      "epoch": 17.200815494393478,
      "grad_norm": 0.15070827305316925,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 16874
    },
    {
      "epoch": 17.201834862385322,
      "grad_norm": 0.0792384147644043,
      "learning_rate": 0.00025,
      "loss": 0.1759,
      "step": 16875
    },
    {
      "epoch": 17.202854230377167,
      "grad_norm": 0.0632227435708046,
      "learning_rate": 0.00025,
      "loss": 0.1714,
      "step": 16876
    },
    {
      "epoch": 17.20387359836901,
      "grad_norm": 0.05376743525266647,
      "learning_rate": 0.00025,
      "loss": 0.1801,
      "step": 16877
    },
    {
      "epoch": 17.204892966360855,
      "grad_norm": 0.05831647664308548,
      "learning_rate": 0.00025,
      "loss": 0.1591,
      "step": 16878
    },
    {
      "epoch": 17.2059123343527,
      "grad_norm": 0.03478523716330528,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16879
    },
    {
      "epoch": 17.206931702344548,
      "grad_norm": 0.037852659821510315,
      "learning_rate": 0.00025,
      "loss": 0.184,
      "step": 16880
    },
    {
      "epoch": 17.207951070336392,
      "grad_norm": 0.04221830144524574,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 16881
    },
    {
      "epoch": 17.208970438328237,
      "grad_norm": 0.1165132224559784,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 16882
    },
    {
      "epoch": 17.20998980632008,
      "grad_norm": 0.0523352175951004,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 16883
    },
    {
      "epoch": 17.211009174311926,
      "grad_norm": 0.0458214171230793,
      "learning_rate": 0.00025,
      "loss": 0.1769,
      "step": 16884
    },
    {
      "epoch": 17.21202854230377,
      "grad_norm": 0.07676079869270325,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 16885
    },
    {
      "epoch": 17.213047910295618,
      "grad_norm": 0.05533823370933533,
      "learning_rate": 0.00025,
      "loss": 0.175,
      "step": 16886
    },
    {
      "epoch": 17.214067278287462,
      "grad_norm": 0.028629019856452942,
      "learning_rate": 0.00025,
      "loss": 0.1898,
      "step": 16887
    },
    {
      "epoch": 17.215086646279307,
      "grad_norm": 0.047131236642599106,
      "learning_rate": 0.00025,
      "loss": 0.1753,
      "step": 16888
    },
    {
      "epoch": 17.21610601427115,
      "grad_norm": 0.08098402619361877,
      "learning_rate": 0.00025,
      "loss": 0.1744,
      "step": 16889
    },
    {
      "epoch": 17.217125382262996,
      "grad_norm": 0.01646534726023674,
      "learning_rate": 0.00025,
      "loss": 0.1617,
      "step": 16890
    },
    {
      "epoch": 17.218144750254844,
      "grad_norm": 0.06881481409072876,
      "learning_rate": 0.00025,
      "loss": 0.1722,
      "step": 16891
    },
    {
      "epoch": 17.219164118246688,
      "grad_norm": 0.03592304140329361,
      "learning_rate": 0.00025,
      "loss": 0.1808,
      "step": 16892
    },
    {
      "epoch": 17.220183486238533,
      "grad_norm": 0.05913606286048889,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 16893
    },
    {
      "epoch": 17.221202854230377,
      "grad_norm": 0.05472210794687271,
      "learning_rate": 0.00025,
      "loss": 0.1655,
      "step": 16894
    },
    {
      "epoch": 17.22222222222222,
      "grad_norm": 0.02365129441022873,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 16895
    },
    {
      "epoch": 17.223241590214066,
      "grad_norm": 0.02649843879044056,
      "learning_rate": 0.00025,
      "loss": 0.1807,
      "step": 16896
    },
    {
      "epoch": 17.224260958205914,
      "grad_norm": 0.03222064673900604,
      "learning_rate": 0.00025,
      "loss": 0.1718,
      "step": 16897
    },
    {
      "epoch": 17.22528032619776,
      "grad_norm": 0.028293004259467125,
      "learning_rate": 0.00025,
      "loss": 0.1561,
      "step": 16898
    },
    {
      "epoch": 17.226299694189603,
      "grad_norm": 0.015084044076502323,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 16899
    },
    {
      "epoch": 17.227319062181447,
      "grad_norm": 0.018225060775876045,
      "learning_rate": 0.00025,
      "loss": 0.1683,
      "step": 16900
    },
    {
      "epoch": 17.22833843017329,
      "grad_norm": 0.0645383670926094,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 16901
    },
    {
      "epoch": 17.229357798165136,
      "grad_norm": 0.08886729925870895,
      "learning_rate": 0.00025,
      "loss": 0.1869,
      "step": 16902
    },
    {
      "epoch": 17.230377166156984,
      "grad_norm": 0.033279500901699066,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 16903
    },
    {
      "epoch": 17.23139653414883,
      "grad_norm": 0.04123619943857193,
      "learning_rate": 0.00025,
      "loss": 0.1854,
      "step": 16904
    },
    {
      "epoch": 17.232415902140673,
      "grad_norm": 0.061235349625349045,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 16905
    },
    {
      "epoch": 17.233435270132517,
      "grad_norm": 0.031240204349160194,
      "learning_rate": 0.00025,
      "loss": 0.1641,
      "step": 16906
    },
    {
      "epoch": 17.23445463812436,
      "grad_norm": 0.04849838837981224,
      "learning_rate": 0.00025,
      "loss": 0.1615,
      "step": 16907
    },
    {
      "epoch": 17.235474006116206,
      "grad_norm": 0.032336652278900146,
      "learning_rate": 0.00025,
      "loss": 0.1742,
      "step": 16908
    },
    {
      "epoch": 17.236493374108054,
      "grad_norm": 0.029731418937444687,
      "learning_rate": 0.00025,
      "loss": 0.1597,
      "step": 16909
    },
    {
      "epoch": 17.2375127420999,
      "grad_norm": 0.029449131339788437,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 16910
    },
    {
      "epoch": 17.238532110091743,
      "grad_norm": 0.05410270020365715,
      "learning_rate": 0.00025,
      "loss": 0.1462,
      "step": 16911
    },
    {
      "epoch": 17.239551478083587,
      "grad_norm": 0.07538087666034698,
      "learning_rate": 0.00025,
      "loss": 0.1646,
      "step": 16912
    },
    {
      "epoch": 17.240570846075432,
      "grad_norm": 0.06411608308553696,
      "learning_rate": 0.00025,
      "loss": 0.1899,
      "step": 16913
    },
    {
      "epoch": 17.24159021406728,
      "grad_norm": 0.020402396097779274,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 16914
    },
    {
      "epoch": 17.242609582059124,
      "grad_norm": 0.08874934911727905,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 16915
    },
    {
      "epoch": 17.24362895005097,
      "grad_norm": 0.030080437660217285,
      "learning_rate": 0.00025,
      "loss": 0.167,
      "step": 16916
    },
    {
      "epoch": 17.244648318042813,
      "grad_norm": 0.06353060156106949,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 16917
    },
    {
      "epoch": 17.245667686034658,
      "grad_norm": 0.019949063658714294,
      "learning_rate": 0.00025,
      "loss": 0.1705,
      "step": 16918
    },
    {
      "epoch": 17.246687054026502,
      "grad_norm": 0.044690635055303574,
      "learning_rate": 0.00025,
      "loss": 0.1615,
      "step": 16919
    },
    {
      "epoch": 17.24770642201835,
      "grad_norm": 0.10260365903377533,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 16920
    },
    {
      "epoch": 17.248725790010194,
      "grad_norm": 0.03435062989592552,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 16921
    },
    {
      "epoch": 17.24974515800204,
      "grad_norm": 0.022458763793110847,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 16922
    },
    {
      "epoch": 17.250764525993883,
      "grad_norm": 0.03831334784626961,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 16923
    },
    {
      "epoch": 17.251783893985728,
      "grad_norm": 0.06748833507299423,
      "learning_rate": 0.00025,
      "loss": 0.1644,
      "step": 16924
    },
    {
      "epoch": 17.252803261977572,
      "grad_norm": 0.061559103429317474,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 16925
    },
    {
      "epoch": 17.25382262996942,
      "grad_norm": 0.018465671688318253,
      "learning_rate": 0.00025,
      "loss": 0.1686,
      "step": 16926
    },
    {
      "epoch": 17.254841997961265,
      "grad_norm": 0.031136784702539444,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 16927
    },
    {
      "epoch": 17.25586136595311,
      "grad_norm": 0.08726270496845245,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 16928
    },
    {
      "epoch": 17.256880733944953,
      "grad_norm": 0.09246613830327988,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 16929
    },
    {
      "epoch": 17.257900101936798,
      "grad_norm": 0.02978980541229248,
      "learning_rate": 0.00025,
      "loss": 0.1772,
      "step": 16930
    },
    {
      "epoch": 17.258919469928646,
      "grad_norm": 0.039881620556116104,
      "learning_rate": 0.00025,
      "loss": 0.1549,
      "step": 16931
    },
    {
      "epoch": 17.25993883792049,
      "grad_norm": 0.05100196227431297,
      "learning_rate": 0.00025,
      "loss": 0.1599,
      "step": 16932
    },
    {
      "epoch": 17.260958205912335,
      "grad_norm": 0.03281443566083908,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 16933
    },
    {
      "epoch": 17.26197757390418,
      "grad_norm": 0.08553865551948547,
      "learning_rate": 0.00025,
      "loss": 0.1658,
      "step": 16934
    },
    {
      "epoch": 17.262996941896024,
      "grad_norm": 0.023483213037252426,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 16935
    },
    {
      "epoch": 17.264016309887868,
      "grad_norm": 0.013471538200974464,
      "learning_rate": 0.00025,
      "loss": 0.1515,
      "step": 16936
    },
    {
      "epoch": 17.265035677879716,
      "grad_norm": 0.02535492740571499,
      "learning_rate": 0.00025,
      "loss": 0.1614,
      "step": 16937
    },
    {
      "epoch": 17.26605504587156,
      "grad_norm": 0.046278052031993866,
      "learning_rate": 0.00025,
      "loss": 0.1606,
      "step": 16938
    },
    {
      "epoch": 17.267074413863405,
      "grad_norm": 0.03682253137230873,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 16939
    },
    {
      "epoch": 17.26809378185525,
      "grad_norm": 0.01717987284064293,
      "learning_rate": 0.00025,
      "loss": 0.1628,
      "step": 16940
    },
    {
      "epoch": 17.269113149847094,
      "grad_norm": 0.102387934923172,
      "learning_rate": 0.00025,
      "loss": 0.1731,
      "step": 16941
    },
    {
      "epoch": 17.270132517838938,
      "grad_norm": 0.03114216774702072,
      "learning_rate": 0.00025,
      "loss": 0.1512,
      "step": 16942
    },
    {
      "epoch": 17.271151885830786,
      "grad_norm": 0.03872549906373024,
      "learning_rate": 0.00025,
      "loss": 0.171,
      "step": 16943
    },
    {
      "epoch": 17.27217125382263,
      "grad_norm": 0.030819930136203766,
      "learning_rate": 0.00025,
      "loss": 0.1853,
      "step": 16944
    },
    {
      "epoch": 17.273190621814475,
      "grad_norm": 0.04200143739581108,
      "learning_rate": 0.00025,
      "loss": 0.1605,
      "step": 16945
    },
    {
      "epoch": 17.27420998980632,
      "grad_norm": 0.039677947759628296,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 16946
    },
    {
      "epoch": 17.275229357798164,
      "grad_norm": 0.02759513631463051,
      "learning_rate": 0.00025,
      "loss": 0.1606,
      "step": 16947
    },
    {
      "epoch": 17.276248725790012,
      "grad_norm": 0.021918542683124542,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 16948
    },
    {
      "epoch": 17.277268093781856,
      "grad_norm": 0.02642403170466423,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 16949
    },
    {
      "epoch": 17.2782874617737,
      "grad_norm": 0.026646865531802177,
      "learning_rate": 0.00025,
      "loss": 0.1753,
      "step": 16950
    },
    {
      "epoch": 17.279306829765545,
      "grad_norm": 0.031194372102618217,
      "learning_rate": 0.00025,
      "loss": 0.1656,
      "step": 16951
    },
    {
      "epoch": 17.28032619775739,
      "grad_norm": 0.04358026385307312,
      "learning_rate": 0.00025,
      "loss": 0.1776,
      "step": 16952
    },
    {
      "epoch": 17.281345565749234,
      "grad_norm": 0.04223085939884186,
      "learning_rate": 0.00025,
      "loss": 0.1665,
      "step": 16953
    },
    {
      "epoch": 17.282364933741082,
      "grad_norm": 0.05615488812327385,
      "learning_rate": 0.00025,
      "loss": 0.1774,
      "step": 16954
    },
    {
      "epoch": 17.283384301732927,
      "grad_norm": 0.048174936324357986,
      "learning_rate": 0.00025,
      "loss": 0.168,
      "step": 16955
    },
    {
      "epoch": 17.28440366972477,
      "grad_norm": 0.04361565038561821,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 16956
    },
    {
      "epoch": 17.285423037716615,
      "grad_norm": 0.06787772476673126,
      "learning_rate": 0.00025,
      "loss": 0.1671,
      "step": 16957
    },
    {
      "epoch": 17.28644240570846,
      "grad_norm": 0.06553132086992264,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 16958
    },
    {
      "epoch": 17.287461773700304,
      "grad_norm": 0.07037583738565445,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 16959
    },
    {
      "epoch": 17.288481141692152,
      "grad_norm": 0.04874401167035103,
      "learning_rate": 0.00025,
      "loss": 0.1593,
      "step": 16960
    },
    {
      "epoch": 17.289500509683997,
      "grad_norm": 0.02976950816810131,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 16961
    },
    {
      "epoch": 17.29051987767584,
      "grad_norm": 0.11898955702781677,
      "learning_rate": 0.00025,
      "loss": 0.1866,
      "step": 16962
    },
    {
      "epoch": 17.291539245667686,
      "grad_norm": 0.01833861693739891,
      "learning_rate": 0.00025,
      "loss": 0.1532,
      "step": 16963
    },
    {
      "epoch": 17.29255861365953,
      "grad_norm": 0.03026006743311882,
      "learning_rate": 0.00025,
      "loss": 0.1527,
      "step": 16964
    },
    {
      "epoch": 17.293577981651374,
      "grad_norm": 0.04274461045861244,
      "learning_rate": 0.00025,
      "loss": 0.1517,
      "step": 16965
    },
    {
      "epoch": 17.294597349643222,
      "grad_norm": 0.04977698624134064,
      "learning_rate": 0.00025,
      "loss": 0.1572,
      "step": 16966
    },
    {
      "epoch": 17.295616717635067,
      "grad_norm": 0.08042064309120178,
      "learning_rate": 0.00025,
      "loss": 0.1541,
      "step": 16967
    },
    {
      "epoch": 17.29663608562691,
      "grad_norm": 0.05620227009057999,
      "learning_rate": 0.00025,
      "loss": 0.1842,
      "step": 16968
    },
    {
      "epoch": 17.297655453618756,
      "grad_norm": 0.06380845606327057,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 16969
    },
    {
      "epoch": 17.2986748216106,
      "grad_norm": 0.08373092859983444,
      "learning_rate": 0.00025,
      "loss": 0.179,
      "step": 16970
    },
    {
      "epoch": 17.299694189602448,
      "grad_norm": 0.027202285826206207,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 16971
    },
    {
      "epoch": 17.300713557594293,
      "grad_norm": 0.0790460929274559,
      "learning_rate": 0.00025,
      "loss": 0.1617,
      "step": 16972
    },
    {
      "epoch": 17.301732925586137,
      "grad_norm": 0.041094642132520676,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 16973
    },
    {
      "epoch": 17.30275229357798,
      "grad_norm": 0.025902053341269493,
      "learning_rate": 0.00025,
      "loss": 0.1519,
      "step": 16974
    },
    {
      "epoch": 17.303771661569826,
      "grad_norm": 0.027722807601094246,
      "learning_rate": 0.00025,
      "loss": 0.1709,
      "step": 16975
    },
    {
      "epoch": 17.30479102956167,
      "grad_norm": 0.018256964161992073,
      "learning_rate": 0.00025,
      "loss": 0.1565,
      "step": 16976
    },
    {
      "epoch": 17.30581039755352,
      "grad_norm": 0.025045113638043404,
      "learning_rate": 0.00025,
      "loss": 0.1482,
      "step": 16977
    },
    {
      "epoch": 17.306829765545363,
      "grad_norm": 0.07026752084493637,
      "learning_rate": 0.00025,
      "loss": 0.1787,
      "step": 16978
    },
    {
      "epoch": 17.307849133537207,
      "grad_norm": 0.04151932895183563,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 16979
    },
    {
      "epoch": 17.30886850152905,
      "grad_norm": 0.021932685747742653,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 16980
    },
    {
      "epoch": 17.309887869520896,
      "grad_norm": 0.032180123031139374,
      "learning_rate": 0.00025,
      "loss": 0.1636,
      "step": 16981
    },
    {
      "epoch": 17.31090723751274,
      "grad_norm": 0.01185261644423008,
      "learning_rate": 0.00025,
      "loss": 0.1494,
      "step": 16982
    },
    {
      "epoch": 17.31192660550459,
      "grad_norm": 0.043338365852832794,
      "learning_rate": 0.00025,
      "loss": 0.1497,
      "step": 16983
    },
    {
      "epoch": 17.312945973496433,
      "grad_norm": 0.04445195943117142,
      "learning_rate": 0.00025,
      "loss": 0.1617,
      "step": 16984
    },
    {
      "epoch": 17.313965341488277,
      "grad_norm": 0.056470464915037155,
      "learning_rate": 0.00025,
      "loss": 0.1741,
      "step": 16985
    },
    {
      "epoch": 17.31498470948012,
      "grad_norm": 0.0404399149119854,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 16986
    },
    {
      "epoch": 17.316004077471966,
      "grad_norm": 0.05767360329627991,
      "learning_rate": 0.00025,
      "loss": 0.1644,
      "step": 16987
    },
    {
      "epoch": 17.317023445463814,
      "grad_norm": 0.028411349281668663,
      "learning_rate": 0.00025,
      "loss": 0.1514,
      "step": 16988
    },
    {
      "epoch": 17.31804281345566,
      "grad_norm": 0.08674976229667664,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 16989
    },
    {
      "epoch": 17.319062181447503,
      "grad_norm": 0.056807950139045715,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 16990
    },
    {
      "epoch": 17.320081549439347,
      "grad_norm": 0.04108676314353943,
      "learning_rate": 0.00025,
      "loss": 0.158,
      "step": 16991
    },
    {
      "epoch": 17.321100917431192,
      "grad_norm": 0.12148216366767883,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 16992
    },
    {
      "epoch": 17.322120285423036,
      "grad_norm": 0.021973412483930588,
      "learning_rate": 0.00025,
      "loss": 0.1824,
      "step": 16993
    },
    {
      "epoch": 17.323139653414884,
      "grad_norm": 0.033363692462444305,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 16994
    },
    {
      "epoch": 17.32415902140673,
      "grad_norm": 0.07401501387357712,
      "learning_rate": 0.00025,
      "loss": 0.1877,
      "step": 16995
    },
    {
      "epoch": 17.325178389398573,
      "grad_norm": 0.06219206005334854,
      "learning_rate": 0.00025,
      "loss": 0.1597,
      "step": 16996
    },
    {
      "epoch": 17.326197757390418,
      "grad_norm": 0.1171850636601448,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 16997
    },
    {
      "epoch": 17.327217125382262,
      "grad_norm": 0.043976910412311554,
      "learning_rate": 0.00025,
      "loss": 0.1763,
      "step": 16998
    },
    {
      "epoch": 17.328236493374106,
      "grad_norm": 0.07408161461353302,
      "learning_rate": 0.00025,
      "loss": 0.172,
      "step": 16999
    },
    {
      "epoch": 17.329255861365954,
      "grad_norm": 0.03254355117678642,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 17000
    },
    {
      "epoch": 17.3302752293578,
      "grad_norm": 0.021397633478045464,
      "learning_rate": 0.00025,
      "loss": 0.1517,
      "step": 17001
    },
    {
      "epoch": 17.331294597349643,
      "grad_norm": 0.056795552372932434,
      "learning_rate": 0.00025,
      "loss": 0.1759,
      "step": 17002
    },
    {
      "epoch": 17.332313965341488,
      "grad_norm": 0.064792700111866,
      "learning_rate": 0.00025,
      "loss": 0.1683,
      "step": 17003
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.026346299797296524,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 17004
    },
    {
      "epoch": 17.33435270132518,
      "grad_norm": 0.023234989494085312,
      "learning_rate": 0.00025,
      "loss": 0.1455,
      "step": 17005
    },
    {
      "epoch": 17.335372069317025,
      "grad_norm": 0.04744701832532883,
      "learning_rate": 0.00025,
      "loss": 0.1589,
      "step": 17006
    },
    {
      "epoch": 17.33639143730887,
      "grad_norm": 0.03226358816027641,
      "learning_rate": 0.00025,
      "loss": 0.1576,
      "step": 17007
    },
    {
      "epoch": 17.337410805300713,
      "grad_norm": 0.03561324626207352,
      "learning_rate": 0.00025,
      "loss": 0.1718,
      "step": 17008
    },
    {
      "epoch": 17.338430173292558,
      "grad_norm": 0.09059055894613266,
      "learning_rate": 0.00025,
      "loss": 0.1708,
      "step": 17009
    },
    {
      "epoch": 17.339449541284402,
      "grad_norm": 0.04903729259967804,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17010
    },
    {
      "epoch": 17.34046890927625,
      "grad_norm": 0.06416817754507065,
      "learning_rate": 0.00025,
      "loss": 0.1807,
      "step": 17011
    },
    {
      "epoch": 17.341488277268095,
      "grad_norm": 0.05853015184402466,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17012
    },
    {
      "epoch": 17.34250764525994,
      "grad_norm": 0.04082340747117996,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 17013
    },
    {
      "epoch": 17.343527013251784,
      "grad_norm": 0.03356539085507393,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 17014
    },
    {
      "epoch": 17.344546381243628,
      "grad_norm": 0.037847697734832764,
      "learning_rate": 0.00025,
      "loss": 0.1747,
      "step": 17015
    },
    {
      "epoch": 17.345565749235472,
      "grad_norm": 0.08190616965293884,
      "learning_rate": 0.00025,
      "loss": 0.1678,
      "step": 17016
    },
    {
      "epoch": 17.34658511722732,
      "grad_norm": 0.020387861877679825,
      "learning_rate": 0.00025,
      "loss": 0.1442,
      "step": 17017
    },
    {
      "epoch": 17.347604485219165,
      "grad_norm": 0.021239230409264565,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 17018
    },
    {
      "epoch": 17.34862385321101,
      "grad_norm": 0.06763491034507751,
      "learning_rate": 0.00025,
      "loss": 0.1744,
      "step": 17019
    },
    {
      "epoch": 17.349643221202854,
      "grad_norm": 0.027944153174757957,
      "learning_rate": 0.00025,
      "loss": 0.1636,
      "step": 17020
    },
    {
      "epoch": 17.350662589194698,
      "grad_norm": 0.042315758764743805,
      "learning_rate": 0.00025,
      "loss": 0.1752,
      "step": 17021
    },
    {
      "epoch": 17.351681957186543,
      "grad_norm": 0.02349439635872841,
      "learning_rate": 0.00025,
      "loss": 0.1533,
      "step": 17022
    },
    {
      "epoch": 17.35270132517839,
      "grad_norm": 0.0510789155960083,
      "learning_rate": 0.00025,
      "loss": 0.1676,
      "step": 17023
    },
    {
      "epoch": 17.353720693170235,
      "grad_norm": 0.03495681285858154,
      "learning_rate": 0.00025,
      "loss": 0.1705,
      "step": 17024
    },
    {
      "epoch": 17.35474006116208,
      "grad_norm": 0.09514269232749939,
      "learning_rate": 0.00025,
      "loss": 0.1823,
      "step": 17025
    },
    {
      "epoch": 17.355759429153924,
      "grad_norm": 0.039497874677181244,
      "learning_rate": 0.00025,
      "loss": 0.1548,
      "step": 17026
    },
    {
      "epoch": 17.35677879714577,
      "grad_norm": 0.021602677181363106,
      "learning_rate": 0.00025,
      "loss": 0.1755,
      "step": 17027
    },
    {
      "epoch": 17.357798165137616,
      "grad_norm": 0.02600545808672905,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 17028
    },
    {
      "epoch": 17.35881753312946,
      "grad_norm": 0.03136083111166954,
      "learning_rate": 0.00025,
      "loss": 0.1572,
      "step": 17029
    },
    {
      "epoch": 17.359836901121305,
      "grad_norm": 0.0702219009399414,
      "learning_rate": 0.00025,
      "loss": 0.1609,
      "step": 17030
    },
    {
      "epoch": 17.36085626911315,
      "grad_norm": 0.03617672994732857,
      "learning_rate": 0.00025,
      "loss": 0.1761,
      "step": 17031
    },
    {
      "epoch": 17.361875637104994,
      "grad_norm": 0.04841502383351326,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 17032
    },
    {
      "epoch": 17.36289500509684,
      "grad_norm": 0.07626565545797348,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 17033
    },
    {
      "epoch": 17.363914373088686,
      "grad_norm": 0.08627108484506607,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 17034
    },
    {
      "epoch": 17.36493374108053,
      "grad_norm": 0.0313059501349926,
      "learning_rate": 0.00025,
      "loss": 0.1627,
      "step": 17035
    },
    {
      "epoch": 17.365953109072375,
      "grad_norm": 0.037202488631010056,
      "learning_rate": 0.00025,
      "loss": 0.1528,
      "step": 17036
    },
    {
      "epoch": 17.36697247706422,
      "grad_norm": 0.031265731900930405,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17037
    },
    {
      "epoch": 17.367991845056064,
      "grad_norm": 0.0371885783970356,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17038
    },
    {
      "epoch": 17.36901121304791,
      "grad_norm": 0.044106319546699524,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 17039
    },
    {
      "epoch": 17.370030581039757,
      "grad_norm": 0.09233016520738602,
      "learning_rate": 0.00025,
      "loss": 0.1582,
      "step": 17040
    },
    {
      "epoch": 17.3710499490316,
      "grad_norm": 0.10106050968170166,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17041
    },
    {
      "epoch": 17.372069317023445,
      "grad_norm": 0.02011588029563427,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17042
    },
    {
      "epoch": 17.37308868501529,
      "grad_norm": 0.041180700063705444,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 17043
    },
    {
      "epoch": 17.374108053007134,
      "grad_norm": 0.09024950116872787,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 17044
    },
    {
      "epoch": 17.375127420998982,
      "grad_norm": 0.05205508694052696,
      "learning_rate": 0.00025,
      "loss": 0.1666,
      "step": 17045
    },
    {
      "epoch": 17.376146788990827,
      "grad_norm": 0.032851822674274445,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 17046
    },
    {
      "epoch": 17.37716615698267,
      "grad_norm": 0.02956034429371357,
      "learning_rate": 0.00025,
      "loss": 0.1729,
      "step": 17047
    },
    {
      "epoch": 17.378185524974516,
      "grad_norm": 0.053121067583560944,
      "learning_rate": 0.00025,
      "loss": 0.1849,
      "step": 17048
    },
    {
      "epoch": 17.37920489296636,
      "grad_norm": 0.03777926787734032,
      "learning_rate": 0.00025,
      "loss": 0.1619,
      "step": 17049
    },
    {
      "epoch": 17.380224260958204,
      "grad_norm": 0.01939004473388195,
      "learning_rate": 0.00025,
      "loss": 0.1658,
      "step": 17050
    },
    {
      "epoch": 17.381243628950052,
      "grad_norm": 0.08390367031097412,
      "learning_rate": 0.00025,
      "loss": 0.177,
      "step": 17051
    },
    {
      "epoch": 17.382262996941897,
      "grad_norm": 0.08554891496896744,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 17052
    },
    {
      "epoch": 17.38328236493374,
      "grad_norm": 0.11609314382076263,
      "learning_rate": 0.00025,
      "loss": 0.1659,
      "step": 17053
    },
    {
      "epoch": 17.384301732925586,
      "grad_norm": 0.05591509863734245,
      "learning_rate": 0.00025,
      "loss": 0.1708,
      "step": 17054
    },
    {
      "epoch": 17.38532110091743,
      "grad_norm": 0.02098776400089264,
      "learning_rate": 0.00025,
      "loss": 0.1641,
      "step": 17055
    },
    {
      "epoch": 17.386340468909275,
      "grad_norm": 0.036928895860910416,
      "learning_rate": 0.00025,
      "loss": 0.1896,
      "step": 17056
    },
    {
      "epoch": 17.387359836901123,
      "grad_norm": 0.08132225275039673,
      "learning_rate": 0.00025,
      "loss": 0.1833,
      "step": 17057
    },
    {
      "epoch": 17.388379204892967,
      "grad_norm": 0.01653973199427128,
      "learning_rate": 0.00025,
      "loss": 0.157,
      "step": 17058
    },
    {
      "epoch": 17.38939857288481,
      "grad_norm": 0.027873661369085312,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 17059
    },
    {
      "epoch": 17.390417940876656,
      "grad_norm": 0.048829998821020126,
      "learning_rate": 0.00025,
      "loss": 0.1781,
      "step": 17060
    },
    {
      "epoch": 17.3914373088685,
      "grad_norm": 0.0214662104845047,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 17061
    },
    {
      "epoch": 17.39245667686035,
      "grad_norm": 0.056699637323617935,
      "learning_rate": 0.00025,
      "loss": 0.1945,
      "step": 17062
    },
    {
      "epoch": 17.393476044852193,
      "grad_norm": 0.02122686244547367,
      "learning_rate": 0.00025,
      "loss": 0.1704,
      "step": 17063
    },
    {
      "epoch": 17.394495412844037,
      "grad_norm": 0.03260808810591698,
      "learning_rate": 0.00025,
      "loss": 0.1735,
      "step": 17064
    },
    {
      "epoch": 17.39551478083588,
      "grad_norm": 0.02789434790611267,
      "learning_rate": 0.00025,
      "loss": 0.1863,
      "step": 17065
    },
    {
      "epoch": 17.396534148827726,
      "grad_norm": 0.07312540709972382,
      "learning_rate": 0.00025,
      "loss": 0.1676,
      "step": 17066
    },
    {
      "epoch": 17.39755351681957,
      "grad_norm": 0.03447989374399185,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 17067
    },
    {
      "epoch": 17.39857288481142,
      "grad_norm": 0.1029101312160492,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17068
    },
    {
      "epoch": 17.399592252803263,
      "grad_norm": 0.07152418047189713,
      "learning_rate": 0.00025,
      "loss": 0.1648,
      "step": 17069
    },
    {
      "epoch": 17.400611620795107,
      "grad_norm": 0.014850238338112831,
      "learning_rate": 0.00025,
      "loss": 0.1456,
      "step": 17070
    },
    {
      "epoch": 17.401630988786952,
      "grad_norm": 0.03567095845937729,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17071
    },
    {
      "epoch": 17.402650356778796,
      "grad_norm": 0.07160583138465881,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 17072
    },
    {
      "epoch": 17.40366972477064,
      "grad_norm": 0.07658177614212036,
      "learning_rate": 0.00025,
      "loss": 0.168,
      "step": 17073
    },
    {
      "epoch": 17.40468909276249,
      "grad_norm": 0.0416501946747303,
      "learning_rate": 0.00025,
      "loss": 0.1575,
      "step": 17074
    },
    {
      "epoch": 17.405708460754333,
      "grad_norm": 0.03292364254593849,
      "learning_rate": 0.00025,
      "loss": 0.1582,
      "step": 17075
    },
    {
      "epoch": 17.406727828746178,
      "grad_norm": 0.06061125546693802,
      "learning_rate": 0.00025,
      "loss": 0.1765,
      "step": 17076
    },
    {
      "epoch": 17.407747196738022,
      "grad_norm": 0.05965622514486313,
      "learning_rate": 0.00025,
      "loss": 0.1575,
      "step": 17077
    },
    {
      "epoch": 17.408766564729866,
      "grad_norm": 0.0865350291132927,
      "learning_rate": 0.00025,
      "loss": 0.1655,
      "step": 17078
    },
    {
      "epoch": 17.40978593272171,
      "grad_norm": 0.014259838499128819,
      "learning_rate": 0.00025,
      "loss": 0.1545,
      "step": 17079
    },
    {
      "epoch": 17.41080530071356,
      "grad_norm": 0.09036556631326675,
      "learning_rate": 0.00025,
      "loss": 0.1554,
      "step": 17080
    },
    {
      "epoch": 17.411824668705403,
      "grad_norm": 0.03629814833402634,
      "learning_rate": 0.00025,
      "loss": 0.1659,
      "step": 17081
    },
    {
      "epoch": 17.412844036697248,
      "grad_norm": 0.10560256987810135,
      "learning_rate": 0.00025,
      "loss": 0.2019,
      "step": 17082
    },
    {
      "epoch": 17.413863404689092,
      "grad_norm": 0.033280495554208755,
      "learning_rate": 0.00025,
      "loss": 0.1515,
      "step": 17083
    },
    {
      "epoch": 17.414882772680937,
      "grad_norm": 0.07176266610622406,
      "learning_rate": 0.00025,
      "loss": 0.1758,
      "step": 17084
    },
    {
      "epoch": 17.415902140672785,
      "grad_norm": 0.027449646964669228,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17085
    },
    {
      "epoch": 17.41692150866463,
      "grad_norm": 0.11169613897800446,
      "learning_rate": 0.00025,
      "loss": 0.1644,
      "step": 17086
    },
    {
      "epoch": 17.417940876656473,
      "grad_norm": 0.04279566556215286,
      "learning_rate": 0.00025,
      "loss": 0.1674,
      "step": 17087
    },
    {
      "epoch": 17.418960244648318,
      "grad_norm": 0.04041951894760132,
      "learning_rate": 0.00025,
      "loss": 0.1788,
      "step": 17088
    },
    {
      "epoch": 17.419979612640162,
      "grad_norm": 0.03780047968029976,
      "learning_rate": 0.00025,
      "loss": 0.1935,
      "step": 17089
    },
    {
      "epoch": 17.420998980632007,
      "grad_norm": 0.03687097877264023,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 17090
    },
    {
      "epoch": 17.422018348623855,
      "grad_norm": 0.022192493081092834,
      "learning_rate": 0.00025,
      "loss": 0.1771,
      "step": 17091
    },
    {
      "epoch": 17.4230377166157,
      "grad_norm": 0.07400377094745636,
      "learning_rate": 0.00025,
      "loss": 0.1814,
      "step": 17092
    },
    {
      "epoch": 17.424057084607544,
      "grad_norm": 0.06506481021642685,
      "learning_rate": 0.00025,
      "loss": 0.1752,
      "step": 17093
    },
    {
      "epoch": 17.425076452599388,
      "grad_norm": 0.07171376049518585,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 17094
    },
    {
      "epoch": 17.426095820591232,
      "grad_norm": 0.026254532858729362,
      "learning_rate": 0.00025,
      "loss": 0.1625,
      "step": 17095
    },
    {
      "epoch": 17.427115188583077,
      "grad_norm": 0.027986861765384674,
      "learning_rate": 0.00025,
      "loss": 0.1777,
      "step": 17096
    },
    {
      "epoch": 17.428134556574925,
      "grad_norm": 0.024624325335025787,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17097
    },
    {
      "epoch": 17.42915392456677,
      "grad_norm": 0.06132659316062927,
      "learning_rate": 0.00025,
      "loss": 0.1859,
      "step": 17098
    },
    {
      "epoch": 17.430173292558614,
      "grad_norm": 0.03413095697760582,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 17099
    },
    {
      "epoch": 17.431192660550458,
      "grad_norm": 0.03292191028594971,
      "learning_rate": 0.00025,
      "loss": 0.1532,
      "step": 17100
    },
    {
      "epoch": 17.432212028542303,
      "grad_norm": 0.03528749197721481,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 17101
    },
    {
      "epoch": 17.43323139653415,
      "grad_norm": 0.05595914274454117,
      "learning_rate": 0.00025,
      "loss": 0.1628,
      "step": 17102
    },
    {
      "epoch": 17.434250764525995,
      "grad_norm": 0.02830950915813446,
      "learning_rate": 0.00025,
      "loss": 0.1548,
      "step": 17103
    },
    {
      "epoch": 17.43527013251784,
      "grad_norm": 0.025478554889559746,
      "learning_rate": 0.00025,
      "loss": 0.1646,
      "step": 17104
    },
    {
      "epoch": 17.436289500509684,
      "grad_norm": 0.035937294363975525,
      "learning_rate": 0.00025,
      "loss": 0.179,
      "step": 17105
    },
    {
      "epoch": 17.43730886850153,
      "grad_norm": 0.024616548791527748,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 17106
    },
    {
      "epoch": 17.438328236493373,
      "grad_norm": 0.06560228765010834,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 17107
    },
    {
      "epoch": 17.43934760448522,
      "grad_norm": 0.03352959081530571,
      "learning_rate": 0.00025,
      "loss": 0.1552,
      "step": 17108
    },
    {
      "epoch": 17.440366972477065,
      "grad_norm": 0.12577559053897858,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17109
    },
    {
      "epoch": 17.44138634046891,
      "grad_norm": 0.01606864109635353,
      "learning_rate": 0.00025,
      "loss": 0.1687,
      "step": 17110
    },
    {
      "epoch": 17.442405708460754,
      "grad_norm": 0.039356060326099396,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17111
    },
    {
      "epoch": 17.4434250764526,
      "grad_norm": 0.05464940518140793,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 17112
    },
    {
      "epoch": 17.444444444444443,
      "grad_norm": 0.019560618326067924,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 17113
    },
    {
      "epoch": 17.44546381243629,
      "grad_norm": 0.05417434126138687,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 17114
    },
    {
      "epoch": 17.446483180428135,
      "grad_norm": 0.022522926330566406,
      "learning_rate": 0.00025,
      "loss": 0.1779,
      "step": 17115
    },
    {
      "epoch": 17.44750254841998,
      "grad_norm": 0.03857029974460602,
      "learning_rate": 0.00025,
      "loss": 0.1816,
      "step": 17116
    },
    {
      "epoch": 17.448521916411824,
      "grad_norm": 0.019476352259516716,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 17117
    },
    {
      "epoch": 17.44954128440367,
      "grad_norm": 0.03326279670000076,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17118
    },
    {
      "epoch": 17.450560652395517,
      "grad_norm": 0.026692058891057968,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 17119
    },
    {
      "epoch": 17.45158002038736,
      "grad_norm": 0.039671726524829865,
      "learning_rate": 0.00025,
      "loss": 0.1761,
      "step": 17120
    },
    {
      "epoch": 17.452599388379205,
      "grad_norm": 0.06703998148441315,
      "learning_rate": 0.00025,
      "loss": 0.1632,
      "step": 17121
    },
    {
      "epoch": 17.45361875637105,
      "grad_norm": 0.11861192435026169,
      "learning_rate": 0.00025,
      "loss": 0.1848,
      "step": 17122
    },
    {
      "epoch": 17.454638124362894,
      "grad_norm": 0.015982214361429214,
      "learning_rate": 0.00025,
      "loss": 0.1559,
      "step": 17123
    },
    {
      "epoch": 17.45565749235474,
      "grad_norm": 0.056898266077041626,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 17124
    },
    {
      "epoch": 17.456676860346587,
      "grad_norm": 0.03578769415616989,
      "learning_rate": 0.00025,
      "loss": 0.1714,
      "step": 17125
    },
    {
      "epoch": 17.45769622833843,
      "grad_norm": 0.025747863575816154,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17126
    },
    {
      "epoch": 17.458715596330276,
      "grad_norm": 0.03377259150147438,
      "learning_rate": 0.00025,
      "loss": 0.158,
      "step": 17127
    },
    {
      "epoch": 17.45973496432212,
      "grad_norm": 0.02904145047068596,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 17128
    },
    {
      "epoch": 17.460754332313964,
      "grad_norm": 0.021186837926506996,
      "learning_rate": 0.00025,
      "loss": 0.1522,
      "step": 17129
    },
    {
      "epoch": 17.46177370030581,
      "grad_norm": 0.026480061933398247,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 17130
    },
    {
      "epoch": 17.462793068297657,
      "grad_norm": 0.060962241142988205,
      "learning_rate": 0.00025,
      "loss": 0.1577,
      "step": 17131
    },
    {
      "epoch": 17.4638124362895,
      "grad_norm": 0.0706334188580513,
      "learning_rate": 0.00025,
      "loss": 0.1729,
      "step": 17132
    },
    {
      "epoch": 17.464831804281346,
      "grad_norm": 0.0630764290690422,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17133
    },
    {
      "epoch": 17.46585117227319,
      "grad_norm": 0.04520512372255325,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 17134
    },
    {
      "epoch": 17.466870540265035,
      "grad_norm": 0.043132975697517395,
      "learning_rate": 0.00025,
      "loss": 0.1715,
      "step": 17135
    },
    {
      "epoch": 17.46788990825688,
      "grad_norm": 0.05557737499475479,
      "learning_rate": 0.00025,
      "loss": 0.1583,
      "step": 17136
    },
    {
      "epoch": 17.468909276248727,
      "grad_norm": 0.0521099828183651,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17137
    },
    {
      "epoch": 17.46992864424057,
      "grad_norm": 0.08857279270887375,
      "learning_rate": 0.00025,
      "loss": 0.1691,
      "step": 17138
    },
    {
      "epoch": 17.470948012232416,
      "grad_norm": 0.1342206746339798,
      "learning_rate": 0.00025,
      "loss": 0.1841,
      "step": 17139
    },
    {
      "epoch": 17.47196738022426,
      "grad_norm": 0.053190626204013824,
      "learning_rate": 0.00025,
      "loss": 0.1548,
      "step": 17140
    },
    {
      "epoch": 17.472986748216105,
      "grad_norm": 0.035899460315704346,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 17141
    },
    {
      "epoch": 17.474006116207953,
      "grad_norm": 0.060523226857185364,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 17142
    },
    {
      "epoch": 17.475025484199797,
      "grad_norm": 0.019811274483799934,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 17143
    },
    {
      "epoch": 17.47604485219164,
      "grad_norm": 0.031237730756402016,
      "learning_rate": 0.00025,
      "loss": 0.1732,
      "step": 17144
    },
    {
      "epoch": 17.477064220183486,
      "grad_norm": 0.10456275939941406,
      "learning_rate": 0.00025,
      "loss": 0.1808,
      "step": 17145
    },
    {
      "epoch": 17.47808358817533,
      "grad_norm": 0.03669017180800438,
      "learning_rate": 0.00025,
      "loss": 0.1781,
      "step": 17146
    },
    {
      "epoch": 17.479102956167175,
      "grad_norm": 0.035433415323495865,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17147
    },
    {
      "epoch": 17.480122324159023,
      "grad_norm": 0.0767367035150528,
      "learning_rate": 0.00025,
      "loss": 0.1782,
      "step": 17148
    },
    {
      "epoch": 17.481141692150867,
      "grad_norm": 0.05428182706236839,
      "learning_rate": 0.00025,
      "loss": 0.1632,
      "step": 17149
    },
    {
      "epoch": 17.48216106014271,
      "grad_norm": 0.025634219869971275,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 17150
    },
    {
      "epoch": 17.483180428134556,
      "grad_norm": 0.10445430874824524,
      "learning_rate": 0.00025,
      "loss": 0.1799,
      "step": 17151
    },
    {
      "epoch": 17.4841997961264,
      "grad_norm": 0.056635379791259766,
      "learning_rate": 0.00025,
      "loss": 0.1761,
      "step": 17152
    },
    {
      "epoch": 17.485219164118245,
      "grad_norm": 0.05070660635828972,
      "learning_rate": 0.00025,
      "loss": 0.1804,
      "step": 17153
    },
    {
      "epoch": 17.486238532110093,
      "grad_norm": 0.11899542063474655,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17154
    },
    {
      "epoch": 17.487257900101937,
      "grad_norm": 0.04172557219862938,
      "learning_rate": 0.00025,
      "loss": 0.167,
      "step": 17155
    },
    {
      "epoch": 17.488277268093782,
      "grad_norm": 0.027593662962317467,
      "learning_rate": 0.00025,
      "loss": 0.1774,
      "step": 17156
    },
    {
      "epoch": 17.489296636085626,
      "grad_norm": 0.028694622218608856,
      "learning_rate": 0.00025,
      "loss": 0.1683,
      "step": 17157
    },
    {
      "epoch": 17.49031600407747,
      "grad_norm": 0.02483723685145378,
      "learning_rate": 0.00025,
      "loss": 0.1797,
      "step": 17158
    },
    {
      "epoch": 17.49133537206932,
      "grad_norm": 0.019226906821131706,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 17159
    },
    {
      "epoch": 17.492354740061163,
      "grad_norm": 0.046520620584487915,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17160
    },
    {
      "epoch": 17.493374108053008,
      "grad_norm": 0.04975021257996559,
      "learning_rate": 0.00025,
      "loss": 0.1606,
      "step": 17161
    },
    {
      "epoch": 17.494393476044852,
      "grad_norm": 0.07322122901678085,
      "learning_rate": 0.00025,
      "loss": 0.1659,
      "step": 17162
    },
    {
      "epoch": 17.495412844036696,
      "grad_norm": 0.04634498059749603,
      "learning_rate": 0.00025,
      "loss": 0.1497,
      "step": 17163
    },
    {
      "epoch": 17.49643221202854,
      "grad_norm": 0.016486678272485733,
      "learning_rate": 0.00025,
      "loss": 0.1483,
      "step": 17164
    },
    {
      "epoch": 17.49745158002039,
      "grad_norm": 0.04335283860564232,
      "learning_rate": 0.00025,
      "loss": 0.1646,
      "step": 17165
    },
    {
      "epoch": 17.498470948012233,
      "grad_norm": 0.13778865337371826,
      "learning_rate": 0.00025,
      "loss": 0.1914,
      "step": 17166
    },
    {
      "epoch": 17.499490316004078,
      "grad_norm": 0.035094521939754486,
      "learning_rate": 0.00025,
      "loss": 0.1678,
      "step": 17167
    },
    {
      "epoch": 17.500509683995922,
      "grad_norm": 0.04678758233785629,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 17168
    },
    {
      "epoch": 17.501529051987767,
      "grad_norm": 0.053041912615299225,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17169
    },
    {
      "epoch": 17.50254841997961,
      "grad_norm": 0.12140222638845444,
      "learning_rate": 0.00025,
      "loss": 0.1816,
      "step": 17170
    },
    {
      "epoch": 17.50356778797146,
      "grad_norm": 0.036002498120069504,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 17171
    },
    {
      "epoch": 17.504587155963304,
      "grad_norm": 0.02644330821931362,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17172
    },
    {
      "epoch": 17.505606523955148,
      "grad_norm": 0.08213265985250473,
      "learning_rate": 0.00025,
      "loss": 0.1858,
      "step": 17173
    },
    {
      "epoch": 17.506625891946992,
      "grad_norm": 0.025865821167826653,
      "learning_rate": 0.00025,
      "loss": 0.1542,
      "step": 17174
    },
    {
      "epoch": 17.507645259938837,
      "grad_norm": 0.023024912923574448,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17175
    },
    {
      "epoch": 17.508664627930685,
      "grad_norm": 0.027897806838154793,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17176
    },
    {
      "epoch": 17.50968399592253,
      "grad_norm": 0.030299540609121323,
      "learning_rate": 0.00025,
      "loss": 0.1589,
      "step": 17177
    },
    {
      "epoch": 17.510703363914374,
      "grad_norm": 0.030091270804405212,
      "learning_rate": 0.00025,
      "loss": 0.1671,
      "step": 17178
    },
    {
      "epoch": 17.511722731906218,
      "grad_norm": 0.026308447122573853,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 17179
    },
    {
      "epoch": 17.512742099898063,
      "grad_norm": 0.045651625841856,
      "learning_rate": 0.00025,
      "loss": 0.1715,
      "step": 17180
    },
    {
      "epoch": 17.513761467889907,
      "grad_norm": 0.02520093321800232,
      "learning_rate": 0.00025,
      "loss": 0.171,
      "step": 17181
    },
    {
      "epoch": 17.514780835881755,
      "grad_norm": 0.06670844554901123,
      "learning_rate": 0.00025,
      "loss": 0.178,
      "step": 17182
    },
    {
      "epoch": 17.5158002038736,
      "grad_norm": 0.06719261407852173,
      "learning_rate": 0.00025,
      "loss": 0.1553,
      "step": 17183
    },
    {
      "epoch": 17.516819571865444,
      "grad_norm": 0.020308826118707657,
      "learning_rate": 0.00025,
      "loss": 0.1544,
      "step": 17184
    },
    {
      "epoch": 17.51783893985729,
      "grad_norm": 0.02920970320701599,
      "learning_rate": 0.00025,
      "loss": 0.1647,
      "step": 17185
    },
    {
      "epoch": 17.518858307849133,
      "grad_norm": 0.04748779907822609,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 17186
    },
    {
      "epoch": 17.519877675840977,
      "grad_norm": 0.026368705555796623,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 17187
    },
    {
      "epoch": 17.520897043832825,
      "grad_norm": 0.048205457627773285,
      "learning_rate": 0.00025,
      "loss": 0.1671,
      "step": 17188
    },
    {
      "epoch": 17.52191641182467,
      "grad_norm": 0.05869996175169945,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 17189
    },
    {
      "epoch": 17.522935779816514,
      "grad_norm": 0.033219944685697556,
      "learning_rate": 0.00025,
      "loss": 0.1658,
      "step": 17190
    },
    {
      "epoch": 17.52395514780836,
      "grad_norm": 0.04458625614643097,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 17191
    },
    {
      "epoch": 17.524974515800203,
      "grad_norm": 0.038165029138326645,
      "learning_rate": 0.00025,
      "loss": 0.1722,
      "step": 17192
    },
    {
      "epoch": 17.525993883792047,
      "grad_norm": 0.061646923422813416,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17193
    },
    {
      "epoch": 17.527013251783895,
      "grad_norm": 0.11675331741571426,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 17194
    },
    {
      "epoch": 17.52803261977574,
      "grad_norm": 0.052660778164863586,
      "learning_rate": 0.00025,
      "loss": 0.1885,
      "step": 17195
    },
    {
      "epoch": 17.529051987767584,
      "grad_norm": 0.04471375420689583,
      "learning_rate": 0.00025,
      "loss": 0.175,
      "step": 17196
    },
    {
      "epoch": 17.53007135575943,
      "grad_norm": 0.04360225424170494,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 17197
    },
    {
      "epoch": 17.531090723751273,
      "grad_norm": 0.07921329140663147,
      "learning_rate": 0.00025,
      "loss": 0.1653,
      "step": 17198
    },
    {
      "epoch": 17.53211009174312,
      "grad_norm": 0.030592987313866615,
      "learning_rate": 0.00025,
      "loss": 0.1781,
      "step": 17199
    },
    {
      "epoch": 17.533129459734965,
      "grad_norm": 0.0434308685362339,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17200
    },
    {
      "epoch": 17.53414882772681,
      "grad_norm": 0.020488757640123367,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 17201
    },
    {
      "epoch": 17.535168195718654,
      "grad_norm": 0.03201921656727791,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 17202
    },
    {
      "epoch": 17.5361875637105,
      "grad_norm": 0.04607545584440231,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 17203
    },
    {
      "epoch": 17.537206931702343,
      "grad_norm": 0.03253377974033356,
      "learning_rate": 0.00025,
      "loss": 0.15,
      "step": 17204
    },
    {
      "epoch": 17.53822629969419,
      "grad_norm": 0.015426759608089924,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 17205
    },
    {
      "epoch": 17.539245667686036,
      "grad_norm": 0.01657971926033497,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17206
    },
    {
      "epoch": 17.54026503567788,
      "grad_norm": 0.013791893608868122,
      "learning_rate": 0.00025,
      "loss": 0.1539,
      "step": 17207
    },
    {
      "epoch": 17.541284403669724,
      "grad_norm": 0.03997255116701126,
      "learning_rate": 0.00025,
      "loss": 0.1547,
      "step": 17208
    },
    {
      "epoch": 17.54230377166157,
      "grad_norm": 0.08321066200733185,
      "learning_rate": 0.00025,
      "loss": 0.2067,
      "step": 17209
    },
    {
      "epoch": 17.543323139653413,
      "grad_norm": 0.027603862807154655,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 17210
    },
    {
      "epoch": 17.54434250764526,
      "grad_norm": 0.029603715986013412,
      "learning_rate": 0.00025,
      "loss": 0.1591,
      "step": 17211
    },
    {
      "epoch": 17.545361875637106,
      "grad_norm": 0.06614003330469131,
      "learning_rate": 0.00025,
      "loss": 0.1777,
      "step": 17212
    },
    {
      "epoch": 17.54638124362895,
      "grad_norm": 0.0735548809170723,
      "learning_rate": 0.00025,
      "loss": 0.1776,
      "step": 17213
    },
    {
      "epoch": 17.547400611620795,
      "grad_norm": 0.025368334725499153,
      "learning_rate": 0.00025,
      "loss": 0.1686,
      "step": 17214
    },
    {
      "epoch": 17.54841997961264,
      "grad_norm": 0.013412773609161377,
      "learning_rate": 0.00025,
      "loss": 0.1575,
      "step": 17215
    },
    {
      "epoch": 17.549439347604483,
      "grad_norm": 0.020287223160266876,
      "learning_rate": 0.00025,
      "loss": 0.1748,
      "step": 17216
    },
    {
      "epoch": 17.55045871559633,
      "grad_norm": 0.09412208199501038,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17217
    },
    {
      "epoch": 17.551478083588176,
      "grad_norm": 0.03662395477294922,
      "learning_rate": 0.00025,
      "loss": 0.1815,
      "step": 17218
    },
    {
      "epoch": 17.55249745158002,
      "grad_norm": 0.04090476036071777,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17219
    },
    {
      "epoch": 17.553516819571865,
      "grad_norm": 0.02981128916144371,
      "learning_rate": 0.00025,
      "loss": 0.1715,
      "step": 17220
    },
    {
      "epoch": 17.55453618756371,
      "grad_norm": 0.033179476857185364,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 17221
    },
    {
      "epoch": 17.555555555555557,
      "grad_norm": 0.03632583096623421,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 17222
    },
    {
      "epoch": 17.5565749235474,
      "grad_norm": 0.02234126254916191,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 17223
    },
    {
      "epoch": 17.557594291539246,
      "grad_norm": 0.04239143431186676,
      "learning_rate": 0.00025,
      "loss": 0.1815,
      "step": 17224
    },
    {
      "epoch": 17.55861365953109,
      "grad_norm": 0.015444440767168999,
      "learning_rate": 0.00025,
      "loss": 0.1553,
      "step": 17225
    },
    {
      "epoch": 17.559633027522935,
      "grad_norm": 0.04199455678462982,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 17226
    },
    {
      "epoch": 17.56065239551478,
      "grad_norm": 0.05177653953433037,
      "learning_rate": 0.00025,
      "loss": 0.1564,
      "step": 17227
    },
    {
      "epoch": 17.561671763506627,
      "grad_norm": 0.05222450569272041,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 17228
    },
    {
      "epoch": 17.56269113149847,
      "grad_norm": 0.07433212548494339,
      "learning_rate": 0.00025,
      "loss": 0.1858,
      "step": 17229
    },
    {
      "epoch": 17.563710499490316,
      "grad_norm": 0.07362161576747894,
      "learning_rate": 0.00025,
      "loss": 0.1678,
      "step": 17230
    },
    {
      "epoch": 17.56472986748216,
      "grad_norm": 0.022078057751059532,
      "learning_rate": 0.00025,
      "loss": 0.174,
      "step": 17231
    },
    {
      "epoch": 17.565749235474005,
      "grad_norm": 0.016436362639069557,
      "learning_rate": 0.00025,
      "loss": 0.1569,
      "step": 17232
    },
    {
      "epoch": 17.56676860346585,
      "grad_norm": 0.03154647350311279,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 17233
    },
    {
      "epoch": 17.567787971457697,
      "grad_norm": 0.04668787866830826,
      "learning_rate": 0.00025,
      "loss": 0.1932,
      "step": 17234
    },
    {
      "epoch": 17.568807339449542,
      "grad_norm": 0.08520655333995819,
      "learning_rate": 0.00025,
      "loss": 0.1917,
      "step": 17235
    },
    {
      "epoch": 17.569826707441386,
      "grad_norm": 0.06574033200740814,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 17236
    },
    {
      "epoch": 17.57084607543323,
      "grad_norm": 0.08794868737459183,
      "learning_rate": 0.00025,
      "loss": 0.184,
      "step": 17237
    },
    {
      "epoch": 17.571865443425075,
      "grad_norm": 0.06173713132739067,
      "learning_rate": 0.00025,
      "loss": 0.1809,
      "step": 17238
    },
    {
      "epoch": 17.572884811416923,
      "grad_norm": 0.05579346418380737,
      "learning_rate": 0.00025,
      "loss": 0.1656,
      "step": 17239
    },
    {
      "epoch": 17.573904179408768,
      "grad_norm": 0.014585908502340317,
      "learning_rate": 0.00025,
      "loss": 0.1686,
      "step": 17240
    },
    {
      "epoch": 17.574923547400612,
      "grad_norm": 0.03840750828385353,
      "learning_rate": 0.00025,
      "loss": 0.1625,
      "step": 17241
    },
    {
      "epoch": 17.575942915392456,
      "grad_norm": 0.05819452926516533,
      "learning_rate": 0.00025,
      "loss": 0.1678,
      "step": 17242
    },
    {
      "epoch": 17.5769622833843,
      "grad_norm": 0.05305236205458641,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17243
    },
    {
      "epoch": 17.577981651376145,
      "grad_norm": 0.027631349861621857,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 17244
    },
    {
      "epoch": 17.579001019367993,
      "grad_norm": 0.03676833212375641,
      "learning_rate": 0.00025,
      "loss": 0.1863,
      "step": 17245
    },
    {
      "epoch": 17.580020387359838,
      "grad_norm": 0.030890731140971184,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17246
    },
    {
      "epoch": 17.581039755351682,
      "grad_norm": 0.02376994490623474,
      "learning_rate": 0.00025,
      "loss": 0.1794,
      "step": 17247
    },
    {
      "epoch": 17.582059123343527,
      "grad_norm": 0.049362391233444214,
      "learning_rate": 0.00025,
      "loss": 0.191,
      "step": 17248
    },
    {
      "epoch": 17.58307849133537,
      "grad_norm": 0.049730971455574036,
      "learning_rate": 0.00025,
      "loss": 0.1533,
      "step": 17249
    },
    {
      "epoch": 17.584097859327215,
      "grad_norm": 0.018271474167704582,
      "learning_rate": 0.00025,
      "loss": 0.172,
      "step": 17250
    },
    {
      "epoch": 17.585117227319063,
      "grad_norm": 0.05147622153162956,
      "learning_rate": 0.00025,
      "loss": 0.1842,
      "step": 17251
    },
    {
      "epoch": 17.586136595310908,
      "grad_norm": 0.03523761034011841,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 17252
    },
    {
      "epoch": 17.587155963302752,
      "grad_norm": 0.059059690684080124,
      "learning_rate": 0.00025,
      "loss": 0.176,
      "step": 17253
    },
    {
      "epoch": 17.588175331294597,
      "grad_norm": 0.018295126035809517,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17254
    },
    {
      "epoch": 17.58919469928644,
      "grad_norm": 0.033912863582372665,
      "learning_rate": 0.00025,
      "loss": 0.1637,
      "step": 17255
    },
    {
      "epoch": 17.59021406727829,
      "grad_norm": 0.026147140190005302,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 17256
    },
    {
      "epoch": 17.591233435270134,
      "grad_norm": 0.025215622037649155,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 17257
    },
    {
      "epoch": 17.592252803261978,
      "grad_norm": 0.02837139368057251,
      "learning_rate": 0.00025,
      "loss": 0.1718,
      "step": 17258
    },
    {
      "epoch": 17.593272171253822,
      "grad_norm": 0.030413806438446045,
      "learning_rate": 0.00025,
      "loss": 0.1771,
      "step": 17259
    },
    {
      "epoch": 17.594291539245667,
      "grad_norm": 0.018471255898475647,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17260
    },
    {
      "epoch": 17.59531090723751,
      "grad_norm": 0.03792142868041992,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 17261
    },
    {
      "epoch": 17.59633027522936,
      "grad_norm": 0.026440858840942383,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 17262
    },
    {
      "epoch": 17.597349643221204,
      "grad_norm": 0.03743739426136017,
      "learning_rate": 0.00025,
      "loss": 0.1737,
      "step": 17263
    },
    {
      "epoch": 17.598369011213048,
      "grad_norm": 0.01923992857336998,
      "learning_rate": 0.00025,
      "loss": 0.1621,
      "step": 17264
    },
    {
      "epoch": 17.599388379204893,
      "grad_norm": 0.07148157805204391,
      "learning_rate": 0.00025,
      "loss": 0.17,
      "step": 17265
    },
    {
      "epoch": 17.600407747196737,
      "grad_norm": 0.05889572575688362,
      "learning_rate": 0.00025,
      "loss": 0.1698,
      "step": 17266
    },
    {
      "epoch": 17.60142711518858,
      "grad_norm": 0.21038804948329926,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17267
    },
    {
      "epoch": 17.60244648318043,
      "grad_norm": 0.03074231557548046,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17268
    },
    {
      "epoch": 17.603465851172274,
      "grad_norm": 0.026122896000742912,
      "learning_rate": 0.00025,
      "loss": 0.1757,
      "step": 17269
    },
    {
      "epoch": 17.60448521916412,
      "grad_norm": 0.11949487030506134,
      "learning_rate": 0.00025,
      "loss": 0.1665,
      "step": 17270
    },
    {
      "epoch": 17.605504587155963,
      "grad_norm": 0.03540819510817528,
      "learning_rate": 0.00025,
      "loss": 0.1627,
      "step": 17271
    },
    {
      "epoch": 17.606523955147807,
      "grad_norm": 0.07026694715023041,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 17272
    },
    {
      "epoch": 17.60754332313965,
      "grad_norm": 0.03227769210934639,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17273
    },
    {
      "epoch": 17.6085626911315,
      "grad_norm": 0.04102122783660889,
      "learning_rate": 0.00025,
      "loss": 0.1538,
      "step": 17274
    },
    {
      "epoch": 17.609582059123344,
      "grad_norm": 0.01286508608609438,
      "learning_rate": 0.00025,
      "loss": 0.1584,
      "step": 17275
    },
    {
      "epoch": 17.61060142711519,
      "grad_norm": 0.05767572298645973,
      "learning_rate": 0.00025,
      "loss": 0.1737,
      "step": 17276
    },
    {
      "epoch": 17.611620795107033,
      "grad_norm": 0.03935294225811958,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 17277
    },
    {
      "epoch": 17.612640163098877,
      "grad_norm": 0.027024613693356514,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17278
    },
    {
      "epoch": 17.613659531090725,
      "grad_norm": 0.04587993025779724,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17279
    },
    {
      "epoch": 17.61467889908257,
      "grad_norm": 0.049872927367687225,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 17280
    },
    {
      "epoch": 17.615698267074414,
      "grad_norm": 0.027302030473947525,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 17281
    },
    {
      "epoch": 17.61671763506626,
      "grad_norm": 0.02271847240626812,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 17282
    },
    {
      "epoch": 17.617737003058103,
      "grad_norm": 0.030804848298430443,
      "learning_rate": 0.00025,
      "loss": 0.1583,
      "step": 17283
    },
    {
      "epoch": 17.618756371049948,
      "grad_norm": 0.05741226673126221,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 17284
    },
    {
      "epoch": 17.619775739041796,
      "grad_norm": 0.032538626343011856,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 17285
    },
    {
      "epoch": 17.62079510703364,
      "grad_norm": 0.022002290934324265,
      "learning_rate": 0.00025,
      "loss": 0.1569,
      "step": 17286
    },
    {
      "epoch": 17.621814475025484,
      "grad_norm": 0.01742703840136528,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17287
    },
    {
      "epoch": 17.62283384301733,
      "grad_norm": 0.022551653906702995,
      "learning_rate": 0.00025,
      "loss": 0.1598,
      "step": 17288
    },
    {
      "epoch": 17.623853211009173,
      "grad_norm": 0.051167238503694534,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 17289
    },
    {
      "epoch": 17.624872579001018,
      "grad_norm": 0.04876695200800896,
      "learning_rate": 0.00025,
      "loss": 0.1813,
      "step": 17290
    },
    {
      "epoch": 17.625891946992866,
      "grad_norm": 0.05886188521981239,
      "learning_rate": 0.00025,
      "loss": 0.1656,
      "step": 17291
    },
    {
      "epoch": 17.62691131498471,
      "grad_norm": 0.053863272070884705,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17292
    },
    {
      "epoch": 17.627930682976555,
      "grad_norm": 0.017930610105395317,
      "learning_rate": 0.00025,
      "loss": 0.1727,
      "step": 17293
    },
    {
      "epoch": 17.6289500509684,
      "grad_norm": 0.051653698086738586,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 17294
    },
    {
      "epoch": 17.629969418960243,
      "grad_norm": 0.021800974383950233,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 17295
    },
    {
      "epoch": 17.63098878695209,
      "grad_norm": 0.033248066902160645,
      "learning_rate": 0.00025,
      "loss": 0.1875,
      "step": 17296
    },
    {
      "epoch": 17.632008154943936,
      "grad_norm": 0.02172265201807022,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 17297
    },
    {
      "epoch": 17.63302752293578,
      "grad_norm": 0.022044338285923004,
      "learning_rate": 0.00025,
      "loss": 0.1711,
      "step": 17298
    },
    {
      "epoch": 17.634046890927625,
      "grad_norm": 0.023989295586943626,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 17299
    },
    {
      "epoch": 17.63506625891947,
      "grad_norm": 0.022933075204491615,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 17300
    },
    {
      "epoch": 17.636085626911314,
      "grad_norm": 0.13781790435314178,
      "learning_rate": 0.00025,
      "loss": 0.1749,
      "step": 17301
    },
    {
      "epoch": 17.63710499490316,
      "grad_norm": 0.018847869709134102,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 17302
    },
    {
      "epoch": 17.638124362895006,
      "grad_norm": 0.041338298469781876,
      "learning_rate": 0.00025,
      "loss": 0.1733,
      "step": 17303
    },
    {
      "epoch": 17.63914373088685,
      "grad_norm": 0.03692111372947693,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 17304
    },
    {
      "epoch": 17.640163098878695,
      "grad_norm": 0.05305294319987297,
      "learning_rate": 0.00025,
      "loss": 0.1748,
      "step": 17305
    },
    {
      "epoch": 17.64118246687054,
      "grad_norm": 0.03901536017656326,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17306
    },
    {
      "epoch": 17.642201834862384,
      "grad_norm": 0.039590463042259216,
      "learning_rate": 0.00025,
      "loss": 0.1771,
      "step": 17307
    },
    {
      "epoch": 17.64322120285423,
      "grad_norm": 0.11315951496362686,
      "learning_rate": 0.00025,
      "loss": 0.1641,
      "step": 17308
    },
    {
      "epoch": 17.644240570846076,
      "grad_norm": 0.059382688254117966,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 17309
    },
    {
      "epoch": 17.64525993883792,
      "grad_norm": 0.0874188020825386,
      "learning_rate": 0.00025,
      "loss": 0.1814,
      "step": 17310
    },
    {
      "epoch": 17.646279306829765,
      "grad_norm": 0.020830681547522545,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 17311
    },
    {
      "epoch": 17.64729867482161,
      "grad_norm": 0.0303689856082201,
      "learning_rate": 0.00025,
      "loss": 0.1802,
      "step": 17312
    },
    {
      "epoch": 17.648318042813457,
      "grad_norm": 0.05063674971461296,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17313
    },
    {
      "epoch": 17.649337410805302,
      "grad_norm": 0.05430632084608078,
      "learning_rate": 0.00025,
      "loss": 0.162,
      "step": 17314
    },
    {
      "epoch": 17.650356778797146,
      "grad_norm": 0.06444555521011353,
      "learning_rate": 0.00025,
      "loss": 0.1786,
      "step": 17315
    },
    {
      "epoch": 17.65137614678899,
      "grad_norm": 0.04675699770450592,
      "learning_rate": 0.00025,
      "loss": 0.1692,
      "step": 17316
    },
    {
      "epoch": 17.652395514780835,
      "grad_norm": 0.037597332149744034,
      "learning_rate": 0.00025,
      "loss": 0.1567,
      "step": 17317
    },
    {
      "epoch": 17.65341488277268,
      "grad_norm": 0.03381456807255745,
      "learning_rate": 0.00025,
      "loss": 0.1644,
      "step": 17318
    },
    {
      "epoch": 17.654434250764528,
      "grad_norm": 0.019271276891231537,
      "learning_rate": 0.00025,
      "loss": 0.1539,
      "step": 17319
    },
    {
      "epoch": 17.655453618756372,
      "grad_norm": 0.04263237863779068,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17320
    },
    {
      "epoch": 17.656472986748216,
      "grad_norm": 0.02680683508515358,
      "learning_rate": 0.00025,
      "loss": 0.1599,
      "step": 17321
    },
    {
      "epoch": 17.65749235474006,
      "grad_norm": 0.026523834094405174,
      "learning_rate": 0.00025,
      "loss": 0.1666,
      "step": 17322
    },
    {
      "epoch": 17.658511722731905,
      "grad_norm": 0.06835371255874634,
      "learning_rate": 0.00025,
      "loss": 0.1823,
      "step": 17323
    },
    {
      "epoch": 17.65953109072375,
      "grad_norm": 0.07144764810800552,
      "learning_rate": 0.00025,
      "loss": 0.1641,
      "step": 17324
    },
    {
      "epoch": 17.660550458715598,
      "grad_norm": 0.055324919521808624,
      "learning_rate": 0.00025,
      "loss": 0.157,
      "step": 17325
    },
    {
      "epoch": 17.661569826707442,
      "grad_norm": 0.0758570209145546,
      "learning_rate": 0.00025,
      "loss": 0.1681,
      "step": 17326
    },
    {
      "epoch": 17.662589194699287,
      "grad_norm": 0.056166406720876694,
      "learning_rate": 0.00025,
      "loss": 0.1827,
      "step": 17327
    },
    {
      "epoch": 17.66360856269113,
      "grad_norm": 0.016051314771175385,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 17328
    },
    {
      "epoch": 17.664627930682975,
      "grad_norm": 0.1575898677110672,
      "learning_rate": 0.00025,
      "loss": 0.174,
      "step": 17329
    },
    {
      "epoch": 17.66564729867482,
      "grad_norm": 0.11298074573278427,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 17330
    },
    {
      "epoch": 17.666666666666668,
      "grad_norm": 0.024242226034402847,
      "learning_rate": 0.00025,
      "loss": 0.1619,
      "step": 17331
    },
    {
      "epoch": 17.667686034658512,
      "grad_norm": 0.03325416147708893,
      "learning_rate": 0.00025,
      "loss": 0.1753,
      "step": 17332
    },
    {
      "epoch": 17.668705402650357,
      "grad_norm": 0.04229457303881645,
      "learning_rate": 0.00025,
      "loss": 0.1658,
      "step": 17333
    },
    {
      "epoch": 17.6697247706422,
      "grad_norm": 0.02628866583108902,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 17334
    },
    {
      "epoch": 17.670744138634046,
      "grad_norm": 0.09519132971763611,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 17335
    },
    {
      "epoch": 17.671763506625894,
      "grad_norm": 0.058496635407209396,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17336
    },
    {
      "epoch": 17.672782874617738,
      "grad_norm": 0.0349961593747139,
      "learning_rate": 0.00025,
      "loss": 0.1733,
      "step": 17337
    },
    {
      "epoch": 17.673802242609582,
      "grad_norm": 0.042814597487449646,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 17338
    },
    {
      "epoch": 17.674821610601427,
      "grad_norm": 0.03203022852540016,
      "learning_rate": 0.00025,
      "loss": 0.1582,
      "step": 17339
    },
    {
      "epoch": 17.67584097859327,
      "grad_norm": 0.06967391073703766,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 17340
    },
    {
      "epoch": 17.676860346585116,
      "grad_norm": 0.01748417131602764,
      "learning_rate": 0.00025,
      "loss": 0.1667,
      "step": 17341
    },
    {
      "epoch": 17.677879714576964,
      "grad_norm": 0.02777634747326374,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 17342
    },
    {
      "epoch": 17.678899082568808,
      "grad_norm": 0.04178459942340851,
      "learning_rate": 0.00025,
      "loss": 0.1802,
      "step": 17343
    },
    {
      "epoch": 17.679918450560653,
      "grad_norm": 0.06101324409246445,
      "learning_rate": 0.00025,
      "loss": 0.1852,
      "step": 17344
    },
    {
      "epoch": 17.680937818552497,
      "grad_norm": 0.05678177624940872,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 17345
    },
    {
      "epoch": 17.68195718654434,
      "grad_norm": 0.06616989523172379,
      "learning_rate": 0.00025,
      "loss": 0.1849,
      "step": 17346
    },
    {
      "epoch": 17.682976554536186,
      "grad_norm": 0.04713929444551468,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 17347
    },
    {
      "epoch": 17.683995922528034,
      "grad_norm": 0.05049413442611694,
      "learning_rate": 0.00025,
      "loss": 0.1714,
      "step": 17348
    },
    {
      "epoch": 17.68501529051988,
      "grad_norm": 0.04728633910417557,
      "learning_rate": 0.00025,
      "loss": 0.1581,
      "step": 17349
    },
    {
      "epoch": 17.686034658511723,
      "grad_norm": 0.08499330282211304,
      "learning_rate": 0.00025,
      "loss": 0.1683,
      "step": 17350
    },
    {
      "epoch": 17.687054026503567,
      "grad_norm": 0.07760602980852127,
      "learning_rate": 0.00025,
      "loss": 0.1639,
      "step": 17351
    },
    {
      "epoch": 17.68807339449541,
      "grad_norm": 0.044765084981918335,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 17352
    },
    {
      "epoch": 17.68909276248726,
      "grad_norm": 0.06787128746509552,
      "learning_rate": 0.00025,
      "loss": 0.1625,
      "step": 17353
    },
    {
      "epoch": 17.690112130479104,
      "grad_norm": 0.02242707647383213,
      "learning_rate": 0.00025,
      "loss": 0.1621,
      "step": 17354
    },
    {
      "epoch": 17.69113149847095,
      "grad_norm": 0.051926929503679276,
      "learning_rate": 0.00025,
      "loss": 0.167,
      "step": 17355
    },
    {
      "epoch": 17.692150866462793,
      "grad_norm": 0.07495766133069992,
      "learning_rate": 0.00025,
      "loss": 0.162,
      "step": 17356
    },
    {
      "epoch": 17.693170234454637,
      "grad_norm": 0.014309647493064404,
      "learning_rate": 0.00025,
      "loss": 0.1617,
      "step": 17357
    },
    {
      "epoch": 17.69418960244648,
      "grad_norm": 0.028935296460986137,
      "learning_rate": 0.00025,
      "loss": 0.1704,
      "step": 17358
    },
    {
      "epoch": 17.69520897043833,
      "grad_norm": 0.07416287064552307,
      "learning_rate": 0.00025,
      "loss": 0.187,
      "step": 17359
    },
    {
      "epoch": 17.696228338430174,
      "grad_norm": 0.025738975033164024,
      "learning_rate": 0.00025,
      "loss": 0.1567,
      "step": 17360
    },
    {
      "epoch": 17.69724770642202,
      "grad_norm": 0.04043511673808098,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 17361
    },
    {
      "epoch": 17.698267074413863,
      "grad_norm": 0.04687320813536644,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 17362
    },
    {
      "epoch": 17.699286442405707,
      "grad_norm": 0.028408417478203773,
      "learning_rate": 0.00025,
      "loss": 0.1591,
      "step": 17363
    },
    {
      "epoch": 17.700305810397552,
      "grad_norm": 0.045697178691625595,
      "learning_rate": 0.00025,
      "loss": 0.1818,
      "step": 17364
    },
    {
      "epoch": 17.7013251783894,
      "grad_norm": 0.018308386206626892,
      "learning_rate": 0.00025,
      "loss": 0.1711,
      "step": 17365
    },
    {
      "epoch": 17.702344546381244,
      "grad_norm": 0.028212780132889748,
      "learning_rate": 0.00025,
      "loss": 0.1586,
      "step": 17366
    },
    {
      "epoch": 17.70336391437309,
      "grad_norm": 0.0590767078101635,
      "learning_rate": 0.00025,
      "loss": 0.1782,
      "step": 17367
    },
    {
      "epoch": 17.704383282364933,
      "grad_norm": 0.020958097651600838,
      "learning_rate": 0.00025,
      "loss": 0.1758,
      "step": 17368
    },
    {
      "epoch": 17.705402650356778,
      "grad_norm": 0.047677524387836456,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 17369
    },
    {
      "epoch": 17.706422018348626,
      "grad_norm": 0.04397774115204811,
      "learning_rate": 0.00025,
      "loss": 0.1785,
      "step": 17370
    },
    {
      "epoch": 17.70744138634047,
      "grad_norm": 0.020452650263905525,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 17371
    },
    {
      "epoch": 17.708460754332314,
      "grad_norm": 0.04465841129422188,
      "learning_rate": 0.00025,
      "loss": 0.1641,
      "step": 17372
    },
    {
      "epoch": 17.70948012232416,
      "grad_norm": 0.03417453169822693,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17373
    },
    {
      "epoch": 17.710499490316003,
      "grad_norm": 0.023149998858571053,
      "learning_rate": 0.00025,
      "loss": 0.1763,
      "step": 17374
    },
    {
      "epoch": 17.711518858307848,
      "grad_norm": 0.05239608883857727,
      "learning_rate": 0.00025,
      "loss": 0.1792,
      "step": 17375
    },
    {
      "epoch": 17.712538226299696,
      "grad_norm": 0.02485656924545765,
      "learning_rate": 0.00025,
      "loss": 0.161,
      "step": 17376
    },
    {
      "epoch": 17.71355759429154,
      "grad_norm": 0.021766463294625282,
      "learning_rate": 0.00025,
      "loss": 0.1586,
      "step": 17377
    },
    {
      "epoch": 17.714576962283385,
      "grad_norm": 0.06623788177967072,
      "learning_rate": 0.00025,
      "loss": 0.1699,
      "step": 17378
    },
    {
      "epoch": 17.71559633027523,
      "grad_norm": 0.046007219702005386,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 17379
    },
    {
      "epoch": 17.716615698267073,
      "grad_norm": 0.028303567320108414,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17380
    },
    {
      "epoch": 17.717635066258918,
      "grad_norm": 0.05247724801301956,
      "learning_rate": 0.00025,
      "loss": 0.1764,
      "step": 17381
    },
    {
      "epoch": 17.718654434250766,
      "grad_norm": 0.10736247152090073,
      "learning_rate": 0.00025,
      "loss": 0.1699,
      "step": 17382
    },
    {
      "epoch": 17.71967380224261,
      "grad_norm": 0.04511136934161186,
      "learning_rate": 0.00025,
      "loss": 0.1842,
      "step": 17383
    },
    {
      "epoch": 17.720693170234455,
      "grad_norm": 0.04162020981311798,
      "learning_rate": 0.00025,
      "loss": 0.1497,
      "step": 17384
    },
    {
      "epoch": 17.7217125382263,
      "grad_norm": 0.10598650574684143,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 17385
    },
    {
      "epoch": 17.722731906218144,
      "grad_norm": 0.04802941903471947,
      "learning_rate": 0.00025,
      "loss": 0.1703,
      "step": 17386
    },
    {
      "epoch": 17.723751274209988,
      "grad_norm": 0.04191339761018753,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 17387
    },
    {
      "epoch": 17.724770642201836,
      "grad_norm": 0.036720745265483856,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17388
    },
    {
      "epoch": 17.72579001019368,
      "grad_norm": 0.07169055938720703,
      "learning_rate": 0.00025,
      "loss": 0.1708,
      "step": 17389
    },
    {
      "epoch": 17.726809378185525,
      "grad_norm": 0.029383471235632896,
      "learning_rate": 0.00025,
      "loss": 0.1573,
      "step": 17390
    },
    {
      "epoch": 17.72782874617737,
      "grad_norm": 0.0281507708132267,
      "learning_rate": 0.00025,
      "loss": 0.1588,
      "step": 17391
    },
    {
      "epoch": 17.728848114169214,
      "grad_norm": 0.02759237214922905,
      "learning_rate": 0.00025,
      "loss": 0.1805,
      "step": 17392
    },
    {
      "epoch": 17.729867482161062,
      "grad_norm": 0.024566909298300743,
      "learning_rate": 0.00025,
      "loss": 0.1764,
      "step": 17393
    },
    {
      "epoch": 17.730886850152906,
      "grad_norm": 0.08142406493425369,
      "learning_rate": 0.00025,
      "loss": 0.1631,
      "step": 17394
    },
    {
      "epoch": 17.73190621814475,
      "grad_norm": 0.0750662237405777,
      "learning_rate": 0.00025,
      "loss": 0.173,
      "step": 17395
    },
    {
      "epoch": 17.732925586136595,
      "grad_norm": 0.07784167677164078,
      "learning_rate": 0.00025,
      "loss": 0.1747,
      "step": 17396
    },
    {
      "epoch": 17.73394495412844,
      "grad_norm": 0.02395324967801571,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 17397
    },
    {
      "epoch": 17.734964322120284,
      "grad_norm": 0.032700181007385254,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 17398
    },
    {
      "epoch": 17.735983690112132,
      "grad_norm": 0.10567523539066315,
      "learning_rate": 0.00025,
      "loss": 0.1743,
      "step": 17399
    },
    {
      "epoch": 17.737003058103976,
      "grad_norm": 0.01919054053723812,
      "learning_rate": 0.00025,
      "loss": 0.1702,
      "step": 17400
    },
    {
      "epoch": 17.73802242609582,
      "grad_norm": 0.03542753681540489,
      "learning_rate": 0.00025,
      "loss": 0.1583,
      "step": 17401
    },
    {
      "epoch": 17.739041794087665,
      "grad_norm": 0.03487347811460495,
      "learning_rate": 0.00025,
      "loss": 0.1713,
      "step": 17402
    },
    {
      "epoch": 17.74006116207951,
      "grad_norm": 0.023883191868662834,
      "learning_rate": 0.00025,
      "loss": 0.1649,
      "step": 17403
    },
    {
      "epoch": 17.741080530071354,
      "grad_norm": 0.0651029571890831,
      "learning_rate": 0.00025,
      "loss": 0.1556,
      "step": 17404
    },
    {
      "epoch": 17.742099898063202,
      "grad_norm": 0.05981265380978584,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17405
    },
    {
      "epoch": 17.743119266055047,
      "grad_norm": 0.05694231763482094,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17406
    },
    {
      "epoch": 17.74413863404689,
      "grad_norm": 0.045507363975048065,
      "learning_rate": 0.00025,
      "loss": 0.1534,
      "step": 17407
    },
    {
      "epoch": 17.745158002038735,
      "grad_norm": 0.07399662584066391,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 17408
    },
    {
      "epoch": 17.74617737003058,
      "grad_norm": 0.1189822256565094,
      "learning_rate": 0.00025,
      "loss": 0.1833,
      "step": 17409
    },
    {
      "epoch": 17.747196738022428,
      "grad_norm": 0.013708941638469696,
      "learning_rate": 0.00025,
      "loss": 0.1537,
      "step": 17410
    },
    {
      "epoch": 17.748216106014272,
      "grad_norm": 0.132855623960495,
      "learning_rate": 0.00025,
      "loss": 0.1682,
      "step": 17411
    },
    {
      "epoch": 17.749235474006117,
      "grad_norm": 0.03497904911637306,
      "learning_rate": 0.00025,
      "loss": 0.2017,
      "step": 17412
    },
    {
      "epoch": 17.75025484199796,
      "grad_norm": 0.019098840653896332,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 17413
    },
    {
      "epoch": 17.751274209989806,
      "grad_norm": 0.046198587864637375,
      "learning_rate": 0.00025,
      "loss": 0.1776,
      "step": 17414
    },
    {
      "epoch": 17.75229357798165,
      "grad_norm": 0.15475794672966003,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 17415
    },
    {
      "epoch": 17.753312945973498,
      "grad_norm": 0.025930775329470634,
      "learning_rate": 0.00025,
      "loss": 0.1616,
      "step": 17416
    },
    {
      "epoch": 17.754332313965342,
      "grad_norm": 0.02175091952085495,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 17417
    },
    {
      "epoch": 17.755351681957187,
      "grad_norm": 0.04949219152331352,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 17418
    },
    {
      "epoch": 17.75637104994903,
      "grad_norm": 0.02283715456724167,
      "learning_rate": 0.00025,
      "loss": 0.1758,
      "step": 17419
    },
    {
      "epoch": 17.757390417940876,
      "grad_norm": 0.04520992934703827,
      "learning_rate": 0.00025,
      "loss": 0.1816,
      "step": 17420
    },
    {
      "epoch": 17.75840978593272,
      "grad_norm": 0.055981237441301346,
      "learning_rate": 0.00025,
      "loss": 0.1567,
      "step": 17421
    },
    {
      "epoch": 17.759429153924568,
      "grad_norm": 0.09651850908994675,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17422
    },
    {
      "epoch": 17.760448521916413,
      "grad_norm": 0.03125094994902611,
      "learning_rate": 0.00025,
      "loss": 0.1722,
      "step": 17423
    },
    {
      "epoch": 17.761467889908257,
      "grad_norm": 0.046591226011514664,
      "learning_rate": 0.00025,
      "loss": 0.1741,
      "step": 17424
    },
    {
      "epoch": 17.7624872579001,
      "grad_norm": 0.03533324599266052,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17425
    },
    {
      "epoch": 17.763506625891946,
      "grad_norm": 0.0630059465765953,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17426
    },
    {
      "epoch": 17.764525993883794,
      "grad_norm": 0.019265983253717422,
      "learning_rate": 0.00025,
      "loss": 0.1714,
      "step": 17427
    },
    {
      "epoch": 17.76554536187564,
      "grad_norm": 0.05033347010612488,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 17428
    },
    {
      "epoch": 17.766564729867483,
      "grad_norm": 0.019925013184547424,
      "learning_rate": 0.00025,
      "loss": 0.1724,
      "step": 17429
    },
    {
      "epoch": 17.767584097859327,
      "grad_norm": 0.060684192925691605,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17430
    },
    {
      "epoch": 17.76860346585117,
      "grad_norm": 0.08462683111429214,
      "learning_rate": 0.00025,
      "loss": 0.1797,
      "step": 17431
    },
    {
      "epoch": 17.769622833843016,
      "grad_norm": 0.015209938399493694,
      "learning_rate": 0.00025,
      "loss": 0.1573,
      "step": 17432
    },
    {
      "epoch": 17.770642201834864,
      "grad_norm": 0.03332938253879547,
      "learning_rate": 0.00025,
      "loss": 0.1646,
      "step": 17433
    },
    {
      "epoch": 17.77166156982671,
      "grad_norm": 0.025746993720531464,
      "learning_rate": 0.00025,
      "loss": 0.1653,
      "step": 17434
    },
    {
      "epoch": 17.772680937818553,
      "grad_norm": 0.07715796679258347,
      "learning_rate": 0.00025,
      "loss": 0.17,
      "step": 17435
    },
    {
      "epoch": 17.773700305810397,
      "grad_norm": 0.03823256492614746,
      "learning_rate": 0.00025,
      "loss": 0.1779,
      "step": 17436
    },
    {
      "epoch": 17.77471967380224,
      "grad_norm": 0.05568614602088928,
      "learning_rate": 0.00025,
      "loss": 0.1876,
      "step": 17437
    },
    {
      "epoch": 17.775739041794086,
      "grad_norm": 0.06364385783672333,
      "learning_rate": 0.00025,
      "loss": 0.1849,
      "step": 17438
    },
    {
      "epoch": 17.776758409785934,
      "grad_norm": 0.0653306245803833,
      "learning_rate": 0.00025,
      "loss": 0.1741,
      "step": 17439
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 0.07285568863153458,
      "learning_rate": 0.00025,
      "loss": 0.176,
      "step": 17440
    },
    {
      "epoch": 17.778797145769623,
      "grad_norm": 0.016564464196562767,
      "learning_rate": 0.00025,
      "loss": 0.1509,
      "step": 17441
    },
    {
      "epoch": 17.779816513761467,
      "grad_norm": 0.05997629091143608,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17442
    },
    {
      "epoch": 17.780835881753312,
      "grad_norm": 0.03052288107573986,
      "learning_rate": 0.00025,
      "loss": 0.1732,
      "step": 17443
    },
    {
      "epoch": 17.781855249745156,
      "grad_norm": 0.028928829357028008,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 17444
    },
    {
      "epoch": 17.782874617737004,
      "grad_norm": 0.03439004719257355,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 17445
    },
    {
      "epoch": 17.78389398572885,
      "grad_norm": 0.017200442031025887,
      "learning_rate": 0.00025,
      "loss": 0.1573,
      "step": 17446
    },
    {
      "epoch": 17.784913353720693,
      "grad_norm": 0.03665953502058983,
      "learning_rate": 0.00025,
      "loss": 0.1569,
      "step": 17447
    },
    {
      "epoch": 17.785932721712538,
      "grad_norm": 0.17122235894203186,
      "learning_rate": 0.00025,
      "loss": 0.1647,
      "step": 17448
    },
    {
      "epoch": 17.786952089704382,
      "grad_norm": 0.04977569729089737,
      "learning_rate": 0.00025,
      "loss": 0.177,
      "step": 17449
    },
    {
      "epoch": 17.78797145769623,
      "grad_norm": 0.015165908262133598,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17450
    },
    {
      "epoch": 17.788990825688074,
      "grad_norm": 0.01436100248247385,
      "learning_rate": 0.00025,
      "loss": 0.144,
      "step": 17451
    },
    {
      "epoch": 17.79001019367992,
      "grad_norm": 0.044127561151981354,
      "learning_rate": 0.00025,
      "loss": 0.1707,
      "step": 17452
    },
    {
      "epoch": 17.791029561671763,
      "grad_norm": 0.04180547967553139,
      "learning_rate": 0.00025,
      "loss": 0.1733,
      "step": 17453
    },
    {
      "epoch": 17.792048929663608,
      "grad_norm": 0.02352808602154255,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 17454
    },
    {
      "epoch": 17.793068297655452,
      "grad_norm": 0.025937672704458237,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17455
    },
    {
      "epoch": 17.7940876656473,
      "grad_norm": 0.051071640104055405,
      "learning_rate": 0.00025,
      "loss": 0.1785,
      "step": 17456
    },
    {
      "epoch": 17.795107033639145,
      "grad_norm": 0.031160516664385796,
      "learning_rate": 0.00025,
      "loss": 0.1827,
      "step": 17457
    },
    {
      "epoch": 17.79612640163099,
      "grad_norm": 0.046555232256650925,
      "learning_rate": 0.00025,
      "loss": 0.1691,
      "step": 17458
    },
    {
      "epoch": 17.797145769622833,
      "grad_norm": 0.016405705362558365,
      "learning_rate": 0.00025,
      "loss": 0.17,
      "step": 17459
    },
    {
      "epoch": 17.798165137614678,
      "grad_norm": 0.04880518093705177,
      "learning_rate": 0.00025,
      "loss": 0.1819,
      "step": 17460
    },
    {
      "epoch": 17.799184505606522,
      "grad_norm": 0.062157079577445984,
      "learning_rate": 0.00025,
      "loss": 0.1672,
      "step": 17461
    },
    {
      "epoch": 17.80020387359837,
      "grad_norm": 0.022829530760645866,
      "learning_rate": 0.00025,
      "loss": 0.1836,
      "step": 17462
    },
    {
      "epoch": 17.801223241590215,
      "grad_norm": 0.05986657366156578,
      "learning_rate": 0.00025,
      "loss": 0.1676,
      "step": 17463
    },
    {
      "epoch": 17.80224260958206,
      "grad_norm": 0.04312484338879585,
      "learning_rate": 0.00025,
      "loss": 0.1605,
      "step": 17464
    },
    {
      "epoch": 17.803261977573904,
      "grad_norm": 0.012319403700530529,
      "learning_rate": 0.00025,
      "loss": 0.1476,
      "step": 17465
    },
    {
      "epoch": 17.804281345565748,
      "grad_norm": 0.07816984504461288,
      "learning_rate": 0.00025,
      "loss": 0.1864,
      "step": 17466
    },
    {
      "epoch": 17.805300713557592,
      "grad_norm": 0.13687394559383392,
      "learning_rate": 0.00025,
      "loss": 0.1869,
      "step": 17467
    },
    {
      "epoch": 17.80632008154944,
      "grad_norm": 0.04311269521713257,
      "learning_rate": 0.00025,
      "loss": 0.1627,
      "step": 17468
    },
    {
      "epoch": 17.807339449541285,
      "grad_norm": 0.028328241780400276,
      "learning_rate": 0.00025,
      "loss": 0.1599,
      "step": 17469
    },
    {
      "epoch": 17.80835881753313,
      "grad_norm": 0.04784874618053436,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 17470
    },
    {
      "epoch": 17.809378185524974,
      "grad_norm": 0.0261686984449625,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17471
    },
    {
      "epoch": 17.810397553516818,
      "grad_norm": 0.04121377691626549,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17472
    },
    {
      "epoch": 17.811416921508666,
      "grad_norm": 0.04352320730686188,
      "learning_rate": 0.00025,
      "loss": 0.1782,
      "step": 17473
    },
    {
      "epoch": 17.81243628950051,
      "grad_norm": 0.012560022994875908,
      "learning_rate": 0.00025,
      "loss": 0.1626,
      "step": 17474
    },
    {
      "epoch": 17.813455657492355,
      "grad_norm": 0.10702679306268692,
      "learning_rate": 0.00025,
      "loss": 0.1799,
      "step": 17475
    },
    {
      "epoch": 17.8144750254842,
      "grad_norm": 0.025850247591733932,
      "learning_rate": 0.00025,
      "loss": 0.1718,
      "step": 17476
    },
    {
      "epoch": 17.815494393476044,
      "grad_norm": 0.07396981865167618,
      "learning_rate": 0.00025,
      "loss": 0.1665,
      "step": 17477
    },
    {
      "epoch": 17.81651376146789,
      "grad_norm": 0.054702501744031906,
      "learning_rate": 0.00025,
      "loss": 0.1549,
      "step": 17478
    },
    {
      "epoch": 17.817533129459736,
      "grad_norm": 0.18444715440273285,
      "learning_rate": 0.00025,
      "loss": 0.1759,
      "step": 17479
    },
    {
      "epoch": 17.81855249745158,
      "grad_norm": 0.18365725874900818,
      "learning_rate": 0.00025,
      "loss": 0.1642,
      "step": 17480
    },
    {
      "epoch": 17.819571865443425,
      "grad_norm": 0.038141731172800064,
      "learning_rate": 0.00025,
      "loss": 0.1654,
      "step": 17481
    },
    {
      "epoch": 17.82059123343527,
      "grad_norm": 0.0601334385573864,
      "learning_rate": 0.00025,
      "loss": 0.1598,
      "step": 17482
    },
    {
      "epoch": 17.821610601427114,
      "grad_norm": 0.048117466270923615,
      "learning_rate": 0.00025,
      "loss": 0.1714,
      "step": 17483
    },
    {
      "epoch": 17.822629969418962,
      "grad_norm": 0.07004685699939728,
      "learning_rate": 0.00025,
      "loss": 0.1765,
      "step": 17484
    },
    {
      "epoch": 17.823649337410806,
      "grad_norm": 0.04915653541684151,
      "learning_rate": 0.00025,
      "loss": 0.1812,
      "step": 17485
    },
    {
      "epoch": 17.82466870540265,
      "grad_norm": 0.06789268553256989,
      "learning_rate": 0.00025,
      "loss": 0.1748,
      "step": 17486
    },
    {
      "epoch": 17.825688073394495,
      "grad_norm": 0.0760779082775116,
      "learning_rate": 0.00025,
      "loss": 0.1659,
      "step": 17487
    },
    {
      "epoch": 17.82670744138634,
      "grad_norm": 0.09722091257572174,
      "learning_rate": 0.00025,
      "loss": 0.182,
      "step": 17488
    },
    {
      "epoch": 17.827726809378184,
      "grad_norm": 0.09108186513185501,
      "learning_rate": 0.00025,
      "loss": 0.1738,
      "step": 17489
    },
    {
      "epoch": 17.828746177370032,
      "grad_norm": 0.037838030606508255,
      "learning_rate": 0.00025,
      "loss": 0.1663,
      "step": 17490
    },
    {
      "epoch": 17.829765545361877,
      "grad_norm": 0.146725594997406,
      "learning_rate": 0.00025,
      "loss": 0.1692,
      "step": 17491
    },
    {
      "epoch": 17.83078491335372,
      "grad_norm": 0.03974393010139465,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 17492
    },
    {
      "epoch": 17.831804281345565,
      "grad_norm": 0.06028633192181587,
      "learning_rate": 0.00025,
      "loss": 0.1544,
      "step": 17493
    },
    {
      "epoch": 17.83282364933741,
      "grad_norm": 0.050371475517749786,
      "learning_rate": 0.00025,
      "loss": 0.1661,
      "step": 17494
    },
    {
      "epoch": 17.833843017329254,
      "grad_norm": 0.09463052451610565,
      "learning_rate": 0.00025,
      "loss": 0.1615,
      "step": 17495
    },
    {
      "epoch": 17.834862385321102,
      "grad_norm": 0.03151610493659973,
      "learning_rate": 0.00025,
      "loss": 0.1603,
      "step": 17496
    },
    {
      "epoch": 17.835881753312947,
      "grad_norm": 0.09083490073680878,
      "learning_rate": 0.00025,
      "loss": 0.1755,
      "step": 17497
    },
    {
      "epoch": 17.83690112130479,
      "grad_norm": 0.013748391531407833,
      "learning_rate": 0.00025,
      "loss": 0.1608,
      "step": 17498
    },
    {
      "epoch": 17.837920489296636,
      "grad_norm": 0.046025361865758896,
      "learning_rate": 0.00025,
      "loss": 0.1766,
      "step": 17499
    },
    {
      "epoch": 17.83893985728848,
      "grad_norm": 0.07298872619867325,
      "learning_rate": 0.00025,
      "loss": 0.1781,
      "step": 17500
    },
    {
      "epoch": 17.839959225280325,
      "grad_norm": 0.03234003856778145,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17501
    },
    {
      "epoch": 17.840978593272173,
      "grad_norm": 0.020000383257865906,
      "learning_rate": 0.00025,
      "loss": 0.1525,
      "step": 17502
    },
    {
      "epoch": 17.841997961264017,
      "grad_norm": 0.0695488303899765,
      "learning_rate": 0.00025,
      "loss": 0.1791,
      "step": 17503
    },
    {
      "epoch": 17.84301732925586,
      "grad_norm": 0.026851177215576172,
      "learning_rate": 0.00025,
      "loss": 0.1592,
      "step": 17504
    },
    {
      "epoch": 17.844036697247706,
      "grad_norm": 0.017233455553650856,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 17505
    },
    {
      "epoch": 17.84505606523955,
      "grad_norm": 0.0543985515832901,
      "learning_rate": 0.00025,
      "loss": 0.1798,
      "step": 17506
    },
    {
      "epoch": 17.846075433231398,
      "grad_norm": 0.04289516434073448,
      "learning_rate": 0.00025,
      "loss": 0.1724,
      "step": 17507
    },
    {
      "epoch": 17.847094801223243,
      "grad_norm": 0.038005851209163666,
      "learning_rate": 0.00025,
      "loss": 0.1511,
      "step": 17508
    },
    {
      "epoch": 17.848114169215087,
      "grad_norm": 0.07947449386119843,
      "learning_rate": 0.00025,
      "loss": 0.1788,
      "step": 17509
    },
    {
      "epoch": 17.84913353720693,
      "grad_norm": 0.06203298643231392,
      "learning_rate": 0.00025,
      "loss": 0.1796,
      "step": 17510
    },
    {
      "epoch": 17.850152905198776,
      "grad_norm": 0.0736590251326561,
      "learning_rate": 0.00025,
      "loss": 0.1715,
      "step": 17511
    },
    {
      "epoch": 17.85117227319062,
      "grad_norm": 0.060034483671188354,
      "learning_rate": 0.00025,
      "loss": 0.16,
      "step": 17512
    },
    {
      "epoch": 17.85219164118247,
      "grad_norm": 0.032438889145851135,
      "learning_rate": 0.00025,
      "loss": 0.1741,
      "step": 17513
    },
    {
      "epoch": 17.853211009174313,
      "grad_norm": 0.04515949264168739,
      "learning_rate": 0.00025,
      "loss": 0.1489,
      "step": 17514
    },
    {
      "epoch": 17.854230377166157,
      "grad_norm": 0.046398039907217026,
      "learning_rate": 0.00025,
      "loss": 0.1744,
      "step": 17515
    },
    {
      "epoch": 17.855249745158,
      "grad_norm": 0.03618314489722252,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 17516
    },
    {
      "epoch": 17.856269113149846,
      "grad_norm": 0.04405027627944946,
      "learning_rate": 0.00025,
      "loss": 0.1598,
      "step": 17517
    },
    {
      "epoch": 17.85728848114169,
      "grad_norm": 0.050974294543266296,
      "learning_rate": 0.00025,
      "loss": 0.1592,
      "step": 17518
    },
    {
      "epoch": 17.85830784913354,
      "grad_norm": 0.03755513206124306,
      "learning_rate": 0.00025,
      "loss": 0.1785,
      "step": 17519
    },
    {
      "epoch": 17.859327217125383,
      "grad_norm": 0.08944039046764374,
      "learning_rate": 0.00025,
      "loss": 0.1681,
      "step": 17520
    },
    {
      "epoch": 17.860346585117227,
      "grad_norm": 0.043358106166124344,
      "learning_rate": 0.00025,
      "loss": 0.1722,
      "step": 17521
    },
    {
      "epoch": 17.861365953109072,
      "grad_norm": 0.06775861978530884,
      "learning_rate": 0.00025,
      "loss": 0.1785,
      "step": 17522
    },
    {
      "epoch": 17.862385321100916,
      "grad_norm": 0.016140500083565712,
      "learning_rate": 0.00025,
      "loss": 0.1697,
      "step": 17523
    },
    {
      "epoch": 17.86340468909276,
      "grad_norm": 0.06487800180912018,
      "learning_rate": 0.00025,
      "loss": 0.1558,
      "step": 17524
    },
    {
      "epoch": 17.86442405708461,
      "grad_norm": 0.04859587177634239,
      "learning_rate": 0.00025,
      "loss": 0.1615,
      "step": 17525
    },
    {
      "epoch": 17.865443425076453,
      "grad_norm": 0.032457731664180756,
      "learning_rate": 0.00025,
      "loss": 0.1647,
      "step": 17526
    },
    {
      "epoch": 17.866462793068298,
      "grad_norm": 0.014095889404416084,
      "learning_rate": 0.00025,
      "loss": 0.1614,
      "step": 17527
    },
    {
      "epoch": 17.867482161060142,
      "grad_norm": 0.044736552983522415,
      "learning_rate": 0.00025,
      "loss": 0.1605,
      "step": 17528
    },
    {
      "epoch": 17.868501529051986,
      "grad_norm": 0.06274581700563431,
      "learning_rate": 0.00025,
      "loss": 0.1853,
      "step": 17529
    },
    {
      "epoch": 17.869520897043834,
      "grad_norm": 0.03949876129627228,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 17530
    },
    {
      "epoch": 17.87054026503568,
      "grad_norm": 0.03583887591958046,
      "learning_rate": 0.00025,
      "loss": 0.1797,
      "step": 17531
    },
    {
      "epoch": 17.871559633027523,
      "grad_norm": 0.020109476521611214,
      "learning_rate": 0.00025,
      "loss": 0.1692,
      "step": 17532
    },
    {
      "epoch": 17.872579001019368,
      "grad_norm": 0.037077516317367554,
      "learning_rate": 0.00025,
      "loss": 0.1523,
      "step": 17533
    },
    {
      "epoch": 17.873598369011212,
      "grad_norm": 0.0636538565158844,
      "learning_rate": 0.00025,
      "loss": 0.1622,
      "step": 17534
    },
    {
      "epoch": 17.874617737003057,
      "grad_norm": 0.020854497328400612,
      "learning_rate": 0.00025,
      "loss": 0.1605,
      "step": 17535
    },
    {
      "epoch": 17.875637104994905,
      "grad_norm": 0.04128682240843773,
      "learning_rate": 0.00025,
      "loss": 0.1731,
      "step": 17536
    },
    {
      "epoch": 17.87665647298675,
      "grad_norm": 0.022195810452103615,
      "learning_rate": 0.00025,
      "loss": 0.1674,
      "step": 17537
    },
    {
      "epoch": 17.877675840978593,
      "grad_norm": 0.059838131070137024,
      "learning_rate": 0.00025,
      "loss": 0.1761,
      "step": 17538
    },
    {
      "epoch": 17.878695208970438,
      "grad_norm": 0.027509143576025963,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 17539
    },
    {
      "epoch": 17.879714576962282,
      "grad_norm": 0.02591152861714363,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17540
    },
    {
      "epoch": 17.88073394495413,
      "grad_norm": 0.024211162701249123,
      "learning_rate": 0.00025,
      "loss": 0.1552,
      "step": 17541
    },
    {
      "epoch": 17.881753312945975,
      "grad_norm": 0.03956814110279083,
      "learning_rate": 0.00025,
      "loss": 0.168,
      "step": 17542
    },
    {
      "epoch": 17.88277268093782,
      "grad_norm": 0.04961172863841057,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17543
    },
    {
      "epoch": 17.883792048929664,
      "grad_norm": 0.12089197337627411,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17544
    },
    {
      "epoch": 17.884811416921508,
      "grad_norm": 0.051639169454574585,
      "learning_rate": 0.00025,
      "loss": 0.1865,
      "step": 17545
    },
    {
      "epoch": 17.885830784913352,
      "grad_norm": 0.043733447790145874,
      "learning_rate": 0.00025,
      "loss": 0.174,
      "step": 17546
    },
    {
      "epoch": 17.8868501529052,
      "grad_norm": 0.02213478833436966,
      "learning_rate": 0.00025,
      "loss": 0.1711,
      "step": 17547
    },
    {
      "epoch": 17.887869520897045,
      "grad_norm": 0.03760716691613197,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 17548
    },
    {
      "epoch": 17.88888888888889,
      "grad_norm": 0.04587647318840027,
      "learning_rate": 0.00025,
      "loss": 0.1759,
      "step": 17549
    },
    {
      "epoch": 17.889908256880734,
      "grad_norm": 0.06552326679229736,
      "learning_rate": 0.00025,
      "loss": 0.1597,
      "step": 17550
    },
    {
      "epoch": 17.890927624872578,
      "grad_norm": 0.023773541674017906,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17551
    },
    {
      "epoch": 17.891946992864423,
      "grad_norm": 0.02091934159398079,
      "learning_rate": 0.00025,
      "loss": 0.1725,
      "step": 17552
    },
    {
      "epoch": 17.89296636085627,
      "grad_norm": 0.06266216933727264,
      "learning_rate": 0.00025,
      "loss": 0.1709,
      "step": 17553
    },
    {
      "epoch": 17.893985728848115,
      "grad_norm": 0.03050493635237217,
      "learning_rate": 0.00025,
      "loss": 0.1768,
      "step": 17554
    },
    {
      "epoch": 17.89500509683996,
      "grad_norm": 0.02935338020324707,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17555
    },
    {
      "epoch": 17.896024464831804,
      "grad_norm": 0.03781355917453766,
      "learning_rate": 0.00025,
      "loss": 0.1561,
      "step": 17556
    },
    {
      "epoch": 17.89704383282365,
      "grad_norm": 0.047620296478271484,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17557
    },
    {
      "epoch": 17.898063200815493,
      "grad_norm": 0.05053811892867088,
      "learning_rate": 0.00025,
      "loss": 0.1699,
      "step": 17558
    },
    {
      "epoch": 17.89908256880734,
      "grad_norm": 0.013916957192122936,
      "learning_rate": 0.00025,
      "loss": 0.1633,
      "step": 17559
    },
    {
      "epoch": 17.900101936799185,
      "grad_norm": 0.03793463110923767,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17560
    },
    {
      "epoch": 17.90112130479103,
      "grad_norm": 0.07496462017297745,
      "learning_rate": 0.00025,
      "loss": 0.1643,
      "step": 17561
    },
    {
      "epoch": 17.902140672782874,
      "grad_norm": 0.019023459404706955,
      "learning_rate": 0.00025,
      "loss": 0.1693,
      "step": 17562
    },
    {
      "epoch": 17.90316004077472,
      "grad_norm": 0.043429531157016754,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 17563
    },
    {
      "epoch": 17.904179408766566,
      "grad_norm": 0.042921170592308044,
      "learning_rate": 0.00025,
      "loss": 0.1758,
      "step": 17564
    },
    {
      "epoch": 17.90519877675841,
      "grad_norm": 0.043312110006809235,
      "learning_rate": 0.00025,
      "loss": 0.1555,
      "step": 17565
    },
    {
      "epoch": 17.906218144750255,
      "grad_norm": 0.06701657176017761,
      "learning_rate": 0.00025,
      "loss": 0.1569,
      "step": 17566
    },
    {
      "epoch": 17.9072375127421,
      "grad_norm": 0.07699768245220184,
      "learning_rate": 0.00025,
      "loss": 0.1685,
      "step": 17567
    },
    {
      "epoch": 17.908256880733944,
      "grad_norm": 0.057955965399742126,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 17568
    },
    {
      "epoch": 17.90927624872579,
      "grad_norm": 0.050763048231601715,
      "learning_rate": 0.00025,
      "loss": 0.1871,
      "step": 17569
    },
    {
      "epoch": 17.910295616717637,
      "grad_norm": 0.023771127685904503,
      "learning_rate": 0.00025,
      "loss": 0.1648,
      "step": 17570
    },
    {
      "epoch": 17.91131498470948,
      "grad_norm": 0.06454542279243469,
      "learning_rate": 0.00025,
      "loss": 0.1761,
      "step": 17571
    },
    {
      "epoch": 17.912334352701325,
      "grad_norm": 0.0736481100320816,
      "learning_rate": 0.00025,
      "loss": 0.1571,
      "step": 17572
    },
    {
      "epoch": 17.91335372069317,
      "grad_norm": 0.03429859131574631,
      "learning_rate": 0.00025,
      "loss": 0.1561,
      "step": 17573
    },
    {
      "epoch": 17.914373088685014,
      "grad_norm": 0.06519914418458939,
      "learning_rate": 0.00025,
      "loss": 0.1664,
      "step": 17574
    },
    {
      "epoch": 17.91539245667686,
      "grad_norm": 0.06107242405414581,
      "learning_rate": 0.00025,
      "loss": 0.172,
      "step": 17575
    },
    {
      "epoch": 17.916411824668707,
      "grad_norm": 0.026982158422470093,
      "learning_rate": 0.00025,
      "loss": 0.1589,
      "step": 17576
    },
    {
      "epoch": 17.91743119266055,
      "grad_norm": 0.021606702357530594,
      "learning_rate": 0.00025,
      "loss": 0.168,
      "step": 17577
    },
    {
      "epoch": 17.918450560652396,
      "grad_norm": 0.027689825743436813,
      "learning_rate": 0.00025,
      "loss": 0.1764,
      "step": 17578
    },
    {
      "epoch": 17.91946992864424,
      "grad_norm": 0.028780339285731316,
      "learning_rate": 0.00025,
      "loss": 0.1661,
      "step": 17579
    },
    {
      "epoch": 17.920489296636084,
      "grad_norm": 0.05419253557920456,
      "learning_rate": 0.00025,
      "loss": 0.1517,
      "step": 17580
    },
    {
      "epoch": 17.92150866462793,
      "grad_norm": 0.05649826303124428,
      "learning_rate": 0.00025,
      "loss": 0.1909,
      "step": 17581
    },
    {
      "epoch": 17.922528032619777,
      "grad_norm": 0.029209420084953308,
      "learning_rate": 0.00025,
      "loss": 0.1594,
      "step": 17582
    },
    {
      "epoch": 17.92354740061162,
      "grad_norm": 0.05978704243898392,
      "learning_rate": 0.00025,
      "loss": 0.1561,
      "step": 17583
    },
    {
      "epoch": 17.924566768603466,
      "grad_norm": 0.0417616069316864,
      "learning_rate": 0.00025,
      "loss": 0.1746,
      "step": 17584
    },
    {
      "epoch": 17.92558613659531,
      "grad_norm": 0.020978020504117012,
      "learning_rate": 0.00025,
      "loss": 0.151,
      "step": 17585
    },
    {
      "epoch": 17.926605504587155,
      "grad_norm": 0.03433670476078987,
      "learning_rate": 0.00025,
      "loss": 0.1694,
      "step": 17586
    },
    {
      "epoch": 17.927624872579003,
      "grad_norm": 0.05912250280380249,
      "learning_rate": 0.00025,
      "loss": 0.1689,
      "step": 17587
    },
    {
      "epoch": 17.928644240570847,
      "grad_norm": 0.02778536267578602,
      "learning_rate": 0.00025,
      "loss": 0.1581,
      "step": 17588
    },
    {
      "epoch": 17.92966360856269,
      "grad_norm": 0.010363652370870113,
      "learning_rate": 0.00025,
      "loss": 0.1565,
      "step": 17589
    },
    {
      "epoch": 17.930682976554536,
      "grad_norm": 0.03039632737636566,
      "learning_rate": 0.00025,
      "loss": 0.1742,
      "step": 17590
    },
    {
      "epoch": 17.93170234454638,
      "grad_norm": 0.020811010152101517,
      "learning_rate": 0.00025,
      "loss": 0.1659,
      "step": 17591
    },
    {
      "epoch": 17.932721712538225,
      "grad_norm": 0.052348680794239044,
      "learning_rate": 0.00025,
      "loss": 0.1602,
      "step": 17592
    },
    {
      "epoch": 17.933741080530073,
      "grad_norm": 0.04668169096112251,
      "learning_rate": 0.00025,
      "loss": 0.1547,
      "step": 17593
    },
    {
      "epoch": 17.934760448521917,
      "grad_norm": 0.04110447317361832,
      "learning_rate": 0.00025,
      "loss": 0.156,
      "step": 17594
    },
    {
      "epoch": 17.93577981651376,
      "grad_norm": 0.024104809388518333,
      "learning_rate": 0.00025,
      "loss": 0.1636,
      "step": 17595
    },
    {
      "epoch": 17.936799184505606,
      "grad_norm": 0.0247699823230505,
      "learning_rate": 0.00025,
      "loss": 0.155,
      "step": 17596
    },
    {
      "epoch": 17.93781855249745,
      "grad_norm": 0.07829604297876358,
      "learning_rate": 0.00025,
      "loss": 0.1692,
      "step": 17597
    },
    {
      "epoch": 17.938837920489295,
      "grad_norm": 0.01845674403011799,
      "learning_rate": 0.00025,
      "loss": 0.1464,
      "step": 17598
    },
    {
      "epoch": 17.939857288481143,
      "grad_norm": 0.07213355600833893,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17599
    },
    {
      "epoch": 17.940876656472987,
      "grad_norm": 0.04759702458977699,
      "learning_rate": 0.00025,
      "loss": 0.1829,
      "step": 17600
    },
    {
      "epoch": 17.941896024464832,
      "grad_norm": 0.027788978070020676,
      "learning_rate": 0.00025,
      "loss": 0.1788,
      "step": 17601
    },
    {
      "epoch": 17.942915392456676,
      "grad_norm": 0.06319404393434525,
      "learning_rate": 0.00025,
      "loss": 0.1726,
      "step": 17602
    },
    {
      "epoch": 17.94393476044852,
      "grad_norm": 0.07362820953130722,
      "learning_rate": 0.00025,
      "loss": 0.1583,
      "step": 17603
    },
    {
      "epoch": 17.94495412844037,
      "grad_norm": 0.03930351138114929,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 17604
    },
    {
      "epoch": 17.945973496432213,
      "grad_norm": 0.051668930798769,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17605
    },
    {
      "epoch": 17.946992864424058,
      "grad_norm": 0.09040898829698563,
      "learning_rate": 0.00025,
      "loss": 0.1781,
      "step": 17606
    },
    {
      "epoch": 17.948012232415902,
      "grad_norm": 0.07295136153697968,
      "learning_rate": 0.00025,
      "loss": 0.1621,
      "step": 17607
    },
    {
      "epoch": 17.949031600407746,
      "grad_norm": 0.039806049317121506,
      "learning_rate": 0.00025,
      "loss": 0.1624,
      "step": 17608
    },
    {
      "epoch": 17.95005096839959,
      "grad_norm": 0.02385547384619713,
      "learning_rate": 0.00025,
      "loss": 0.188,
      "step": 17609
    },
    {
      "epoch": 17.95107033639144,
      "grad_norm": 0.02181970328092575,
      "learning_rate": 0.00025,
      "loss": 0.1674,
      "step": 17610
    },
    {
      "epoch": 17.952089704383283,
      "grad_norm": 0.0489620603621006,
      "learning_rate": 0.00025,
      "loss": 0.1749,
      "step": 17611
    },
    {
      "epoch": 17.953109072375128,
      "grad_norm": 0.02403763309121132,
      "learning_rate": 0.00025,
      "loss": 0.165,
      "step": 17612
    },
    {
      "epoch": 17.954128440366972,
      "grad_norm": 0.037026338279247284,
      "learning_rate": 0.00025,
      "loss": 0.1696,
      "step": 17613
    },
    {
      "epoch": 17.955147808358817,
      "grad_norm": 0.06187264621257782,
      "learning_rate": 0.00025,
      "loss": 0.1646,
      "step": 17614
    },
    {
      "epoch": 17.95616717635066,
      "grad_norm": 0.06767460703849792,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17615
    },
    {
      "epoch": 17.95718654434251,
      "grad_norm": 0.014891448430716991,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 17616
    },
    {
      "epoch": 17.958205912334353,
      "grad_norm": 0.04024917259812355,
      "learning_rate": 0.00025,
      "loss": 0.1708,
      "step": 17617
    },
    {
      "epoch": 17.959225280326198,
      "grad_norm": 0.02645205892622471,
      "learning_rate": 0.00025,
      "loss": 0.1604,
      "step": 17618
    },
    {
      "epoch": 17.960244648318042,
      "grad_norm": 0.029094170778989792,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 17619
    },
    {
      "epoch": 17.961264016309887,
      "grad_norm": 0.039771366864442825,
      "learning_rate": 0.00025,
      "loss": 0.1661,
      "step": 17620
    },
    {
      "epoch": 17.962283384301735,
      "grad_norm": 0.03365321084856987,
      "learning_rate": 0.00025,
      "loss": 0.1851,
      "step": 17621
    },
    {
      "epoch": 17.96330275229358,
      "grad_norm": 0.03824247419834137,
      "learning_rate": 0.00025,
      "loss": 0.1783,
      "step": 17622
    },
    {
      "epoch": 17.964322120285424,
      "grad_norm": 0.03490981459617615,
      "learning_rate": 0.00025,
      "loss": 0.1675,
      "step": 17623
    },
    {
      "epoch": 17.965341488277268,
      "grad_norm": 0.051047902554273605,
      "learning_rate": 0.00025,
      "loss": 0.1737,
      "step": 17624
    },
    {
      "epoch": 17.966360856269112,
      "grad_norm": 0.11876045167446136,
      "learning_rate": 0.00025,
      "loss": 0.1799,
      "step": 17625
    },
    {
      "epoch": 17.967380224260957,
      "grad_norm": 0.03537509962916374,
      "learning_rate": 0.00025,
      "loss": 0.1625,
      "step": 17626
    },
    {
      "epoch": 17.968399592252805,
      "grad_norm": 0.03917095065116882,
      "learning_rate": 0.00025,
      "loss": 0.1688,
      "step": 17627
    },
    {
      "epoch": 17.96941896024465,
      "grad_norm": 0.052191656082868576,
      "learning_rate": 0.00025,
      "loss": 0.1747,
      "step": 17628
    },
    {
      "epoch": 17.970438328236494,
      "grad_norm": 0.015612534247338772,
      "learning_rate": 0.00025,
      "loss": 0.1608,
      "step": 17629
    },
    {
      "epoch": 17.971457696228338,
      "grad_norm": 0.03816267475485802,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17630
    },
    {
      "epoch": 17.972477064220183,
      "grad_norm": 0.026014097034931183,
      "learning_rate": 0.00025,
      "loss": 0.1669,
      "step": 17631
    },
    {
      "epoch": 17.973496432212027,
      "grad_norm": 0.0187337975949049,
      "learning_rate": 0.00025,
      "loss": 0.1462,
      "step": 17632
    },
    {
      "epoch": 17.974515800203875,
      "grad_norm": 0.03362751007080078,
      "learning_rate": 0.00025,
      "loss": 0.1719,
      "step": 17633
    },
    {
      "epoch": 17.97553516819572,
      "grad_norm": 0.027068663388490677,
      "learning_rate": 0.00025,
      "loss": 0.1752,
      "step": 17634
    },
    {
      "epoch": 17.976554536187564,
      "grad_norm": 0.05779797211289406,
      "learning_rate": 0.00025,
      "loss": 0.1704,
      "step": 17635
    },
    {
      "epoch": 17.97757390417941,
      "grad_norm": 0.0484502874314785,
      "learning_rate": 0.00025,
      "loss": 0.1648,
      "step": 17636
    },
    {
      "epoch": 17.978593272171253,
      "grad_norm": 0.03867319971323013,
      "learning_rate": 0.00025,
      "loss": 0.1652,
      "step": 17637
    },
    {
      "epoch": 17.979612640163097,
      "grad_norm": 0.019944991916418076,
      "learning_rate": 0.00025,
      "loss": 0.1741,
      "step": 17638
    },
    {
      "epoch": 17.980632008154945,
      "grad_norm": 0.04086366668343544,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17639
    },
    {
      "epoch": 17.98165137614679,
      "grad_norm": 0.1897636353969574,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 17640
    },
    {
      "epoch": 17.982670744138634,
      "grad_norm": 0.03343222290277481,
      "learning_rate": 0.00025,
      "loss": 0.1635,
      "step": 17641
    },
    {
      "epoch": 17.98369011213048,
      "grad_norm": 0.04677688330411911,
      "learning_rate": 0.00025,
      "loss": 0.1543,
      "step": 17642
    },
    {
      "epoch": 17.984709480122323,
      "grad_norm": 0.027852918952703476,
      "learning_rate": 0.00025,
      "loss": 0.1716,
      "step": 17643
    },
    {
      "epoch": 17.98572884811417,
      "grad_norm": 0.020704079419374466,
      "learning_rate": 0.00025,
      "loss": 0.1638,
      "step": 17644
    },
    {
      "epoch": 17.986748216106015,
      "grad_norm": 0.06008733808994293,
      "learning_rate": 0.00025,
      "loss": 0.1611,
      "step": 17645
    },
    {
      "epoch": 17.98776758409786,
      "grad_norm": 0.03722526878118515,
      "learning_rate": 0.00025,
      "loss": 0.1743,
      "step": 17646
    },
    {
      "epoch": 17.988786952089704,
      "grad_norm": 0.03603728115558624,
      "learning_rate": 0.00025,
      "loss": 0.1528,
      "step": 17647
    },
    {
      "epoch": 17.98980632008155,
      "grad_norm": 0.02016778476536274,
      "learning_rate": 0.00025,
      "loss": 0.1677,
      "step": 17648
    },
    {
      "epoch": 17.990825688073393,
      "grad_norm": 0.05532499775290489,
      "learning_rate": 0.00025,
      "loss": 0.1786,
      "step": 17649
    },
    {
      "epoch": 17.99184505606524,
      "grad_norm": 0.04283435642719269,
      "learning_rate": 0.00025,
      "loss": 0.166,
      "step": 17650
    },
    {
      "epoch": 17.992864424057085,
      "grad_norm": 0.10395938158035278,
      "learning_rate": 0.00025,
      "loss": 0.163,
      "step": 17651
    },
    {
      "epoch": 17.99388379204893,
      "grad_norm": 0.05479390546679497,
      "learning_rate": 0.00025,
      "loss": 0.1519,
      "step": 17652
    },
    {
      "epoch": 17.994903160040774,
      "grad_norm": 0.08573253452777863,
      "learning_rate": 0.00025,
      "loss": 0.1613,
      "step": 17653
    },
    {
      "epoch": 17.99592252803262,
      "grad_norm": 0.06017165631055832,
      "learning_rate": 0.00025,
      "loss": 0.1792,
      "step": 17654
    },
    {
      "epoch": 17.996941896024463,
      "grad_norm": 0.05406520515680313,
      "learning_rate": 0.00025,
      "loss": 0.1597,
      "step": 17655
    },
    {
      "epoch": 17.99796126401631,
      "grad_norm": 0.029446111992001534,
      "learning_rate": 0.00025,
      "loss": 0.1709,
      "step": 17656
    },
    {
      "epoch": 17.998980632008156,
      "grad_norm": 0.060862571001052856,
      "learning_rate": 0.00025,
      "loss": 0.1595,
      "step": 17657
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.025231696665287018,
      "learning_rate": 0.00025,
      "loss": 0.1541,
      "step": 17658
    },
    {
      "epoch": 18.0,
      "eval_-_f1-score": 0.34285714285714286,
      "eval_-_precision": 0.46153846153846156,
      "eval_-_recall": 0.2727272727272727,
      "eval_-_support": 22.0,
      "eval_<_f1-score": 0.968740391513785,
      "eval_<_precision": 0.9660670482420278,
      "eval_<_recall": 0.9714285714285714,
      "eval_<_support": 4865.0,
      "eval_=_f1-score": 0.8432203389830508,
      "eval_=_precision": 0.8883928571428571,
      "eval_=_recall": 0.8024193548387096,
      "eval_=_support": 248.0,
      "eval_>_f1-score": 0.969391947411668,
      "eval_>_precision": 0.9687949086429891,
      "eval_>_recall": 0.9699897225077081,
      "eval_>_support": 4865.0,
      "eval_accuracy": 0.965,
      "eval_loss": 0.10377578437328339,
      "eval_macro_avg_f1-score": 0.7810524551914116,
      "eval_macro_avg_precision": 0.8211983188915839,
      "eval_macro_avg_recall": 0.7541412303755655,
      "eval_macro_avg_support": 10000.0,
      "eval_runtime": 13.0092,
      "eval_samples_per_second": 768.689,
      "eval_steps_per_second": 3.075,
      "eval_weighted_avg_f1-score": 0.964567533008298,
      "eval_weighted_avg_precision": 0.9643578694970881,
      "eval_weighted_avg_recall": 0.965,
      "eval_weighted_avg_support": 10000.0,
      "step": 17658
    },
    {
      "before_init_mem_cpu": 3040526336,
      "before_init_mem_gpu": 512,
      "epoch": 18.0,
      "init_mem_cpu_alloc_delta": 18427904,
      "init_mem_cpu_peaked_delta": 0,
      "init_mem_gpu_alloc_delta": 0,
      "init_mem_gpu_peaked_delta": 0,
      "step": 17658,
      "total_flos": 2.949719748897669e+18,
      "train_loss": 0.22952656600628965,
      "train_mem_cpu_alloc_delta": 826355712,
      "train_mem_cpu_peaked_delta": 403324928,
      "train_mem_gpu_alloc_delta": 690193408,
      "train_mem_gpu_peaked_delta": 19408810496,
      "train_runtime": 33563.6304,
      "train_samples_per_second": 448.943,
      "train_steps_per_second": 0.877
    }
  ],
  "logging_steps": 1,
  "max_steps": 29430,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 3
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.949719748897669e+18,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}