multitensor commited on
Commit
6e29354
·
verified ·
1 Parent(s): c180ed8

Upload folder using huggingface_hub

Browse files
config.json CHANGED
@@ -2,7 +2,7 @@
2
  "X": [
3
  "Video"
4
  ],
5
- "_name_or_path": "/mnt/bn/tns-algo-video-public-my2/wangpeng.an/model/tmp/OmniFusion-main/checkpoints/OmniFusion-8B-stage3-1018",
6
  "architectures": [
7
  "LlavaLlamaForCausalLM"
8
  ],
 
2
  "X": [
3
  "Video"
4
  ],
5
+ "_name_or_path": "/mnt/bn/tns-algo-video-public-my2/wangpeng.an/model/pretrained_model/omnis3",
6
  "architectures": [
7
  "LlavaLlamaForCausalLM"
8
  ],
model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:346f2705a5e9ae972033847876dea0bcedd1ee56116c9c23cfa72ded222e8214
3
  size 4976698672
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1d3037fc3fcae7f29a27ca3389e8340e374e497ddf883f06aba385121871a91b
3
  size 4976698672
model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7bab15611dfc404180dd875368f2e343eef0be202143436f74781821fdb00be9
3
  size 4999802720
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b3eb0fe3b8b62fdd8e7988d2f613e5208e9929b10a5e0977dd1a0c934845460c
3
  size 4999802720
model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:134edcbecc2c4602a9f3276d0014ec68dfd9b379af4b1b750f6524cabb9703ab
3
  size 4915916176
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3aed1673818f58b983377abded8f1bf2576b59aeed4e764d76eed55cbf9ca68a
3
  size 4915916176
model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:37ba906825d1bb6330573ed40c45cfa9dcb3e28a86ddf494f4f498321e6fbb86
3
  size 3851682320
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c2d40974ba0e547116c5e6dd968d1e5618b8fcd7983d1e33feed37b804659034
3
  size 3851682320
trainer_state.json CHANGED
@@ -12,2732 +12,2732 @@
12
  "epoch": 0.002570694087403599,
13
  "grad_norm": 0.0,
14
  "learning_rate": 1.6666666666666667e-06,
15
- "loss": 6.9648,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.005141388174807198,
20
  "grad_norm": 0.0,
21
  "learning_rate": 3.3333333333333333e-06,
22
- "loss": 6.9053,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.007712082262210797,
27
  "grad_norm": 0.0,
28
  "learning_rate": 5e-06,
29
- "loss": 6.5381,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.010282776349614395,
34
  "grad_norm": 0.0,
35
  "learning_rate": 6.666666666666667e-06,
36
- "loss": 4.9111,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.012853470437017995,
41
  "grad_norm": 0.0,
42
  "learning_rate": 8.333333333333334e-06,
43
- "loss": 4.165,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.015424164524421594,
48
  "grad_norm": 0.0,
49
  "learning_rate": 1e-05,
50
- "loss": 3.9639,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.017994858611825194,
55
  "grad_norm": 0.0,
56
  "learning_rate": 1.1666666666666668e-05,
57
- "loss": 4.0986,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.02056555269922879,
62
  "grad_norm": 0.0,
63
  "learning_rate": 1.3333333333333333e-05,
64
- "loss": 3.5806,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.02313624678663239,
69
  "grad_norm": 0.0,
70
  "learning_rate": 1.5000000000000002e-05,
71
- "loss": 3.3311,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.02570694087403599,
76
  "grad_norm": 0.0,
77
  "learning_rate": 1.6666666666666667e-05,
78
- "loss": 3.2305,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.028277634961439587,
83
  "grad_norm": 0.0,
84
  "learning_rate": 1.8333333333333333e-05,
85
- "loss": 3.2031,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.030848329048843187,
90
  "grad_norm": 0.0,
91
  "learning_rate": 2e-05,
92
- "loss": 3.0005,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.033419023136246784,
97
  "grad_norm": 0.0,
98
  "learning_rate": 1.9999652796146877e-05,
99
- "loss": 2.8887,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.03598971722365039,
104
  "grad_norm": 0.0,
105
  "learning_rate": 1.9998611208697607e-05,
106
- "loss": 2.6841,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.038560411311053984,
111
  "grad_norm": 0.0,
112
  "learning_rate": 1.9996875309980824e-05,
113
- "loss": 2.5186,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.04113110539845758,
118
  "grad_norm": 0.0,
119
  "learning_rate": 1.9994445220538678e-05,
120
- "loss": 2.5,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.043701799485861184,
125
  "grad_norm": 0.0,
126
  "learning_rate": 1.999132110911845e-05,
127
- "loss": 2.4541,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.04627249357326478,
132
  "grad_norm": 0.0,
133
  "learning_rate": 1.9987503192660842e-05,
134
- "loss": 2.3965,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.04884318766066838,
139
  "grad_norm": 0.0,
140
  "learning_rate": 1.9982991736284914e-05,
141
- "loss": 2.3933,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.05141388174807198,
146
  "grad_norm": 0.0,
147
  "learning_rate": 1.997778705326968e-05,
148
- "loss": 2.3152,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.05398457583547558,
153
  "grad_norm": 0.0,
154
  "learning_rate": 1.9971889505032337e-05,
155
- "loss": 2.2866,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.056555269922879174,
160
  "grad_norm": 0.0,
161
  "learning_rate": 1.9965299501103178e-05,
162
- "loss": 2.2539,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.05912596401028278,
167
  "grad_norm": 0.0,
168
  "learning_rate": 1.995801749909715e-05,
169
- "loss": 2.2817,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.061696658097686374,
174
  "grad_norm": 0.0,
175
  "learning_rate": 1.995004400468209e-05,
176
- "loss": 2.1638,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.06426735218508997,
181
  "grad_norm": 0.0,
182
  "learning_rate": 1.9941379571543597e-05,
183
- "loss": 2.1311,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.06683804627249357,
188
  "grad_norm": 0.0,
189
  "learning_rate": 1.9932024801346583e-05,
190
- "loss": 2.1948,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.06940874035989718,
195
  "grad_norm": 0.0,
196
  "learning_rate": 1.992198034369349e-05,
197
- "loss": 2.1084,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.07197943444730077,
202
  "grad_norm": 0.0,
203
  "learning_rate": 1.991124689607921e-05,
204
- "loss": 2.1758,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.07455012853470437,
209
  "grad_norm": 0.0,
210
  "learning_rate": 1.9899825203842613e-05,
211
- "loss": 2.0959,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.07712082262210797,
216
  "grad_norm": 0.0,
217
  "learning_rate": 1.988771606011481e-05,
218
- "loss": 2.105,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.07969151670951156,
223
  "grad_norm": 0.0,
224
  "learning_rate": 1.987492030576407e-05,
225
- "loss": 2.0989,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.08226221079691516,
230
  "grad_norm": 0.0,
231
  "learning_rate": 1.986143882933744e-05,
232
- "loss": 2.1521,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.08483290488431877,
237
  "grad_norm": 0.0,
238
  "learning_rate": 1.9847272566999026e-05,
239
- "loss": 2.1199,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.08740359897172237,
244
  "grad_norm": 0.0,
245
  "learning_rate": 1.9832422502465013e-05,
246
- "loss": 2.0388,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.08997429305912596,
251
  "grad_norm": 0.0,
252
  "learning_rate": 1.9816889666935318e-05,
253
- "loss": 2.1018,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.09254498714652956,
258
  "grad_norm": 0.0,
259
  "learning_rate": 1.9800675139022006e-05,
260
- "loss": 2.0649,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.09511568123393316,
265
  "grad_norm": 0.0,
266
  "learning_rate": 1.9783780044674402e-05,
267
- "loss": 2.1055,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.09768637532133675,
272
  "grad_norm": 0.0,
273
  "learning_rate": 1.976620555710087e-05,
274
- "loss": 2.0188,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.10025706940874037,
279
  "grad_norm": 0.0,
280
  "learning_rate": 1.974795289668737e-05,
281
- "loss": 2.0166,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.10282776349614396,
286
  "grad_norm": 0.0,
287
  "learning_rate": 1.972902333091271e-05,
288
- "loss": 2.0642,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.10539845758354756,
293
  "grad_norm": 0.0,
294
  "learning_rate": 1.9709418174260523e-05,
295
- "loss": 1.9697,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.10796915167095116,
300
  "grad_norm": 0.0,
301
  "learning_rate": 1.9689138788127994e-05,
302
- "loss": 1.9863,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.11053984575835475,
307
  "grad_norm": 0.0,
308
  "learning_rate": 1.966818658073133e-05,
309
- "loss": 1.9548,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.11311053984575835,
314
  "grad_norm": 0.0,
315
  "learning_rate": 1.9646563007007952e-05,
316
- "loss": 2.0608,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.11568123393316196,
321
  "grad_norm": 0.0,
322
  "learning_rate": 1.9624269568515486e-05,
323
- "loss": 2.0154,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.11825192802056556,
328
  "grad_norm": 0.0,
329
  "learning_rate": 1.960130781332748e-05,
330
- "loss": 1.9629,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.12082262210796915,
335
  "grad_norm": 0.0,
336
  "learning_rate": 1.957767933592591e-05,
337
- "loss": 2.0076,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.12339331619537275,
342
  "grad_norm": 0.0,
343
  "learning_rate": 1.955338577709046e-05,
344
- "loss": 2.0295,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.12596401028277635,
349
  "grad_norm": 0.0,
350
  "learning_rate": 1.9528428823784567e-05,
351
- "loss": 1.958,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.12853470437017994,
356
  "grad_norm": 0.0,
357
  "learning_rate": 1.9502810209038302e-05,
358
- "loss": 1.9724,
359
  "step": 50
360
  },
361
  {
362
  "epoch": 0.13110539845758354,
363
  "grad_norm": 0.0,
364
  "learning_rate": 1.9476531711828027e-05,
365
- "loss": 1.9861,
366
  "step": 51
367
  },
368
  {
369
  "epoch": 0.13367609254498714,
370
  "grad_norm": 0.0,
371
  "learning_rate": 1.9449595156952827e-05,
372
- "loss": 1.9514,
373
  "step": 52
374
  },
375
  {
376
  "epoch": 0.13624678663239073,
377
  "grad_norm": 0.0,
378
  "learning_rate": 1.9422002414907837e-05,
379
- "loss": 1.9854,
380
  "step": 53
381
  },
382
  {
383
  "epoch": 0.13881748071979436,
384
  "grad_norm": 0.0,
385
  "learning_rate": 1.9393755401754324e-05,
386
- "loss": 1.9673,
387
  "step": 54
388
  },
389
  {
390
  "epoch": 0.14138817480719795,
391
  "grad_norm": 0.0,
392
  "learning_rate": 1.936485607898665e-05,
393
- "loss": 2.0178,
394
  "step": 55
395
  },
396
  {
397
  "epoch": 0.14395886889460155,
398
  "grad_norm": 0.0,
399
  "learning_rate": 1.9335306453396066e-05,
400
- "loss": 1.9438,
401
  "step": 56
402
  },
403
  {
404
  "epoch": 0.14652956298200515,
405
  "grad_norm": 0.0,
406
  "learning_rate": 1.9305108576931336e-05,
407
- "loss": 1.9155,
408
  "step": 57
409
  },
410
  {
411
  "epoch": 0.14910025706940874,
412
  "grad_norm": 0.0,
413
  "learning_rate": 1.927426454655627e-05,
414
- "loss": 1.9692,
415
  "step": 58
416
  },
417
  {
418
  "epoch": 0.15167095115681234,
419
  "grad_norm": 0.0,
420
  "learning_rate": 1.924277650410412e-05,
421
- "loss": 1.9409,
422
  "step": 59
423
  },
424
  {
425
  "epoch": 0.15424164524421594,
426
  "grad_norm": 0.0,
427
  "learning_rate": 1.9210646636128805e-05,
428
- "loss": 2.0073,
429
  "step": 60
430
  },
431
  {
432
  "epoch": 0.15681233933161953,
433
  "grad_norm": 0.0,
434
  "learning_rate": 1.9177877173753127e-05,
435
- "loss": 1.9958,
436
  "step": 61
437
  },
438
  {
439
  "epoch": 0.15938303341902313,
440
  "grad_norm": 0.0,
441
  "learning_rate": 1.91444703925138e-05,
442
- "loss": 1.9419,
443
  "step": 62
444
  },
445
  {
446
  "epoch": 0.16195372750642673,
447
  "grad_norm": 0.0,
448
  "learning_rate": 1.9110428612203463e-05,
449
- "loss": 1.9497,
450
  "step": 63
451
  },
452
  {
453
  "epoch": 0.16452442159383032,
454
  "grad_norm": 0.0,
455
  "learning_rate": 1.9075754196709574e-05,
456
- "loss": 1.9946,
457
  "step": 64
458
  },
459
  {
460
  "epoch": 0.16709511568123395,
461
  "grad_norm": 0.0,
462
  "learning_rate": 1.904044955385026e-05,
463
- "loss": 1.9165,
464
  "step": 65
465
  },
466
  {
467
  "epoch": 0.16966580976863754,
468
  "grad_norm": 0.0,
469
  "learning_rate": 1.9004517135207127e-05,
470
- "loss": 1.915,
471
  "step": 66
472
  },
473
  {
474
  "epoch": 0.17223650385604114,
475
  "grad_norm": 0.0,
476
  "learning_rate": 1.8967959435955027e-05,
477
- "loss": 1.9851,
478
  "step": 67
479
  },
480
  {
481
  "epoch": 0.17480719794344474,
482
  "grad_norm": 0.0,
483
  "learning_rate": 1.893077899468876e-05,
484
- "loss": 1.9607,
485
  "step": 68
486
  },
487
  {
488
  "epoch": 0.17737789203084833,
489
  "grad_norm": 0.0,
490
  "learning_rate": 1.889297839324682e-05,
491
- "loss": 1.9282,
492
  "step": 69
493
  },
494
  {
495
  "epoch": 0.17994858611825193,
496
  "grad_norm": 0.0,
497
  "learning_rate": 1.8854560256532098e-05,
498
- "loss": 1.9045,
499
  "step": 70
500
  },
501
  {
502
  "epoch": 0.18251928020565553,
503
  "grad_norm": 0.0,
504
  "learning_rate": 1.8815527252329624e-05,
505
- "loss": 1.9358,
506
  "step": 71
507
  },
508
  {
509
  "epoch": 0.18508997429305912,
510
  "grad_norm": 0.0,
511
  "learning_rate": 1.8775882091121282e-05,
512
- "loss": 1.9099,
513
  "step": 72
514
  },
515
  {
516
  "epoch": 0.18766066838046272,
517
  "grad_norm": 0.0,
518
  "learning_rate": 1.8735627525897618e-05,
519
- "loss": 1.9001,
520
  "step": 73
521
  },
522
  {
523
  "epoch": 0.19023136246786632,
524
  "grad_norm": 0.0,
525
  "learning_rate": 1.8694766351966665e-05,
526
- "loss": 1.9177,
527
  "step": 74
528
  },
529
  {
530
  "epoch": 0.1928020565552699,
531
  "grad_norm": 0.0,
532
  "learning_rate": 1.8653301406759827e-05,
533
- "loss": 1.9397,
534
  "step": 75
535
  },
536
  {
537
  "epoch": 0.1953727506426735,
538
  "grad_norm": 0.0,
539
  "learning_rate": 1.8611235569634852e-05,
540
- "loss": 1.9446,
541
  "step": 76
542
  },
543
  {
544
  "epoch": 0.19794344473007713,
545
  "grad_norm": 0.0,
546
  "learning_rate": 1.8568571761675893e-05,
547
- "loss": 1.9646,
548
  "step": 77
549
  },
550
  {
551
  "epoch": 0.20051413881748073,
552
  "grad_norm": 0.0,
553
  "learning_rate": 1.8525312945490647e-05,
554
- "loss": 1.9395,
555
  "step": 78
556
  },
557
  {
558
  "epoch": 0.20308483290488433,
559
  "grad_norm": 0.0,
560
  "learning_rate": 1.8481462125004647e-05,
561
- "loss": 1.9346,
562
  "step": 79
563
  },
564
  {
565
  "epoch": 0.20565552699228792,
566
  "grad_norm": 0.0,
567
  "learning_rate": 1.8437022345252666e-05,
568
- "loss": 1.9905,
569
  "step": 80
570
  },
571
  {
572
  "epoch": 0.20822622107969152,
573
  "grad_norm": 0.0,
574
  "learning_rate": 1.8391996692167242e-05,
575
- "loss": 1.9172,
576
  "step": 81
577
  },
578
  {
579
  "epoch": 0.21079691516709512,
580
  "grad_norm": 0.0,
581
  "learning_rate": 1.8346388292364438e-05,
582
- "loss": 1.9543,
583
  "step": 82
584
  },
585
  {
586
  "epoch": 0.2133676092544987,
587
  "grad_norm": 0.0,
588
  "learning_rate": 1.8300200312926674e-05,
589
- "loss": 1.8997,
590
  "step": 83
591
  },
592
  {
593
  "epoch": 0.2159383033419023,
594
  "grad_norm": 0.0,
595
  "learning_rate": 1.8253435961182844e-05,
596
- "loss": 1.907,
597
  "step": 84
598
  },
599
  {
600
  "epoch": 0.2185089974293059,
601
  "grad_norm": 0.0,
602
  "learning_rate": 1.8206098484485563e-05,
603
- "loss": 1.9299,
604
  "step": 85
605
  },
606
  {
607
  "epoch": 0.2210796915167095,
608
  "grad_norm": 0.0,
609
  "learning_rate": 1.8158191169985696e-05,
610
- "loss": 1.9189,
611
  "step": 86
612
  },
613
  {
614
  "epoch": 0.2236503856041131,
615
  "grad_norm": 0.0,
616
  "learning_rate": 1.810971734440408e-05,
617
- "loss": 1.8643,
618
  "step": 87
619
  },
620
  {
621
  "epoch": 0.2262210796915167,
622
  "grad_norm": 0.0,
623
  "learning_rate": 1.806068037380052e-05,
624
- "loss": 1.8857,
625
  "step": 88
626
  },
627
  {
628
  "epoch": 0.22879177377892032,
629
  "grad_norm": 0.0,
630
  "learning_rate": 1.801108366334004e-05,
631
- "loss": 1.9358,
632
  "step": 89
633
  },
634
  {
635
  "epoch": 0.23136246786632392,
636
  "grad_norm": 0.0,
637
  "learning_rate": 1.796093065705644e-05,
638
- "loss": 1.9346,
639
  "step": 90
640
  },
641
  {
642
  "epoch": 0.23393316195372751,
643
  "grad_norm": 0.0,
644
  "learning_rate": 1.791022483761312e-05,
645
- "loss": 1.9043,
646
  "step": 91
647
  },
648
  {
649
  "epoch": 0.2365038560411311,
650
  "grad_norm": 0.0,
651
  "learning_rate": 1.7858969726061262e-05,
652
- "loss": 1.8745,
653
  "step": 92
654
  },
655
  {
656
  "epoch": 0.2390745501285347,
657
  "grad_norm": 0.0,
658
  "learning_rate": 1.7807168881595304e-05,
659
- "loss": 1.9163,
660
  "step": 93
661
  },
662
  {
663
  "epoch": 0.2416452442159383,
664
  "grad_norm": 0.0,
665
  "learning_rate": 1.7754825901305814e-05,
666
- "loss": 1.9167,
667
  "step": 94
668
  },
669
  {
670
  "epoch": 0.2442159383033419,
671
  "grad_norm": 0.0,
672
  "learning_rate": 1.7701944419929673e-05,
673
- "loss": 1.8821,
674
  "step": 95
675
  },
676
  {
677
  "epoch": 0.2467866323907455,
678
  "grad_norm": 0.0,
679
  "learning_rate": 1.7648528109597704e-05,
680
- "loss": 1.8926,
681
  "step": 96
682
  },
683
  {
684
  "epoch": 0.2493573264781491,
685
  "grad_norm": 0.0,
686
  "learning_rate": 1.7594580679579654e-05,
687
- "loss": 1.8989,
688
  "step": 97
689
  },
690
  {
691
  "epoch": 0.2519280205655527,
692
  "grad_norm": 0.0,
693
  "learning_rate": 1.7540105876026647e-05,
694
- "loss": 1.8801,
695
  "step": 98
696
  },
697
  {
698
  "epoch": 0.2544987146529563,
699
  "grad_norm": 0.0,
700
  "learning_rate": 1.7485107481711014e-05,
701
- "loss": 1.8826,
702
  "step": 99
703
  },
704
  {
705
  "epoch": 0.2570694087403599,
706
  "grad_norm": 0.0,
707
  "learning_rate": 1.7429589315763637e-05,
708
- "loss": 1.9001,
709
  "step": 100
710
  },
711
  {
712
  "epoch": 0.2596401028277635,
713
  "grad_norm": 0.0,
714
  "learning_rate": 1.737355523340875e-05,
715
- "loss": 1.8711,
716
  "step": 101
717
  },
718
  {
719
  "epoch": 0.2622107969151671,
720
  "grad_norm": 0.0,
721
  "learning_rate": 1.7317009125696208e-05,
722
- "loss": 1.8989,
723
  "step": 102
724
  },
725
  {
726
  "epoch": 0.2647814910025707,
727
  "grad_norm": 0.0,
728
  "learning_rate": 1.725995491923131e-05,
729
- "loss": 1.8826,
730
  "step": 103
731
  },
732
  {
733
  "epoch": 0.26735218508997427,
734
  "grad_norm": 0.0,
735
  "learning_rate": 1.7202396575902118e-05,
736
- "loss": 1.8804,
737
  "step": 104
738
  },
739
  {
740
  "epoch": 0.2699228791773779,
741
  "grad_norm": 0.0,
742
  "learning_rate": 1.714433809260435e-05,
743
- "loss": 1.8787,
744
  "step": 105
745
  },
746
  {
747
  "epoch": 0.27249357326478146,
748
  "grad_norm": 0.0,
749
  "learning_rate": 1.7085783500963825e-05,
750
- "loss": 1.8604,
751
  "step": 106
752
  },
753
  {
754
  "epoch": 0.2750642673521851,
755
  "grad_norm": 0.0,
756
  "learning_rate": 1.702673686705651e-05,
757
- "loss": 1.9119,
758
  "step": 107
759
  },
760
  {
761
  "epoch": 0.2776349614395887,
762
  "grad_norm": 0.0,
763
  "learning_rate": 1.6967202291126174e-05,
764
- "loss": 1.8818,
765
  "step": 108
766
  },
767
  {
768
  "epoch": 0.2802056555269923,
769
  "grad_norm": 0.0,
770
  "learning_rate": 1.690718390729964e-05,
771
- "loss": 1.8855,
772
  "step": 109
773
  },
774
  {
775
  "epoch": 0.2827763496143959,
776
  "grad_norm": 0.0,
777
  "learning_rate": 1.684668588329973e-05,
778
- "loss": 1.8894,
779
  "step": 110
780
  },
781
  {
782
  "epoch": 0.2853470437017995,
783
  "grad_norm": 0.0,
784
  "learning_rate": 1.6785712420155864e-05,
785
- "loss": 1.8665,
786
  "step": 111
787
  },
788
  {
789
  "epoch": 0.2879177377892031,
790
  "grad_norm": 0.0,
791
  "learning_rate": 1.67242677519123e-05,
792
- "loss": 1.8787,
793
  "step": 112
794
  },
795
  {
796
  "epoch": 0.29048843187660667,
797
  "grad_norm": 0.0,
798
  "learning_rate": 1.6662356145334158e-05,
799
- "loss": 1.9333,
800
  "step": 113
801
  },
802
  {
803
  "epoch": 0.2930591259640103,
804
  "grad_norm": 0.0,
805
  "learning_rate": 1.6599981899611103e-05,
806
- "loss": 1.8982,
807
  "step": 114
808
  },
809
  {
810
  "epoch": 0.29562982005141386,
811
  "grad_norm": 0.0,
812
  "learning_rate": 1.653714934605883e-05,
813
- "loss": 1.8477,
814
  "step": 115
815
  },
816
  {
817
  "epoch": 0.2982005141388175,
818
  "grad_norm": 0.0,
819
  "learning_rate": 1.647386284781828e-05,
820
- "loss": 1.9375,
821
  "step": 116
822
  },
823
  {
824
  "epoch": 0.30077120822622105,
825
  "grad_norm": 0.0,
826
  "learning_rate": 1.6410126799552653e-05,
827
- "loss": 1.9243,
828
  "step": 117
829
  },
830
  {
831
  "epoch": 0.3033419023136247,
832
  "grad_norm": 0.0,
833
  "learning_rate": 1.6345945627142264e-05,
834
- "loss": 1.8838,
835
  "step": 118
836
  },
837
  {
838
  "epoch": 0.3059125964010283,
839
  "grad_norm": 0.0,
840
  "learning_rate": 1.628132378737718e-05,
841
- "loss": 1.8965,
842
  "step": 119
843
  },
844
  {
845
  "epoch": 0.30848329048843187,
846
  "grad_norm": 0.0,
847
  "learning_rate": 1.6216265767647756e-05,
848
- "loss": 1.8604,
849
  "step": 120
850
  },
851
  {
852
  "epoch": 0.3110539845758355,
853
  "grad_norm": 0.0,
854
  "learning_rate": 1.615077608563302e-05,
855
- "loss": 1.9048,
856
  "step": 121
857
  },
858
  {
859
  "epoch": 0.31362467866323906,
860
  "grad_norm": 0.0,
861
  "learning_rate": 1.6084859288986957e-05,
862
- "loss": 1.8276,
863
  "step": 122
864
  },
865
  {
866
  "epoch": 0.3161953727506427,
867
  "grad_norm": 0.0,
868
  "learning_rate": 1.601851995502272e-05,
869
- "loss": 1.8508,
870
  "step": 123
871
  },
872
  {
873
  "epoch": 0.31876606683804626,
874
  "grad_norm": 0.0,
875
  "learning_rate": 1.5951762690394788e-05,
876
- "loss": 1.8914,
877
  "step": 124
878
  },
879
  {
880
  "epoch": 0.3213367609254499,
881
  "grad_norm": 0.0,
882
  "learning_rate": 1.5884592130779056e-05,
883
- "loss": 1.886,
884
  "step": 125
885
  },
886
  {
887
  "epoch": 0.32390745501285345,
888
  "grad_norm": 0.0,
889
  "learning_rate": 1.581701294055095e-05,
890
- "loss": 1.8438,
891
  "step": 126
892
  },
893
  {
894
  "epoch": 0.3264781491002571,
895
  "grad_norm": 0.0,
896
  "learning_rate": 1.5749029812461515e-05,
897
- "loss": 1.8713,
898
  "step": 127
899
  },
900
  {
901
  "epoch": 0.32904884318766064,
902
  "grad_norm": 0.0,
903
  "learning_rate": 1.568064746731156e-05,
904
- "loss": 1.8267,
905
  "step": 128
906
  },
907
  {
908
  "epoch": 0.33161953727506427,
909
  "grad_norm": 0.0,
910
  "learning_rate": 1.5611870653623826e-05,
911
- "loss": 1.8286,
912
  "step": 129
913
  },
914
  {
915
  "epoch": 0.3341902313624679,
916
  "grad_norm": 0.0,
917
  "learning_rate": 1.5542704147313257e-05,
918
- "loss": 1.8799,
919
  "step": 130
920
  },
921
  {
922
  "epoch": 0.33676092544987146,
923
  "grad_norm": 0.0,
924
  "learning_rate": 1.5473152751355353e-05,
925
- "loss": 1.8506,
926
  "step": 131
927
  },
928
  {
929
  "epoch": 0.3393316195372751,
930
  "grad_norm": 0.0,
931
  "learning_rate": 1.5403221295452647e-05,
932
- "loss": 1.8909,
933
  "step": 132
934
  },
935
  {
936
  "epoch": 0.34190231362467866,
937
  "grad_norm": 0.0,
938
  "learning_rate": 1.5332914635699327e-05,
939
- "loss": 1.8462,
940
  "step": 133
941
  },
942
  {
943
  "epoch": 0.3444730077120823,
944
  "grad_norm": 0.0,
945
  "learning_rate": 1.5262237654244026e-05,
946
- "loss": 1.875,
947
  "step": 134
948
  },
949
  {
950
  "epoch": 0.34704370179948585,
951
  "grad_norm": 0.0,
952
  "learning_rate": 1.5191195258950804e-05,
953
- "loss": 1.8455,
954
  "step": 135
955
  },
956
  {
957
  "epoch": 0.3496143958868895,
958
  "grad_norm": 0.0,
959
  "learning_rate": 1.5119792383058338e-05,
960
- "loss": 1.8792,
961
  "step": 136
962
  },
963
  {
964
  "epoch": 0.35218508997429304,
965
  "grad_norm": 0.0,
966
  "learning_rate": 1.5048033984837352e-05,
967
- "loss": 1.8521,
968
  "step": 137
969
  },
970
  {
971
  "epoch": 0.35475578406169667,
972
  "grad_norm": 0.0,
973
  "learning_rate": 1.4975925047246319e-05,
974
- "loss": 1.8191,
975
  "step": 138
976
  },
977
  {
978
  "epoch": 0.35732647814910024,
979
  "grad_norm": 0.0,
980
  "learning_rate": 1.4903470577585433e-05,
981
- "loss": 1.8804,
982
  "step": 139
983
  },
984
  {
985
  "epoch": 0.35989717223650386,
986
  "grad_norm": 0.0,
987
  "learning_rate": 1.4830675607148899e-05,
988
- "loss": 1.8225,
989
  "step": 140
990
  },
991
  {
992
  "epoch": 0.36246786632390743,
993
  "grad_norm": 0.0,
994
  "learning_rate": 1.475754519087557e-05,
995
- "loss": 1.886,
996
  "step": 141
997
  },
998
  {
999
  "epoch": 0.36503856041131105,
1000
  "grad_norm": 0.0,
1001
  "learning_rate": 1.4684084406997903e-05,
1002
- "loss": 1.8618,
1003
  "step": 142
1004
  },
1005
  {
1006
  "epoch": 0.3676092544987147,
1007
  "grad_norm": 0.0,
1008
  "learning_rate": 1.4610298356689341e-05,
1009
- "loss": 1.8503,
1010
  "step": 143
1011
  },
1012
  {
1013
  "epoch": 0.37017994858611825,
1014
  "grad_norm": 0.0,
1015
  "learning_rate": 1.453619216371008e-05,
1016
- "loss": 1.8425,
1017
  "step": 144
1018
  },
1019
  {
1020
  "epoch": 0.37275064267352187,
1021
  "grad_norm": 0.0,
1022
  "learning_rate": 1.446177097405127e-05,
1023
- "loss": 1.8354,
1024
  "step": 145
1025
  },
1026
  {
1027
  "epoch": 0.37532133676092544,
1028
  "grad_norm": 0.0,
1029
  "learning_rate": 1.4387039955577668e-05,
1030
- "loss": 1.8665,
1031
  "step": 146
1032
  },
1033
  {
1034
  "epoch": 0.37789203084832906,
1035
  "grad_norm": 0.0,
1036
  "learning_rate": 1.4312004297668791e-05,
1037
- "loss": 1.8311,
1038
  "step": 147
1039
  },
1040
  {
1041
  "epoch": 0.38046272493573263,
1042
  "grad_norm": 0.0,
1043
  "learning_rate": 1.4236669210858544e-05,
1044
- "loss": 1.8352,
1045
  "step": 148
1046
  },
1047
  {
1048
  "epoch": 0.38303341902313626,
1049
  "grad_norm": 0.0,
1050
  "learning_rate": 1.4161039926473412e-05,
1051
- "loss": 1.8892,
1052
  "step": 149
1053
  },
1054
  {
1055
  "epoch": 0.3856041131105398,
1056
  "grad_norm": 0.0,
1057
  "learning_rate": 1.4085121696269185e-05,
1058
- "loss": 1.8235,
1059
  "step": 150
1060
  },
1061
  {
1062
  "epoch": 0.38817480719794345,
1063
  "grad_norm": 0.0,
1064
  "learning_rate": 1.4008919792066273e-05,
1065
- "loss": 1.8672,
1066
  "step": 151
1067
  },
1068
  {
1069
  "epoch": 0.390745501285347,
1070
  "grad_norm": 0.0,
1071
  "learning_rate": 1.3932439505383628e-05,
1072
- "loss": 1.8616,
1073
  "step": 152
1074
  },
1075
  {
1076
  "epoch": 0.39331619537275064,
1077
  "grad_norm": 0.0,
1078
  "learning_rate": 1.385568614707129e-05,
1079
- "loss": 1.8457,
1080
  "step": 153
1081
  },
1082
  {
1083
  "epoch": 0.39588688946015427,
1084
  "grad_norm": 0.0,
1085
  "learning_rate": 1.3778665046941616e-05,
1086
- "loss": 1.8782,
1087
  "step": 154
1088
  },
1089
  {
1090
  "epoch": 0.39845758354755784,
1091
  "grad_norm": 0.0,
1092
  "learning_rate": 1.3701381553399147e-05,
1093
- "loss": 1.8076,
1094
  "step": 155
1095
  },
1096
  {
1097
  "epoch": 0.40102827763496146,
1098
  "grad_norm": 0.0,
1099
  "learning_rate": 1.3623841033069232e-05,
1100
- "loss": 1.8855,
1101
  "step": 156
1102
  },
1103
  {
1104
  "epoch": 0.40359897172236503,
1105
  "grad_norm": 0.0,
1106
  "learning_rate": 1.3546048870425356e-05,
1107
- "loss": 1.8296,
1108
  "step": 157
1109
  },
1110
  {
1111
  "epoch": 0.40616966580976865,
1112
  "grad_norm": 0.0,
1113
  "learning_rate": 1.3468010467415248e-05,
1114
- "loss": 1.8604,
1115
  "step": 158
1116
  },
1117
  {
1118
  "epoch": 0.4087403598971722,
1119
  "grad_norm": 0.0,
1120
  "learning_rate": 1.3389731243085747e-05,
1121
- "loss": 1.8391,
1122
  "step": 159
1123
  },
1124
  {
1125
  "epoch": 0.41131105398457585,
1126
  "grad_norm": 0.0,
1127
  "learning_rate": 1.3311216633206514e-05,
1128
- "loss": 1.8032,
1129
  "step": 160
1130
  },
1131
  {
1132
  "epoch": 0.4138817480719794,
1133
  "grad_norm": 0.0,
1134
  "learning_rate": 1.3232472089892567e-05,
1135
- "loss": 1.8279,
1136
  "step": 161
1137
  },
1138
  {
1139
  "epoch": 0.41645244215938304,
1140
  "grad_norm": 0.0,
1141
  "learning_rate": 1.315350308122567e-05,
1142
- "loss": 1.8486,
1143
  "step": 162
1144
  },
1145
  {
1146
  "epoch": 0.4190231362467866,
1147
  "grad_norm": 0.0,
1148
  "learning_rate": 1.3074315090874652e-05,
1149
- "loss": 1.8074,
1150
  "step": 163
1151
  },
1152
  {
1153
  "epoch": 0.42159383033419023,
1154
  "grad_norm": 0.0,
1155
  "learning_rate": 1.2994913617714573e-05,
1156
- "loss": 1.8137,
1157
  "step": 164
1158
  },
1159
  {
1160
  "epoch": 0.4241645244215938,
1161
  "grad_norm": 0.0,
1162
  "learning_rate": 1.2915304175444929e-05,
1163
- "loss": 1.821,
1164
  "step": 165
1165
  },
1166
  {
1167
  "epoch": 0.4267352185089974,
1168
  "grad_norm": 0.0,
1169
  "learning_rate": 1.2835492292206735e-05,
1170
- "loss": 1.8518,
1171
  "step": 166
1172
  },
1173
  {
1174
  "epoch": 0.42930591259640105,
1175
  "grad_norm": 0.0,
1176
  "learning_rate": 1.2755483510198668e-05,
1177
- "loss": 1.8413,
1178
  "step": 167
1179
  },
1180
  {
1181
  "epoch": 0.4318766066838046,
1182
  "grad_norm": 0.0,
1183
  "learning_rate": 1.2675283385292212e-05,
1184
- "loss": 1.8313,
1185
  "step": 168
1186
  },
1187
  {
1188
  "epoch": 0.43444730077120824,
1189
  "grad_norm": 0.0,
1190
  "learning_rate": 1.2594897486645836e-05,
1191
- "loss": 1.8323,
1192
  "step": 169
1193
  },
1194
  {
1195
  "epoch": 0.4370179948586118,
1196
  "grad_norm": 0.0,
1197
  "learning_rate": 1.2514331396318298e-05,
1198
- "loss": 1.875,
1199
  "step": 170
1200
  },
1201
  {
1202
  "epoch": 0.43958868894601544,
1203
  "grad_norm": 0.0,
1204
  "learning_rate": 1.2433590708880991e-05,
1205
- "loss": 1.8723,
1206
  "step": 171
1207
  },
1208
  {
1209
  "epoch": 0.442159383033419,
1210
  "grad_norm": 0.0,
1211
  "learning_rate": 1.2352681031029476e-05,
1212
- "loss": 1.8088,
1213
  "step": 172
1214
  },
1215
  {
1216
  "epoch": 0.44473007712082263,
1217
  "grad_norm": 0.0,
1218
  "learning_rate": 1.2271607981194132e-05,
1219
- "loss": 1.8289,
1220
  "step": 173
1221
  },
1222
  {
1223
  "epoch": 0.4473007712082262,
1224
  "grad_norm": 0.0,
1225
  "learning_rate": 1.2190377189150016e-05,
1226
- "loss": 1.8198,
1227
  "step": 174
1228
  },
1229
  {
1230
  "epoch": 0.4498714652956298,
1231
  "grad_norm": 0.0,
1232
  "learning_rate": 1.2108994295625924e-05,
1233
- "loss": 1.8125,
1234
  "step": 175
1235
  },
1236
  {
1237
  "epoch": 0.4524421593830334,
1238
  "grad_norm": 0.0,
1239
  "learning_rate": 1.2027464951912703e-05,
1240
- "loss": 1.8081,
1241
  "step": 176
1242
  },
1243
  {
1244
  "epoch": 0.455012853470437,
1245
  "grad_norm": 0.0,
1246
  "learning_rate": 1.1945794819470805e-05,
1247
- "loss": 1.8499,
1248
  "step": 177
1249
  },
1250
  {
1251
  "epoch": 0.45758354755784064,
1252
  "grad_norm": 0.0,
1253
  "learning_rate": 1.1863989569537165e-05,
1254
- "loss": 1.8374,
1255
  "step": 178
1256
  },
1257
  {
1258
  "epoch": 0.4601542416452442,
1259
  "grad_norm": 0.0,
1260
  "learning_rate": 1.1782054882731377e-05,
1261
- "loss": 1.7527,
1262
  "step": 179
1263
  },
1264
  {
1265
  "epoch": 0.46272493573264784,
1266
  "grad_norm": 0.0,
1267
  "learning_rate": 1.1699996448661242e-05,
1268
- "loss": 1.8093,
1269
  "step": 180
1270
  },
1271
  {
1272
  "epoch": 0.4652956298200514,
1273
  "grad_norm": 0.0,
1274
  "learning_rate": 1.161781996552765e-05,
1275
- "loss": 1.7932,
1276
  "step": 181
1277
  },
1278
  {
1279
  "epoch": 0.46786632390745503,
1280
  "grad_norm": 0.0,
1281
  "learning_rate": 1.1535531139728918e-05,
1282
- "loss": 1.8459,
1283
  "step": 182
1284
  },
1285
  {
1286
  "epoch": 0.4704370179948586,
1287
  "grad_norm": 0.0,
1288
  "learning_rate": 1.1453135685464524e-05,
1289
- "loss": 1.825,
1290
  "step": 183
1291
  },
1292
  {
1293
  "epoch": 0.4730077120822622,
1294
  "grad_norm": 0.0,
1295
  "learning_rate": 1.1370639324338313e-05,
1296
- "loss": 1.8098,
1297
  "step": 184
1298
  },
1299
  {
1300
  "epoch": 0.4755784061696658,
1301
  "grad_norm": 0.0,
1302
  "learning_rate": 1.1288047784961166e-05,
1303
- "loss": 1.8311,
1304
  "step": 185
1305
  },
1306
  {
1307
  "epoch": 0.4781491002570694,
1308
  "grad_norm": 0.0,
1309
  "learning_rate": 1.1205366802553231e-05,
1310
- "loss": 1.8003,
1311
  "step": 186
1312
  },
1313
  {
1314
  "epoch": 0.480719794344473,
1315
  "grad_norm": 0.0,
1316
  "learning_rate": 1.1122602118545642e-05,
1317
- "loss": 1.8303,
1318
  "step": 187
1319
  },
1320
  {
1321
  "epoch": 0.4832904884318766,
1322
  "grad_norm": 0.0,
1323
  "learning_rate": 1.1039759480181836e-05,
1324
- "loss": 1.7998,
1325
  "step": 188
1326
  },
1327
  {
1328
  "epoch": 0.48586118251928023,
1329
  "grad_norm": 0.0,
1330
  "learning_rate": 1.0956844640118462e-05,
1331
- "loss": 1.8311,
1332
  "step": 189
1333
  },
1334
  {
1335
  "epoch": 0.4884318766066838,
1336
  "grad_norm": 0.0,
1337
  "learning_rate": 1.0873863356025911e-05,
1338
- "loss": 1.8081,
1339
  "step": 190
1340
  },
1341
  {
1342
  "epoch": 0.4910025706940874,
1343
  "grad_norm": 0.0,
1344
  "learning_rate": 1.0790821390188493e-05,
1345
- "loss": 1.8049,
1346
  "step": 191
1347
  },
1348
  {
1349
  "epoch": 0.493573264781491,
1350
  "grad_norm": 0.0,
1351
  "learning_rate": 1.0707724509104318e-05,
1352
- "loss": 1.8335,
1353
  "step": 192
1354
  },
1355
  {
1356
  "epoch": 0.4961439588688946,
1357
  "grad_norm": 0.0,
1358
  "learning_rate": 1.062457848308484e-05,
1359
- "loss": 1.7954,
1360
  "step": 193
1361
  },
1362
  {
1363
  "epoch": 0.4987146529562982,
1364
  "grad_norm": 0.0,
1365
  "learning_rate": 1.0541389085854177e-05,
1366
- "loss": 1.8423,
1367
  "step": 194
1368
  },
1369
  {
1370
  "epoch": 0.5012853470437018,
1371
  "grad_norm": 0.0,
1372
  "learning_rate": 1.0458162094148185e-05,
1373
- "loss": 1.78,
1374
  "step": 195
1375
  },
1376
  {
1377
  "epoch": 0.5038560411311054,
1378
  "grad_norm": 0.0,
1379
  "learning_rate": 1.0374903287313307e-05,
1380
- "loss": 1.8435,
1381
  "step": 196
1382
  },
1383
  {
1384
  "epoch": 0.506426735218509,
1385
  "grad_norm": 0.0,
1386
  "learning_rate": 1.029161844690525e-05,
1387
- "loss": 1.8088,
1388
  "step": 197
1389
  },
1390
  {
1391
  "epoch": 0.5089974293059126,
1392
  "grad_norm": 0.0,
1393
  "learning_rate": 1.0208313356287505e-05,
1394
- "loss": 1.801,
1395
  "step": 198
1396
  },
1397
  {
1398
  "epoch": 0.5115681233933161,
1399
  "grad_norm": 0.0,
1400
  "learning_rate": 1.0124993800229774e-05,
1401
- "loss": 1.7671,
1402
  "step": 199
1403
  },
1404
  {
1405
  "epoch": 0.5141388174807198,
1406
  "grad_norm": 0.0,
1407
  "learning_rate": 1.004166556450623e-05,
1408
- "loss": 1.8293,
1409
  "step": 200
1410
  },
1411
  {
1412
  "epoch": 0.5167095115681234,
1413
  "grad_norm": 0.0,
1414
  "learning_rate": 9.958334435493776e-06,
1415
- "loss": 1.8369,
1416
  "step": 201
1417
  },
1418
  {
1419
  "epoch": 0.519280205655527,
1420
  "grad_norm": 0.0,
1421
  "learning_rate": 9.87500619977023e-06,
1422
- "loss": 1.8367,
1423
  "step": 202
1424
  },
1425
  {
1426
  "epoch": 0.5218508997429306,
1427
  "grad_norm": 0.0,
1428
  "learning_rate": 9.791686643712498e-06,
1429
- "loss": 1.8303,
1430
  "step": 203
1431
  },
1432
  {
1433
  "epoch": 0.5244215938303342,
1434
  "grad_norm": 0.0,
1435
  "learning_rate": 9.708381553094754e-06,
1436
- "loss": 1.7856,
1437
  "step": 204
1438
  },
1439
  {
1440
  "epoch": 0.5269922879177378,
1441
  "grad_norm": 0.0,
1442
  "learning_rate": 9.625096712686694e-06,
1443
- "loss": 1.7639,
1444
  "step": 205
1445
  },
1446
  {
1447
  "epoch": 0.5295629820051414,
1448
  "grad_norm": 0.0,
1449
  "learning_rate": 9.541837905851817e-06,
1450
- "loss": 1.8237,
1451
  "step": 206
1452
  },
1453
  {
1454
  "epoch": 0.532133676092545,
1455
  "grad_norm": 0.0,
1456
  "learning_rate": 9.458610914145826e-06,
1457
- "loss": 1.7986,
1458
  "step": 207
1459
  },
1460
  {
1461
  "epoch": 0.5347043701799485,
1462
  "grad_norm": 0.0,
1463
  "learning_rate": 9.375421516915165e-06,
1464
- "loss": 1.8364,
1465
  "step": 208
1466
  },
1467
  {
1468
  "epoch": 0.5372750642673522,
1469
  "grad_norm": 0.0,
1470
  "learning_rate": 9.292275490895685e-06,
1471
- "loss": 1.8135,
1472
  "step": 209
1473
  },
1474
  {
1475
  "epoch": 0.5398457583547558,
1476
  "grad_norm": 0.0,
1477
  "learning_rate": 9.209178609811509e-06,
1478
- "loss": 1.7981,
1479
  "step": 210
1480
  },
1481
  {
1482
  "epoch": 0.5424164524421594,
1483
  "grad_norm": 0.0,
1484
  "learning_rate": 9.126136643974094e-06,
1485
- "loss": 1.8123,
1486
  "step": 211
1487
  },
1488
  {
1489
  "epoch": 0.5449871465295629,
1490
  "grad_norm": 0.0,
1491
  "learning_rate": 9.043155359881538e-06,
1492
- "loss": 1.7803,
1493
  "step": 212
1494
  },
1495
  {
1496
  "epoch": 0.5475578406169666,
1497
  "grad_norm": 0.0,
1498
  "learning_rate": 8.960240519818167e-06,
1499
- "loss": 1.8306,
1500
  "step": 213
1501
  },
1502
  {
1503
  "epoch": 0.5501285347043702,
1504
  "grad_norm": 0.0,
1505
  "learning_rate": 8.877397881454358e-06,
1506
- "loss": 1.8044,
1507
  "step": 214
1508
  },
1509
  {
1510
  "epoch": 0.5526992287917738,
1511
  "grad_norm": 0.0,
1512
  "learning_rate": 8.79463319744677e-06,
1513
- "loss": 1.7886,
1514
  "step": 215
1515
  },
1516
  {
1517
  "epoch": 0.5552699228791774,
1518
  "grad_norm": 0.0,
1519
  "learning_rate": 8.711952215038837e-06,
1520
- "loss": 1.7942,
1521
  "step": 216
1522
  },
1523
  {
1524
  "epoch": 0.5578406169665809,
1525
  "grad_norm": 0.0,
1526
  "learning_rate": 8.629360675661693e-06,
1527
- "loss": 1.7771,
1528
  "step": 217
1529
  },
1530
  {
1531
  "epoch": 0.5604113110539846,
1532
  "grad_norm": 0.0,
1533
  "learning_rate": 8.546864314535478e-06,
1534
- "loss": 1.8154,
1535
  "step": 218
1536
  },
1537
  {
1538
  "epoch": 0.5629820051413882,
1539
  "grad_norm": 0.0,
1540
  "learning_rate": 8.464468860271084e-06,
1541
- "loss": 1.7681,
1542
  "step": 219
1543
  },
1544
  {
1545
  "epoch": 0.5655526992287918,
1546
  "grad_norm": 0.0,
1547
  "learning_rate": 8.382180034472353e-06,
1548
- "loss": 1.7778,
1549
  "step": 220
1550
  },
1551
  {
1552
  "epoch": 0.5681233933161953,
1553
  "grad_norm": 0.0,
1554
  "learning_rate": 8.30000355133876e-06,
1555
- "loss": 1.7732,
1556
  "step": 221
1557
  },
1558
  {
1559
  "epoch": 0.570694087403599,
1560
  "grad_norm": 0.0,
1561
  "learning_rate": 8.217945117268624e-06,
1562
- "loss": 1.7991,
1563
  "step": 222
1564
  },
1565
  {
1566
  "epoch": 0.5732647814910026,
1567
  "grad_norm": 0.0,
1568
  "learning_rate": 8.136010430462837e-06,
1569
- "loss": 1.803,
1570
  "step": 223
1571
  },
1572
  {
1573
  "epoch": 0.5758354755784062,
1574
  "grad_norm": 0.0,
1575
  "learning_rate": 8.0542051805292e-06,
1576
- "loss": 1.8159,
1577
  "step": 224
1578
  },
1579
  {
1580
  "epoch": 0.5784061696658098,
1581
  "grad_norm": 0.0,
1582
  "learning_rate": 7.9725350480873e-06,
1583
- "loss": 1.7917,
1584
  "step": 225
1585
  },
1586
  {
1587
  "epoch": 0.5809768637532133,
1588
  "grad_norm": 0.0,
1589
  "learning_rate": 7.89100570437408e-06,
1590
- "loss": 1.835,
1591
  "step": 226
1592
  },
1593
  {
1594
  "epoch": 0.583547557840617,
1595
  "grad_norm": 0.0,
1596
  "learning_rate": 7.809622810849986e-06,
1597
- "loss": 1.7854,
1598
  "step": 227
1599
  },
1600
  {
1601
  "epoch": 0.5861182519280206,
1602
  "grad_norm": 0.0,
1603
  "learning_rate": 7.72839201880587e-06,
1604
- "loss": 1.7812,
1605
  "step": 228
1606
  },
1607
  {
1608
  "epoch": 0.5886889460154242,
1609
  "grad_norm": 0.0,
1610
  "learning_rate": 7.647318968970528e-06,
1611
- "loss": 1.7881,
1612
  "step": 229
1613
  },
1614
  {
1615
  "epoch": 0.5912596401028277,
1616
  "grad_norm": 0.0,
1617
  "learning_rate": 7.566409291119008e-06,
1618
- "loss": 1.8191,
1619
  "step": 230
1620
  },
1621
  {
1622
  "epoch": 0.5938303341902313,
1623
  "grad_norm": 0.0,
1624
  "learning_rate": 7.485668603681706e-06,
1625
- "loss": 1.8018,
1626
  "step": 231
1627
  },
1628
  {
1629
  "epoch": 0.596401028277635,
1630
  "grad_norm": 0.0,
1631
  "learning_rate": 7.405102513354166e-06,
1632
- "loss": 1.7805,
1633
  "step": 232
1634
  },
1635
  {
1636
  "epoch": 0.5989717223650386,
1637
  "grad_norm": 0.0,
1638
  "learning_rate": 7.324716614707794e-06,
1639
- "loss": 1.7671,
1640
  "step": 233
1641
  },
1642
  {
1643
  "epoch": 0.6015424164524421,
1644
  "grad_norm": 0.0,
1645
  "learning_rate": 7.2445164898013345e-06,
1646
- "loss": 1.7749,
1647
  "step": 234
1648
  },
1649
  {
1650
  "epoch": 0.6041131105398457,
1651
  "grad_norm": 0.0,
1652
  "learning_rate": 7.1645077077932666e-06,
1653
- "loss": 1.7549,
1654
  "step": 235
1655
  },
1656
  {
1657
  "epoch": 0.6066838046272494,
1658
  "grad_norm": 0.0,
1659
  "learning_rate": 7.084695824555074e-06,
1660
- "loss": 1.8132,
1661
  "step": 236
1662
  },
1663
  {
1664
  "epoch": 0.609254498714653,
1665
  "grad_norm": 0.0,
1666
  "learning_rate": 7.005086382285426e-06,
1667
- "loss": 1.7983,
1668
  "step": 237
1669
  },
1670
  {
1671
  "epoch": 0.6118251928020566,
1672
  "grad_norm": 0.0,
1673
  "learning_rate": 6.925684909125354e-06,
1674
- "loss": 1.7898,
1675
  "step": 238
1676
  },
1677
  {
1678
  "epoch": 0.6143958868894601,
1679
  "grad_norm": 0.0,
1680
  "learning_rate": 6.84649691877433e-06,
1681
- "loss": 1.7876,
1682
  "step": 239
1683
  },
1684
  {
1685
  "epoch": 0.6169665809768637,
1686
  "grad_norm": 0.0,
1687
  "learning_rate": 6.767527910107437e-06,
1688
- "loss": 1.7461,
1689
  "step": 240
1690
  },
1691
  {
1692
  "epoch": 0.6195372750642674,
1693
  "grad_norm": 0.0,
1694
  "learning_rate": 6.688783366793488e-06,
1695
- "loss": 1.7576,
1696
  "step": 241
1697
  },
1698
  {
1699
  "epoch": 0.622107969151671,
1700
  "grad_norm": 0.0,
1701
  "learning_rate": 6.610268756914254e-06,
1702
- "loss": 1.8093,
1703
  "step": 242
1704
  },
1705
  {
1706
  "epoch": 0.6246786632390745,
1707
  "grad_norm": 0.0,
1708
  "learning_rate": 6.5319895325847535e-06,
1709
- "loss": 1.7578,
1710
  "step": 243
1711
  },
1712
  {
1713
  "epoch": 0.6272493573264781,
1714
  "grad_norm": 0.0,
1715
  "learning_rate": 6.453951129574644e-06,
1716
- "loss": 1.7681,
1717
  "step": 244
1718
  },
1719
  {
1720
  "epoch": 0.6298200514138818,
1721
  "grad_norm": 0.0,
1722
  "learning_rate": 6.3761589669307745e-06,
1723
- "loss": 1.7637,
1724
  "step": 245
1725
  },
1726
  {
1727
  "epoch": 0.6323907455012854,
1728
  "grad_norm": 0.0,
1729
  "learning_rate": 6.298618446600856e-06,
1730
- "loss": 1.7715,
1731
  "step": 246
1732
  },
1733
  {
1734
  "epoch": 0.6349614395886889,
1735
  "grad_norm": 0.0,
1736
  "learning_rate": 6.221334953058389e-06,
1737
- "loss": 1.7727,
1738
  "step": 247
1739
  },
1740
  {
1741
  "epoch": 0.6375321336760925,
1742
  "grad_norm": 0.0,
1743
  "learning_rate": 6.144313852928712e-06,
1744
- "loss": 1.7708,
1745
  "step": 248
1746
  },
1747
  {
1748
  "epoch": 0.6401028277634961,
1749
  "grad_norm": 0.0,
1750
  "learning_rate": 6.067560494616374e-06,
1751
- "loss": 1.7678,
1752
  "step": 249
1753
  },
1754
  {
1755
  "epoch": 0.6426735218508998,
1756
  "grad_norm": 0.0,
1757
  "learning_rate": 5.9910802079337285e-06,
1758
- "loss": 1.7573,
1759
  "step": 250
1760
  },
1761
  {
1762
  "epoch": 0.6452442159383034,
1763
  "grad_norm": 0.0,
1764
  "learning_rate": 5.9148783037308154e-06,
1765
- "loss": 1.772,
1766
  "step": 251
1767
  },
1768
  {
1769
  "epoch": 0.6478149100257069,
1770
  "grad_norm": 0.0,
1771
  "learning_rate": 5.838960073526589e-06,
1772
- "loss": 1.7693,
1773
  "step": 252
1774
  },
1775
  {
1776
  "epoch": 0.6503856041131105,
1777
  "grad_norm": 0.0,
1778
  "learning_rate": 5.763330789141457e-06,
1779
- "loss": 1.793,
1780
  "step": 253
1781
  },
1782
  {
1783
  "epoch": 0.6529562982005142,
1784
  "grad_norm": 0.0,
1785
  "learning_rate": 5.687995702331211e-06,
1786
- "loss": 1.7578,
1787
  "step": 254
1788
  },
1789
  {
1790
  "epoch": 0.6555269922879178,
1791
  "grad_norm": 0.0,
1792
  "learning_rate": 5.612960044422335e-06,
1793
- "loss": 1.8093,
1794
  "step": 255
1795
  },
1796
  {
1797
  "epoch": 0.6580976863753213,
1798
  "grad_norm": 0.0,
1799
  "learning_rate": 5.538229025948729e-06,
1800
- "loss": 1.7776,
1801
  "step": 256
1802
  },
1803
  {
1804
  "epoch": 0.6606683804627249,
1805
  "grad_norm": 0.0,
1806
  "learning_rate": 5.463807836289921e-06,
1807
- "loss": 1.7532,
1808
  "step": 257
1809
  },
1810
  {
1811
  "epoch": 0.6632390745501285,
1812
  "grad_norm": 0.0,
1813
  "learning_rate": 5.389701643310661e-06,
1814
- "loss": 1.7214,
1815
  "step": 258
1816
  },
1817
  {
1818
  "epoch": 0.6658097686375322,
1819
  "grad_norm": 0.0,
1820
  "learning_rate": 5.3159155930021e-06,
1821
- "loss": 1.7656,
1822
  "step": 259
1823
  },
1824
  {
1825
  "epoch": 0.6683804627249358,
1826
  "grad_norm": 0.0,
1827
  "learning_rate": 5.2424548091244334e-06,
1828
- "loss": 1.821,
1829
  "step": 260
1830
  },
1831
  {
1832
  "epoch": 0.6709511568123393,
1833
  "grad_norm": 0.0,
1834
  "learning_rate": 5.169324392851105e-06,
1835
- "loss": 1.7783,
1836
  "step": 261
1837
  },
1838
  {
1839
  "epoch": 0.6735218508997429,
1840
  "grad_norm": 0.0,
1841
  "learning_rate": 5.096529422414571e-06,
1842
- "loss": 1.7766,
1843
  "step": 262
1844
  },
1845
  {
1846
  "epoch": 0.6760925449871465,
1847
  "grad_norm": 0.0,
1848
  "learning_rate": 5.0240749527536845e-06,
1849
- "loss": 1.752,
1850
  "step": 263
1851
  },
1852
  {
1853
  "epoch": 0.6786632390745502,
1854
  "grad_norm": 0.0,
1855
  "learning_rate": 4.951966015162652e-06,
1856
- "loss": 1.7722,
1857
  "step": 264
1858
  },
1859
  {
1860
  "epoch": 0.6812339331619537,
1861
  "grad_norm": 0.0,
1862
  "learning_rate": 4.880207616941663e-06,
1863
- "loss": 1.7537,
1864
  "step": 265
1865
  },
1866
  {
1867
  "epoch": 0.6838046272493573,
1868
  "grad_norm": 0.0,
1869
  "learning_rate": 4.8088047410492e-06,
1870
- "loss": 1.793,
1871
  "step": 266
1872
  },
1873
  {
1874
  "epoch": 0.6863753213367609,
1875
  "grad_norm": 0.0,
1876
  "learning_rate": 4.737762345755975e-06,
1877
- "loss": 1.7009,
1878
  "step": 267
1879
  },
1880
  {
1881
  "epoch": 0.6889460154241646,
1882
  "grad_norm": 0.0,
1883
  "learning_rate": 4.667085364300678e-06,
1884
- "loss": 1.8516,
1885
  "step": 268
1886
  },
1887
  {
1888
  "epoch": 0.6915167095115681,
1889
  "grad_norm": 0.0,
1890
  "learning_rate": 4.596778704547359e-06,
1891
- "loss": 1.7654,
1892
  "step": 269
1893
  },
1894
  {
1895
  "epoch": 0.6940874035989717,
1896
  "grad_norm": 0.0,
1897
  "learning_rate": 4.526847248644652e-06,
1898
- "loss": 1.7422,
1899
  "step": 270
1900
  },
1901
  {
1902
  "epoch": 0.6966580976863753,
1903
  "grad_norm": 0.0,
1904
  "learning_rate": 4.457295852686746e-06,
1905
- "loss": 1.7776,
1906
  "step": 271
1907
  },
1908
  {
1909
  "epoch": 0.699228791773779,
1910
  "grad_norm": 0.0,
1911
  "learning_rate": 4.388129346376177e-06,
1912
- "loss": 1.7827,
1913
  "step": 272
1914
  },
1915
  {
1916
  "epoch": 0.7017994858611826,
1917
  "grad_norm": 0.0,
1918
  "learning_rate": 4.319352532688444e-06,
1919
- "loss": 1.8108,
1920
  "step": 273
1921
  },
1922
  {
1923
  "epoch": 0.7043701799485861,
1924
  "grad_norm": 0.0,
1925
  "learning_rate": 4.250970187538484e-06,
1926
- "loss": 1.7329,
1927
  "step": 274
1928
  },
1929
  {
1930
  "epoch": 0.7069408740359897,
1931
  "grad_norm": 0.0,
1932
  "learning_rate": 4.182987059449056e-06,
1933
- "loss": 1.7786,
1934
  "step": 275
1935
  },
1936
  {
1937
  "epoch": 0.7095115681233933,
1938
  "grad_norm": 0.0,
1939
  "learning_rate": 4.115407869220948e-06,
1940
- "loss": 1.7373,
1941
  "step": 276
1942
  },
1943
  {
1944
  "epoch": 0.712082262210797,
1945
  "grad_norm": 0.0,
1946
  "learning_rate": 4.048237309605216e-06,
1947
- "loss": 1.7786,
1948
  "step": 277
1949
  },
1950
  {
1951
  "epoch": 0.7146529562982005,
1952
  "grad_norm": 0.0,
1953
  "learning_rate": 3.981480044977284e-06,
1954
- "loss": 1.7927,
1955
  "step": 278
1956
  },
1957
  {
1958
  "epoch": 0.7172236503856041,
1959
  "grad_norm": 0.0,
1960
  "learning_rate": 3.915140711013044e-06,
1961
- "loss": 1.7266,
1962
  "step": 279
1963
  },
1964
  {
1965
  "epoch": 0.7197943444730077,
1966
  "grad_norm": 0.0,
1967
  "learning_rate": 3.849223914366981e-06,
1968
- "loss": 1.7888,
1969
  "step": 280
1970
  },
1971
  {
1972
  "epoch": 0.7223650385604113,
1973
  "grad_norm": 0.0,
1974
  "learning_rate": 3.7837342323522454e-06,
1975
- "loss": 1.7871,
1976
  "step": 281
1977
  },
1978
  {
1979
  "epoch": 0.7249357326478149,
1980
  "grad_norm": 0.0,
1981
  "learning_rate": 3.7186762126228227e-06,
1982
- "loss": 1.8208,
1983
  "step": 282
1984
  },
1985
  {
1986
  "epoch": 0.7275064267352185,
1987
  "grad_norm": 0.0,
1988
  "learning_rate": 3.654054372857738e-06,
1989
- "loss": 1.7507,
1990
  "step": 283
1991
  },
1992
  {
1993
  "epoch": 0.7300771208226221,
1994
  "grad_norm": 0.0,
1995
  "learning_rate": 3.5898732004473523e-06,
1996
- "loss": 1.7834,
1997
  "step": 284
1998
  },
1999
  {
2000
  "epoch": 0.7326478149100257,
2001
  "grad_norm": 0.0,
2002
  "learning_rate": 3.5261371521817247e-06,
2003
- "loss": 1.7483,
2004
  "step": 285
2005
  },
2006
  {
2007
  "epoch": 0.7352185089974294,
2008
  "grad_norm": 0.0,
2009
  "learning_rate": 3.462850653941171e-06,
2010
- "loss": 1.7434,
2011
  "step": 286
2012
  },
2013
  {
2014
  "epoch": 0.7377892030848329,
2015
  "grad_norm": 0.0,
2016
  "learning_rate": 3.4000181003889e-06,
2017
- "loss": 1.72,
2018
  "step": 287
2019
  },
2020
  {
2021
  "epoch": 0.7403598971722365,
2022
  "grad_norm": 0.0,
2023
  "learning_rate": 3.337643854665843e-06,
2024
- "loss": 1.73,
2025
  "step": 288
2026
  },
2027
  {
2028
  "epoch": 0.7429305912596401,
2029
  "grad_norm": 0.0,
2030
  "learning_rate": 3.2757322480876996e-06,
2031
- "loss": 1.7319,
2032
  "step": 289
2033
  },
2034
  {
2035
  "epoch": 0.7455012853470437,
2036
  "grad_norm": 0.0,
2037
  "learning_rate": 3.2142875798441376e-06,
2038
- "loss": 1.7209,
2039
  "step": 290
2040
  },
2041
  {
2042
  "epoch": 0.7480719794344473,
2043
  "grad_norm": 0.0,
2044
  "learning_rate": 3.15331411670027e-06,
2045
- "loss": 1.7634,
2046
  "step": 291
2047
  },
2048
  {
2049
  "epoch": 0.7506426735218509,
2050
  "grad_norm": 0.0,
2051
  "learning_rate": 3.092816092700366e-06,
2052
- "loss": 1.7368,
2053
  "step": 292
2054
  },
2055
  {
2056
  "epoch": 0.7532133676092545,
2057
  "grad_norm": 0.0,
2058
  "learning_rate": 3.032797708873828e-06,
2059
- "loss": 1.7822,
2060
  "step": 293
2061
  },
2062
  {
2063
  "epoch": 0.7557840616966581,
2064
  "grad_norm": 0.0,
2065
  "learning_rate": 2.97326313294349e-06,
2066
- "loss": 1.7346,
2067
  "step": 294
2068
  },
2069
  {
2070
  "epoch": 0.7583547557840618,
2071
  "grad_norm": 0.0,
2072
  "learning_rate": 2.914216499036178e-06,
2073
- "loss": 1.7529,
2074
  "step": 295
2075
  },
2076
  {
2077
  "epoch": 0.7609254498714653,
2078
  "grad_norm": 0.0,
2079
  "learning_rate": 2.855661907395655e-06,
2080
- "loss": 1.7607,
2081
  "step": 296
2082
  },
2083
  {
2084
  "epoch": 0.7634961439588689,
2085
  "grad_norm": 0.0,
2086
  "learning_rate": 2.7976034240978834e-06,
2087
- "loss": 1.7273,
2088
  "step": 297
2089
  },
2090
  {
2091
  "epoch": 0.7660668380462725,
2092
  "grad_norm": 0.0,
2093
  "learning_rate": 2.740045080768694e-06,
2094
- "loss": 1.7053,
2095
  "step": 298
2096
  },
2097
  {
2098
  "epoch": 0.7686375321336761,
2099
  "grad_norm": 0.0,
2100
  "learning_rate": 2.6829908743037936e-06,
2101
- "loss": 1.761,
2102
  "step": 299
2103
  },
2104
  {
2105
  "epoch": 0.7712082262210797,
2106
  "grad_norm": 0.0,
2107
  "learning_rate": 2.626444766591253e-06,
2108
- "loss": 1.7197,
2109
  "step": 300
2110
  },
2111
  {
2112
  "epoch": 0.7737789203084833,
2113
  "grad_norm": 0.0,
2114
  "learning_rate": 2.570410684236365e-06,
2115
- "loss": 1.76,
2116
  "step": 301
2117
  },
2118
  {
2119
  "epoch": 0.7763496143958869,
2120
  "grad_norm": 0.0,
2121
  "learning_rate": 2.514892518288988e-06,
2122
- "loss": 1.78,
2123
  "step": 302
2124
  },
2125
  {
2126
  "epoch": 0.7789203084832905,
2127
  "grad_norm": 0.0,
2128
  "learning_rate": 2.4598941239733555e-06,
2129
- "loss": 1.7058,
2130
  "step": 303
2131
  },
2132
  {
2133
  "epoch": 0.781491002570694,
2134
  "grad_norm": 0.0,
2135
  "learning_rate": 2.4054193204203457e-06,
2136
- "loss": 1.7507,
2137
  "step": 304
2138
  },
2139
  {
2140
  "epoch": 0.7840616966580977,
2141
  "grad_norm": 0.0,
2142
  "learning_rate": 2.3514718904022993e-06,
2143
- "loss": 1.7029,
2144
  "step": 305
2145
  },
2146
  {
2147
  "epoch": 0.7866323907455013,
2148
  "grad_norm": 0.0,
2149
  "learning_rate": 2.2980555800703273e-06,
2150
- "loss": 1.7617,
2151
  "step": 306
2152
  },
2153
  {
2154
  "epoch": 0.7892030848329049,
2155
  "grad_norm": 0.0,
2156
  "learning_rate": 2.2451740986941905e-06,
2157
- "loss": 1.7441,
2158
  "step": 307
2159
  },
2160
  {
2161
  "epoch": 0.7917737789203085,
2162
  "grad_norm": 0.0,
2163
  "learning_rate": 2.1928311184046967e-06,
2164
- "loss": 1.7832,
2165
  "step": 308
2166
  },
2167
  {
2168
  "epoch": 0.794344473007712,
2169
  "grad_norm": 0.0,
2170
  "learning_rate": 2.1410302739387424e-06,
2171
- "loss": 1.7534,
2172
  "step": 309
2173
  },
2174
  {
2175
  "epoch": 0.7969151670951157,
2176
  "grad_norm": 0.0,
2177
  "learning_rate": 2.0897751623868833e-06,
2178
- "loss": 1.7761,
2179
  "step": 310
2180
  },
2181
  {
2182
  "epoch": 0.7994858611825193,
2183
  "grad_norm": 0.0,
2184
  "learning_rate": 2.0390693429435626e-06,
2185
- "loss": 1.7246,
2186
  "step": 311
2187
  },
2188
  {
2189
  "epoch": 0.8020565552699229,
2190
  "grad_norm": 0.0,
2191
  "learning_rate": 1.9889163366599607e-06,
2192
- "loss": 1.7534,
2193
  "step": 312
2194
  },
2195
  {
2196
  "epoch": 0.8046272493573264,
2197
  "grad_norm": 0.0,
2198
  "learning_rate": 1.939319626199483e-06,
2199
- "loss": 1.7456,
2200
  "step": 313
2201
  },
2202
  {
2203
  "epoch": 0.8071979434447301,
2204
  "grad_norm": 0.0,
2205
  "learning_rate": 1.890282655595922e-06,
2206
- "loss": 1.7241,
2207
  "step": 314
2208
  },
2209
  {
2210
  "epoch": 0.8097686375321337,
2211
  "grad_norm": 0.0,
2212
  "learning_rate": 1.8418088300143044e-06,
2213
- "loss": 1.7524,
2214
  "step": 315
2215
  },
2216
  {
2217
  "epoch": 0.8123393316195373,
2218
  "grad_norm": 0.0,
2219
  "learning_rate": 1.7939015155144378e-06,
2220
- "loss": 1.7383,
2221
  "step": 316
2222
  },
2223
  {
2224
  "epoch": 0.8149100257069408,
2225
  "grad_norm": 0.0,
2226
  "learning_rate": 1.7465640388171589e-06,
2227
- "loss": 1.7666,
2228
  "step": 317
2229
  },
2230
  {
2231
  "epoch": 0.8174807197943444,
2232
  "grad_norm": 0.0,
2233
  "learning_rate": 1.6997996870733268e-06,
2234
- "loss": 1.7483,
2235
  "step": 318
2236
  },
2237
  {
2238
  "epoch": 0.8200514138817481,
2239
  "grad_norm": 0.0,
2240
  "learning_rate": 1.6536117076355652e-06,
2241
- "loss": 1.7263,
2242
  "step": 319
2243
  },
2244
  {
2245
  "epoch": 0.8226221079691517,
2246
  "grad_norm": 0.0,
2247
  "learning_rate": 1.6080033078327585e-06,
2248
- "loss": 1.8132,
2249
  "step": 320
2250
  },
2251
  {
2252
  "epoch": 0.8251928020565553,
2253
  "grad_norm": 0.0,
2254
  "learning_rate": 1.5629776547473397e-06,
2255
- "loss": 1.76,
2256
  "step": 321
2257
  },
2258
  {
2259
  "epoch": 0.8277634961439588,
2260
  "grad_norm": 0.0,
2261
  "learning_rate": 1.5185378749953538e-06,
2262
- "loss": 1.7263,
2263
  "step": 322
2264
  },
2265
  {
2266
  "epoch": 0.8303341902313625,
2267
  "grad_norm": 0.0,
2268
  "learning_rate": 1.4746870545093528e-06,
2269
- "loss": 1.7256,
2270
  "step": 323
2271
  },
2272
  {
2273
  "epoch": 0.8329048843187661,
2274
  "grad_norm": 0.0,
2275
  "learning_rate": 1.4314282383241097e-06,
2276
- "loss": 1.7561,
2277
  "step": 324
2278
  },
2279
  {
2280
  "epoch": 0.8354755784061697,
2281
  "grad_norm": 0.0,
2282
  "learning_rate": 1.388764430365147e-06,
2283
- "loss": 1.7231,
2284
  "step": 325
2285
  },
2286
  {
2287
  "epoch": 0.8380462724935732,
2288
  "grad_norm": 0.0,
2289
  "learning_rate": 1.3466985932401743e-06,
2290
- "loss": 1.7551,
2291
  "step": 326
2292
  },
2293
  {
2294
  "epoch": 0.8406169665809768,
2295
  "grad_norm": 0.0,
2296
  "learning_rate": 1.3052336480333372e-06,
2297
- "loss": 1.7615,
2298
  "step": 327
2299
  },
2300
  {
2301
  "epoch": 0.8431876606683805,
2302
  "grad_norm": 0.0,
2303
  "learning_rate": 1.2643724741023845e-06,
2304
- "loss": 1.7402,
2305
  "step": 328
2306
  },
2307
  {
2308
  "epoch": 0.8457583547557841,
2309
  "grad_norm": 0.0,
2310
  "learning_rate": 1.2241179088787192e-06,
2311
- "loss": 1.7356,
2312
  "step": 329
2313
  },
2314
  {
2315
  "epoch": 0.8483290488431876,
2316
  "grad_norm": 0.0,
2317
  "learning_rate": 1.1844727476703776e-06,
2318
- "loss": 1.7393,
2319
  "step": 330
2320
  },
2321
  {
2322
  "epoch": 0.8508997429305912,
2323
  "grad_norm": 0.0,
2324
  "learning_rate": 1.1454397434679022e-06,
2325
- "loss": 1.7188,
2326
  "step": 331
2327
  },
2328
  {
2329
  "epoch": 0.8534704370179949,
2330
  "grad_norm": 0.0,
2331
  "learning_rate": 1.1070216067531825e-06,
2332
- "loss": 1.7683,
2333
  "step": 332
2334
  },
2335
  {
2336
  "epoch": 0.8560411311053985,
2337
  "grad_norm": 0.0,
2338
  "learning_rate": 1.0692210053112451e-06,
2339
- "loss": 1.7888,
2340
  "step": 333
2341
  },
2342
  {
2343
  "epoch": 0.8586118251928021,
2344
  "grad_norm": 0.0,
2345
  "learning_rate": 1.032040564044975e-06,
2346
- "loss": 1.762,
2347
  "step": 334
2348
  },
2349
  {
2350
  "epoch": 0.8611825192802056,
2351
  "grad_norm": 0.0,
2352
  "learning_rate": 9.954828647928727e-07,
2353
- "loss": 1.7117,
2354
  "step": 335
2355
  },
2356
  {
2357
  "epoch": 0.8637532133676092,
2358
  "grad_norm": 0.0,
2359
  "learning_rate": 9.595504461497441e-07,
2360
- "loss": 1.74,
2361
  "step": 336
2362
  },
2363
  {
2364
  "epoch": 0.8663239074550129,
2365
  "grad_norm": 0.0,
2366
  "learning_rate": 9.242458032904311e-07,
2367
- "loss": 1.7288,
2368
  "step": 337
2369
  },
2370
  {
2371
  "epoch": 0.8688946015424165,
2372
  "grad_norm": 0.0,
2373
  "learning_rate": 8.895713877965373e-07,
2374
- "loss": 1.78,
2375
  "step": 338
2376
  },
2377
  {
2378
  "epoch": 0.87146529562982,
2379
  "grad_norm": 0.0,
2380
  "learning_rate": 8.555296074861996e-07,
2381
- "loss": 1.7195,
2382
  "step": 339
2383
  },
2384
  {
2385
  "epoch": 0.8740359897172236,
2386
  "grad_norm": 0.0,
2387
  "learning_rate": 8.22122826246875e-07,
2388
- "loss": 1.8,
2389
  "step": 340
2390
  },
2391
  {
2392
  "epoch": 0.8766066838046273,
2393
  "grad_norm": 0.0,
2394
  "learning_rate": 7.89353363871197e-07,
2395
- "loss": 1.7529,
2396
  "step": 341
2397
  },
2398
  {
2399
  "epoch": 0.8791773778920309,
2400
  "grad_norm": 0.0,
2401
  "learning_rate": 7.572234958958846e-07,
2402
- "loss": 1.7634,
2403
  "step": 342
2404
  },
2405
  {
2406
  "epoch": 0.8817480719794345,
2407
  "grad_norm": 0.0,
2408
  "learning_rate": 7.2573545344373e-07,
2409
- "loss": 1.7131,
2410
  "step": 343
2411
  },
2412
  {
2413
  "epoch": 0.884318766066838,
2414
  "grad_norm": 0.0,
2415
  "learning_rate": 6.948914230686688e-07,
2416
- "loss": 1.7812,
2417
  "step": 344
2418
  },
2419
  {
2420
  "epoch": 0.8868894601542416,
2421
  "grad_norm": 0.0,
2422
  "learning_rate": 6.646935466039373e-07,
2423
- "loss": 1.7573,
2424
  "step": 345
2425
  },
2426
  {
2427
  "epoch": 0.8894601542416453,
2428
  "grad_norm": 0.0,
2429
  "learning_rate": 6.351439210133492e-07,
2430
- "loss": 1.7544,
2431
  "step": 346
2432
  },
2433
  {
2434
  "epoch": 0.8920308483290489,
2435
  "grad_norm": 0.0,
2436
  "learning_rate": 6.062445982456777e-07,
2437
- "loss": 1.7061,
2438
  "step": 347
2439
  },
2440
  {
2441
  "epoch": 0.8946015424164524,
2442
  "grad_norm": 0.0,
2443
  "learning_rate": 5.77997585092166e-07,
2444
- "loss": 1.7654,
2445
  "step": 348
2446
  },
2447
  {
2448
  "epoch": 0.897172236503856,
2449
  "grad_norm": 0.0,
2450
  "learning_rate": 5.504048430471753e-07,
2451
- "loss": 1.7126,
2452
  "step": 349
2453
  },
2454
  {
2455
  "epoch": 0.8997429305912596,
2456
  "grad_norm": 0.0,
2457
  "learning_rate": 5.234682881719766e-07,
2458
- "loss": 1.7712,
2459
  "step": 350
2460
  },
2461
  {
2462
  "epoch": 0.9023136246786633,
2463
  "grad_norm": 0.0,
2464
  "learning_rate": 4.971897909616985e-07,
2465
- "loss": 1.7354,
2466
  "step": 351
2467
  },
2468
  {
2469
  "epoch": 0.9048843187660668,
2470
  "grad_norm": 0.0,
2471
  "learning_rate": 4.715711762154362e-07,
2472
- "loss": 1.7131,
2473
  "step": 352
2474
  },
2475
  {
2476
  "epoch": 0.9074550128534704,
2477
  "grad_norm": 0.0,
2478
  "learning_rate": 4.4661422290954495e-07,
2479
- "loss": 1.7617,
2480
  "step": 353
2481
  },
2482
  {
2483
  "epoch": 0.910025706940874,
2484
  "grad_norm": 0.0,
2485
  "learning_rate": 4.2232066407409067e-07,
2486
- "loss": 1.7515,
2487
  "step": 354
2488
  },
2489
  {
2490
  "epoch": 0.9125964010282777,
2491
  "grad_norm": 0.0,
2492
  "learning_rate": 3.986921866725202e-07,
2493
- "loss": 1.7651,
2494
  "step": 355
2495
  },
2496
  {
2497
  "epoch": 0.9151670951156813,
2498
  "grad_norm": 0.0,
2499
  "learning_rate": 3.7573043148451673e-07,
2500
- "loss": 1.7627,
2501
  "step": 356
2502
  },
2503
  {
2504
  "epoch": 0.9177377892030848,
2505
  "grad_norm": 0.0,
2506
  "learning_rate": 3.5343699299205003e-07,
2507
- "loss": 1.7664,
2508
  "step": 357
2509
  },
2510
  {
2511
  "epoch": 0.9203084832904884,
2512
  "grad_norm": 0.0,
2513
  "learning_rate": 3.3181341926867283e-07,
2514
- "loss": 1.7439,
2515
  "step": 358
2516
  },
2517
  {
2518
  "epoch": 0.922879177377892,
2519
  "grad_norm": 0.0,
2520
  "learning_rate": 3.1086121187200667e-07,
2521
- "loss": 1.7007,
2522
  "step": 359
2523
  },
2524
  {
2525
  "epoch": 0.9254498714652957,
2526
  "grad_norm": 0.0,
2527
  "learning_rate": 2.905818257394799e-07,
2528
- "loss": 1.7449,
2529
  "step": 360
2530
  },
2531
  {
2532
  "epoch": 0.9280205655526992,
2533
  "grad_norm": 0.0,
2534
  "learning_rate": 2.7097666908729283e-07,
2535
- "loss": 1.7205,
2536
  "step": 361
2537
  },
2538
  {
2539
  "epoch": 0.9305912596401028,
2540
  "grad_norm": 0.0,
2541
  "learning_rate": 2.520471033126326e-07,
2542
- "loss": 1.7297,
2543
  "step": 362
2544
  },
2545
  {
2546
  "epoch": 0.9331619537275064,
2547
  "grad_norm": 0.0,
2548
  "learning_rate": 2.3379444289913344e-07,
2549
- "loss": 1.752,
2550
  "step": 363
2551
  },
2552
  {
2553
  "epoch": 0.9357326478149101,
2554
  "grad_norm": 0.0,
2555
  "learning_rate": 2.1621995532559947e-07,
2556
- "loss": 1.7319,
2557
  "step": 364
2558
  },
2559
  {
2560
  "epoch": 0.9383033419023136,
2561
  "grad_norm": 0.0,
2562
  "learning_rate": 1.9932486097799408e-07,
2563
- "loss": 1.749,
2564
  "step": 365
2565
  },
2566
  {
2567
  "epoch": 0.9408740359897172,
2568
  "grad_norm": 0.0,
2569
  "learning_rate": 1.8311033306468552e-07,
2570
- "loss": 1.7017,
2571
  "step": 366
2572
  },
2573
  {
2574
  "epoch": 0.9434447300771208,
2575
  "grad_norm": 0.0,
2576
  "learning_rate": 1.6757749753498865e-07,
2577
- "loss": 1.7356,
2578
  "step": 367
2579
  },
2580
  {
2581
  "epoch": 0.9460154241645244,
2582
  "grad_norm": 0.0,
2583
  "learning_rate": 1.5272743300097316e-07,
2584
- "loss": 1.7427,
2585
  "step": 368
2586
  },
2587
  {
2588
  "epoch": 0.9485861182519281,
2589
  "grad_norm": 0.0,
2590
  "learning_rate": 1.3856117066256225e-07,
2591
- "loss": 1.7805,
2592
  "step": 369
2593
  },
2594
  {
2595
  "epoch": 0.9511568123393316,
2596
  "grad_norm": 0.0,
2597
  "learning_rate": 1.2507969423593225e-07,
2598
- "loss": 1.7573,
2599
  "step": 370
2600
  },
2601
  {
2602
  "epoch": 0.9537275064267352,
2603
  "grad_norm": 0.0,
2604
  "learning_rate": 1.1228393988519381e-07,
2605
- "loss": 1.7832,
2606
  "step": 371
2607
  },
2608
  {
2609
  "epoch": 0.9562982005141388,
2610
  "grad_norm": 0.0,
2611
  "learning_rate": 1.0017479615738957e-07,
2612
- "loss": 1.8149,
2613
  "step": 372
2614
  },
2615
  {
2616
  "epoch": 0.9588688946015425,
2617
  "grad_norm": 0.0,
2618
  "learning_rate": 8.875310392079118e-08,
2619
- "loss": 1.7427,
2620
  "step": 373
2621
  },
2622
  {
2623
  "epoch": 0.961439588688946,
2624
  "grad_norm": 0.0,
2625
  "learning_rate": 7.801965630651165e-08,
2626
- "loss": 1.6794,
2627
  "step": 374
2628
  },
2629
  {
2630
  "epoch": 0.9640102827763496,
2631
  "grad_norm": 0.0,
2632
  "learning_rate": 6.797519865342161e-08,
2633
- "loss": 1.7375,
2634
  "step": 375
2635
  },
2636
  {
2637
  "epoch": 0.9665809768637532,
2638
  "grad_norm": 0.0,
2639
  "learning_rate": 5.862042845640403e-08,
2640
- "loss": 1.7432,
2641
  "step": 376
2642
  },
2643
  {
2644
  "epoch": 0.9691516709511568,
2645
  "grad_norm": 0.0,
2646
  "learning_rate": 4.9955995317908514e-08,
2647
- "loss": 1.7837,
2648
  "step": 377
2649
  },
2650
  {
2651
  "epoch": 0.9717223650385605,
2652
  "grad_norm": 0.0,
2653
  "learning_rate": 4.198250090284961e-08,
2654
- "loss": 1.7207,
2655
  "step": 378
2656
  },
2657
  {
2658
  "epoch": 0.974293059125964,
2659
  "grad_norm": 0.0,
2660
  "learning_rate": 3.47004988968247e-08,
2661
- "loss": 1.7812,
2662
  "step": 379
2663
  },
2664
  {
2665
  "epoch": 0.9768637532133676,
2666
  "grad_norm": 0.0,
2667
  "learning_rate": 2.8110494967664713e-08,
2668
- "loss": 1.7485,
2669
  "step": 380
2670
  },
2671
  {
2672
  "epoch": 0.9794344473007712,
2673
  "grad_norm": 0.0,
2674
  "learning_rate": 2.221294673032004e-08,
2675
- "loss": 1.771,
2676
  "step": 381
2677
  },
2678
  {
2679
  "epoch": 0.9820051413881749,
2680
  "grad_norm": 0.0,
2681
  "learning_rate": 1.7008263715085904e-08,
2682
- "loss": 1.7515,
2683
  "step": 382
2684
  },
2685
  {
2686
  "epoch": 0.9845758354755784,
2687
  "grad_norm": 0.0,
2688
  "learning_rate": 1.24968073391607e-08,
2689
- "loss": 1.7495,
2690
  "step": 383
2691
  },
2692
  {
2693
  "epoch": 0.987146529562982,
2694
  "grad_norm": 0.0,
2695
  "learning_rate": 8.678890881552715e-09,
2696
- "loss": 1.7776,
2697
  "step": 384
2698
  },
2699
  {
2700
  "epoch": 0.9897172236503856,
2701
  "grad_norm": 0.0,
2702
  "learning_rate": 5.554779461323101e-09,
2703
- "loss": 1.7351,
2704
  "step": 385
2705
  },
2706
  {
2707
  "epoch": 0.9922879177377892,
2708
  "grad_norm": 0.0,
2709
  "learning_rate": 3.1246900191761463e-09,
2710
- "loss": 1.7046,
2711
  "step": 386
2712
  },
2713
  {
2714
  "epoch": 0.9948586118251928,
2715
  "grad_norm": 0.0,
2716
  "learning_rate": 1.3887913023946652e-09,
2717
- "loss": 1.7341,
2718
  "step": 387
2719
  },
2720
  {
2721
  "epoch": 0.9974293059125964,
2722
  "grad_norm": 0.0,
2723
  "learning_rate": 3.4720385312492223e-10,
2724
- "loss": 1.7114,
2725
  "step": 388
2726
  },
2727
  {
2728
  "epoch": 1.0,
2729
  "grad_norm": 0.0,
2730
  "learning_rate": 0.0,
2731
- "loss": 1.7334,
2732
  "step": 389
2733
  },
2734
  {
2735
  "epoch": 1.0,
2736
  "step": 389,
2737
- "total_flos": 1.4102643641407242e+18,
2738
- "train_loss": 1.9309138516227506,
2739
- "train_runtime": 5833.4383,
2740
- "train_samples_per_second": 17.037,
2741
  "train_steps_per_second": 0.067
2742
  }
2743
  ],
@@ -2758,7 +2758,7 @@
2758
  "attributes": {}
2759
  }
2760
  },
2761
- "total_flos": 1.4102643641407242e+18,
2762
  "train_batch_size": 8,
2763
  "trial_name": null,
2764
  "trial_params": null
 
12
  "epoch": 0.002570694087403599,
13
  "grad_norm": 0.0,
14
  "learning_rate": 1.6666666666666667e-06,
15
+ "loss": 1.7749,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.005141388174807198,
20
  "grad_norm": 0.0,
21
  "learning_rate": 3.3333333333333333e-06,
22
+ "loss": 1.7549,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.007712082262210797,
27
  "grad_norm": 0.0,
28
  "learning_rate": 5e-06,
29
+ "loss": 1.7659,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.010282776349614395,
34
  "grad_norm": 0.0,
35
  "learning_rate": 6.666666666666667e-06,
36
+ "loss": 1.7842,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.012853470437017995,
41
  "grad_norm": 0.0,
42
  "learning_rate": 8.333333333333334e-06,
43
+ "loss": 1.8015,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.015424164524421594,
48
  "grad_norm": 0.0,
49
  "learning_rate": 1e-05,
50
+ "loss": 1.7534,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.017994858611825194,
55
  "grad_norm": 0.0,
56
  "learning_rate": 1.1666666666666668e-05,
57
+ "loss": 1.7747,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.02056555269922879,
62
  "grad_norm": 0.0,
63
  "learning_rate": 1.3333333333333333e-05,
64
+ "loss": 1.7783,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.02313624678663239,
69
  "grad_norm": 0.0,
70
  "learning_rate": 1.5000000000000002e-05,
71
+ "loss": 1.803,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.02570694087403599,
76
  "grad_norm": 0.0,
77
  "learning_rate": 1.6666666666666667e-05,
78
+ "loss": 1.7859,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.028277634961439587,
83
  "grad_norm": 0.0,
84
  "learning_rate": 1.8333333333333333e-05,
85
+ "loss": 1.7856,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.030848329048843187,
90
  "grad_norm": 0.0,
91
  "learning_rate": 2e-05,
92
+ "loss": 1.7825,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.033419023136246784,
97
  "grad_norm": 0.0,
98
  "learning_rate": 1.9999652796146877e-05,
99
+ "loss": 1.8127,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.03598971722365039,
104
  "grad_norm": 0.0,
105
  "learning_rate": 1.9998611208697607e-05,
106
+ "loss": 1.8115,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.038560411311053984,
111
  "grad_norm": 0.0,
112
  "learning_rate": 1.9996875309980824e-05,
113
+ "loss": 1.7544,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.04113110539845758,
118
  "grad_norm": 0.0,
119
  "learning_rate": 1.9994445220538678e-05,
120
+ "loss": 1.7886,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.043701799485861184,
125
  "grad_norm": 0.0,
126
  "learning_rate": 1.999132110911845e-05,
127
+ "loss": 1.7866,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.04627249357326478,
132
  "grad_norm": 0.0,
133
  "learning_rate": 1.9987503192660842e-05,
134
+ "loss": 1.7612,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.04884318766066838,
139
  "grad_norm": 0.0,
140
  "learning_rate": 1.9982991736284914e-05,
141
+ "loss": 1.7944,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.05141388174807198,
146
  "grad_norm": 0.0,
147
  "learning_rate": 1.997778705326968e-05,
148
+ "loss": 1.7656,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.05398457583547558,
153
  "grad_norm": 0.0,
154
  "learning_rate": 1.9971889505032337e-05,
155
+ "loss": 1.7554,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.056555269922879174,
160
  "grad_norm": 0.0,
161
  "learning_rate": 1.9965299501103178e-05,
162
+ "loss": 1.7637,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.05912596401028278,
167
  "grad_norm": 0.0,
168
  "learning_rate": 1.995801749909715e-05,
169
+ "loss": 1.7803,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.061696658097686374,
174
  "grad_norm": 0.0,
175
  "learning_rate": 1.995004400468209e-05,
176
+ "loss": 1.7402,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.06426735218508997,
181
  "grad_norm": 0.0,
182
  "learning_rate": 1.9941379571543597e-05,
183
+ "loss": 1.7017,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.06683804627249357,
188
  "grad_norm": 0.0,
189
  "learning_rate": 1.9932024801346583e-05,
190
+ "loss": 1.7671,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.06940874035989718,
195
  "grad_norm": 0.0,
196
  "learning_rate": 1.992198034369349e-05,
197
+ "loss": 1.7014,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.07197943444730077,
202
  "grad_norm": 0.0,
203
  "learning_rate": 1.991124689607921e-05,
204
+ "loss": 1.7532,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.07455012853470437,
209
  "grad_norm": 0.0,
210
  "learning_rate": 1.9899825203842613e-05,
211
+ "loss": 1.7129,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.07712082262210797,
216
  "grad_norm": 0.0,
217
  "learning_rate": 1.988771606011481e-05,
218
+ "loss": 1.7126,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.07969151670951156,
223
  "grad_norm": 0.0,
224
  "learning_rate": 1.987492030576407e-05,
225
+ "loss": 1.7393,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.08226221079691516,
230
  "grad_norm": 0.0,
231
  "learning_rate": 1.986143882933744e-05,
232
+ "loss": 1.7742,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.08483290488431877,
237
  "grad_norm": 0.0,
238
  "learning_rate": 1.9847272566999026e-05,
239
+ "loss": 1.7483,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.08740359897172237,
244
  "grad_norm": 0.0,
245
  "learning_rate": 1.9832422502465013e-05,
246
+ "loss": 1.707,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.08997429305912596,
251
  "grad_norm": 0.0,
252
  "learning_rate": 1.9816889666935318e-05,
253
+ "loss": 1.7507,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.09254498714652956,
258
  "grad_norm": 0.0,
259
  "learning_rate": 1.9800675139022006e-05,
260
+ "loss": 1.7339,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.09511568123393316,
265
  "grad_norm": 0.0,
266
  "learning_rate": 1.9783780044674402e-05,
267
+ "loss": 1.748,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.09768637532133675,
272
  "grad_norm": 0.0,
273
  "learning_rate": 1.976620555710087e-05,
274
+ "loss": 1.686,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.10025706940874037,
279
  "grad_norm": 0.0,
280
  "learning_rate": 1.974795289668737e-05,
281
+ "loss": 1.7043,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.10282776349614396,
286
  "grad_norm": 0.0,
287
  "learning_rate": 1.972902333091271e-05,
288
+ "loss": 1.7646,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.10539845758354756,
293
  "grad_norm": 0.0,
294
  "learning_rate": 1.9709418174260523e-05,
295
+ "loss": 1.6802,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.10796915167095116,
300
  "grad_norm": 0.0,
301
  "learning_rate": 1.9689138788127994e-05,
302
+ "loss": 1.6775,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.11053984575835475,
307
  "grad_norm": 0.0,
308
  "learning_rate": 1.966818658073133e-05,
309
+ "loss": 1.6633,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.11311053984575835,
314
  "grad_norm": 0.0,
315
  "learning_rate": 1.9646563007007952e-05,
316
+ "loss": 1.7637,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.11568123393316196,
321
  "grad_norm": 0.0,
322
  "learning_rate": 1.9624269568515486e-05,
323
+ "loss": 1.7087,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.11825192802056556,
328
  "grad_norm": 0.0,
329
  "learning_rate": 1.960130781332748e-05,
330
+ "loss": 1.6562,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.12082262210796915,
335
  "grad_norm": 0.0,
336
  "learning_rate": 1.957767933592591e-05,
337
+ "loss": 1.698,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.12339331619537275,
342
  "grad_norm": 0.0,
343
  "learning_rate": 1.955338577709046e-05,
344
+ "loss": 1.7444,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.12596401028277635,
349
  "grad_norm": 0.0,
350
  "learning_rate": 1.9528428823784567e-05,
351
+ "loss": 1.6743,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.12853470437017994,
356
  "grad_norm": 0.0,
357
  "learning_rate": 1.9502810209038302e-05,
358
+ "loss": 1.6741,
359
  "step": 50
360
  },
361
  {
362
  "epoch": 0.13110539845758354,
363
  "grad_norm": 0.0,
364
  "learning_rate": 1.9476531711828027e-05,
365
+ "loss": 1.708,
366
  "step": 51
367
  },
368
  {
369
  "epoch": 0.13367609254498714,
370
  "grad_norm": 0.0,
371
  "learning_rate": 1.9449595156952827e-05,
372
+ "loss": 1.6587,
373
  "step": 52
374
  },
375
  {
376
  "epoch": 0.13624678663239073,
377
  "grad_norm": 0.0,
378
  "learning_rate": 1.9422002414907837e-05,
379
+ "loss": 1.6887,
380
  "step": 53
381
  },
382
  {
383
  "epoch": 0.13881748071979436,
384
  "grad_norm": 0.0,
385
  "learning_rate": 1.9393755401754324e-05,
386
+ "loss": 1.6714,
387
  "step": 54
388
  },
389
  {
390
  "epoch": 0.14138817480719795,
391
  "grad_norm": 0.0,
392
  "learning_rate": 1.936485607898665e-05,
393
+ "loss": 1.7432,
394
  "step": 55
395
  },
396
  {
397
  "epoch": 0.14395886889460155,
398
  "grad_norm": 0.0,
399
  "learning_rate": 1.9335306453396066e-05,
400
+ "loss": 1.6675,
401
  "step": 56
402
  },
403
  {
404
  "epoch": 0.14652956298200515,
405
  "grad_norm": 0.0,
406
  "learning_rate": 1.9305108576931336e-05,
407
+ "loss": 1.6436,
408
  "step": 57
409
  },
410
  {
411
  "epoch": 0.14910025706940874,
412
  "grad_norm": 0.0,
413
  "learning_rate": 1.927426454655627e-05,
414
+ "loss": 1.6853,
415
  "step": 58
416
  },
417
  {
418
  "epoch": 0.15167095115681234,
419
  "grad_norm": 0.0,
420
  "learning_rate": 1.924277650410412e-05,
421
+ "loss": 1.6641,
422
  "step": 59
423
  },
424
  {
425
  "epoch": 0.15424164524421594,
426
  "grad_norm": 0.0,
427
  "learning_rate": 1.9210646636128805e-05,
428
+ "loss": 1.7385,
429
  "step": 60
430
  },
431
  {
432
  "epoch": 0.15681233933161953,
433
  "grad_norm": 0.0,
434
  "learning_rate": 1.9177877173753127e-05,
435
+ "loss": 1.7178,
436
  "step": 61
437
  },
438
  {
439
  "epoch": 0.15938303341902313,
440
  "grad_norm": 0.0,
441
  "learning_rate": 1.91444703925138e-05,
442
+ "loss": 1.6785,
443
  "step": 62
444
  },
445
  {
446
  "epoch": 0.16195372750642673,
447
  "grad_norm": 0.0,
448
  "learning_rate": 1.9110428612203463e-05,
449
+ "loss": 1.6799,
450
  "step": 63
451
  },
452
  {
453
  "epoch": 0.16452442159383032,
454
  "grad_norm": 0.0,
455
  "learning_rate": 1.9075754196709574e-05,
456
+ "loss": 1.7075,
457
  "step": 64
458
  },
459
  {
460
  "epoch": 0.16709511568123395,
461
  "grad_norm": 0.0,
462
  "learning_rate": 1.904044955385026e-05,
463
+ "loss": 1.6621,
464
  "step": 65
465
  },
466
  {
467
  "epoch": 0.16966580976863754,
468
  "grad_norm": 0.0,
469
  "learning_rate": 1.9004517135207127e-05,
470
+ "loss": 1.6492,
471
  "step": 66
472
  },
473
  {
474
  "epoch": 0.17223650385604114,
475
  "grad_norm": 0.0,
476
  "learning_rate": 1.8967959435955027e-05,
477
+ "loss": 1.7297,
478
  "step": 67
479
  },
480
  {
481
  "epoch": 0.17480719794344474,
482
  "grad_norm": 0.0,
483
  "learning_rate": 1.893077899468876e-05,
484
+ "loss": 1.6882,
485
  "step": 68
486
  },
487
  {
488
  "epoch": 0.17737789203084833,
489
  "grad_norm": 0.0,
490
  "learning_rate": 1.889297839324682e-05,
491
+ "loss": 1.6714,
492
  "step": 69
493
  },
494
  {
495
  "epoch": 0.17994858611825193,
496
  "grad_norm": 0.0,
497
  "learning_rate": 1.8854560256532098e-05,
498
+ "loss": 1.6489,
499
  "step": 70
500
  },
501
  {
502
  "epoch": 0.18251928020565553,
503
  "grad_norm": 0.0,
504
  "learning_rate": 1.8815527252329624e-05,
505
+ "loss": 1.6721,
506
  "step": 71
507
  },
508
  {
509
  "epoch": 0.18508997429305912,
510
  "grad_norm": 0.0,
511
  "learning_rate": 1.8775882091121282e-05,
512
+ "loss": 1.6533,
513
  "step": 72
514
  },
515
  {
516
  "epoch": 0.18766066838046272,
517
  "grad_norm": 0.0,
518
  "learning_rate": 1.8735627525897618e-05,
519
+ "loss": 1.6443,
520
  "step": 73
521
  },
522
  {
523
  "epoch": 0.19023136246786632,
524
  "grad_norm": 0.0,
525
  "learning_rate": 1.8694766351966665e-05,
526
+ "loss": 1.6631,
527
  "step": 74
528
  },
529
  {
530
  "epoch": 0.1928020565552699,
531
  "grad_norm": 0.0,
532
  "learning_rate": 1.8653301406759827e-05,
533
+ "loss": 1.6873,
534
  "step": 75
535
  },
536
  {
537
  "epoch": 0.1953727506426735,
538
  "grad_norm": 0.0,
539
  "learning_rate": 1.8611235569634852e-05,
540
+ "loss": 1.7046,
541
  "step": 76
542
  },
543
  {
544
  "epoch": 0.19794344473007713,
545
  "grad_norm": 0.0,
546
  "learning_rate": 1.8568571761675893e-05,
547
+ "loss": 1.7002,
548
  "step": 77
549
  },
550
  {
551
  "epoch": 0.20051413881748073,
552
  "grad_norm": 0.0,
553
  "learning_rate": 1.8525312945490647e-05,
554
+ "loss": 1.698,
555
  "step": 78
556
  },
557
  {
558
  "epoch": 0.20308483290488433,
559
  "grad_norm": 0.0,
560
  "learning_rate": 1.8481462125004647e-05,
561
+ "loss": 1.6765,
562
  "step": 79
563
  },
564
  {
565
  "epoch": 0.20565552699228792,
566
  "grad_norm": 0.0,
567
  "learning_rate": 1.8437022345252666e-05,
568
+ "loss": 1.7185,
569
  "step": 80
570
  },
571
  {
572
  "epoch": 0.20822622107969152,
573
  "grad_norm": 0.0,
574
  "learning_rate": 1.8391996692167242e-05,
575
+ "loss": 1.6653,
576
  "step": 81
577
  },
578
  {
579
  "epoch": 0.21079691516709512,
580
  "grad_norm": 0.0,
581
  "learning_rate": 1.8346388292364438e-05,
582
+ "loss": 1.7129,
583
  "step": 82
584
  },
585
  {
586
  "epoch": 0.2133676092544987,
587
  "grad_norm": 0.0,
588
  "learning_rate": 1.8300200312926674e-05,
589
+ "loss": 1.6709,
590
  "step": 83
591
  },
592
  {
593
  "epoch": 0.2159383033419023,
594
  "grad_norm": 0.0,
595
  "learning_rate": 1.8253435961182844e-05,
596
+ "loss": 1.6597,
597
  "step": 84
598
  },
599
  {
600
  "epoch": 0.2185089974293059,
601
  "grad_norm": 0.0,
602
  "learning_rate": 1.8206098484485563e-05,
603
+ "loss": 1.6812,
604
  "step": 85
605
  },
606
  {
607
  "epoch": 0.2210796915167095,
608
  "grad_norm": 0.0,
609
  "learning_rate": 1.8158191169985696e-05,
610
+ "loss": 1.6792,
611
  "step": 86
612
  },
613
  {
614
  "epoch": 0.2236503856041131,
615
  "grad_norm": 0.0,
616
  "learning_rate": 1.810971734440408e-05,
617
+ "loss": 1.6404,
618
  "step": 87
619
  },
620
  {
621
  "epoch": 0.2262210796915167,
622
  "grad_norm": 0.0,
623
  "learning_rate": 1.806068037380052e-05,
624
+ "loss": 1.6528,
625
  "step": 88
626
  },
627
  {
628
  "epoch": 0.22879177377892032,
629
  "grad_norm": 0.0,
630
  "learning_rate": 1.801108366334004e-05,
631
+ "loss": 1.6775,
632
  "step": 89
633
  },
634
  {
635
  "epoch": 0.23136246786632392,
636
  "grad_norm": 0.0,
637
  "learning_rate": 1.796093065705644e-05,
638
+ "loss": 1.679,
639
  "step": 90
640
  },
641
  {
642
  "epoch": 0.23393316195372751,
643
  "grad_norm": 0.0,
644
  "learning_rate": 1.791022483761312e-05,
645
+ "loss": 1.658,
646
  "step": 91
647
  },
648
  {
649
  "epoch": 0.2365038560411311,
650
  "grad_norm": 0.0,
651
  "learning_rate": 1.7858969726061262e-05,
652
+ "loss": 1.6277,
653
  "step": 92
654
  },
655
  {
656
  "epoch": 0.2390745501285347,
657
  "grad_norm": 0.0,
658
  "learning_rate": 1.7807168881595304e-05,
659
+ "loss": 1.6602,
660
  "step": 93
661
  },
662
  {
663
  "epoch": 0.2416452442159383,
664
  "grad_norm": 0.0,
665
  "learning_rate": 1.7754825901305814e-05,
666
+ "loss": 1.6758,
667
  "step": 94
668
  },
669
  {
670
  "epoch": 0.2442159383033419,
671
  "grad_norm": 0.0,
672
  "learning_rate": 1.7701944419929673e-05,
673
+ "loss": 1.6353,
674
  "step": 95
675
  },
676
  {
677
  "epoch": 0.2467866323907455,
678
  "grad_norm": 0.0,
679
  "learning_rate": 1.7648528109597704e-05,
680
+ "loss": 1.6602,
681
  "step": 96
682
  },
683
  {
684
  "epoch": 0.2493573264781491,
685
  "grad_norm": 0.0,
686
  "learning_rate": 1.7594580679579654e-05,
687
+ "loss": 1.6404,
688
  "step": 97
689
  },
690
  {
691
  "epoch": 0.2519280205655527,
692
  "grad_norm": 0.0,
693
  "learning_rate": 1.7540105876026647e-05,
694
+ "loss": 1.6365,
695
  "step": 98
696
  },
697
  {
698
  "epoch": 0.2544987146529563,
699
  "grad_norm": 0.0,
700
  "learning_rate": 1.7485107481711014e-05,
701
+ "loss": 1.6353,
702
  "step": 99
703
  },
704
  {
705
  "epoch": 0.2570694087403599,
706
  "grad_norm": 0.0,
707
  "learning_rate": 1.7429589315763637e-05,
708
+ "loss": 1.6541,
709
  "step": 100
710
  },
711
  {
712
  "epoch": 0.2596401028277635,
713
  "grad_norm": 0.0,
714
  "learning_rate": 1.737355523340875e-05,
715
+ "loss": 1.6133,
716
  "step": 101
717
  },
718
  {
719
  "epoch": 0.2622107969151671,
720
  "grad_norm": 0.0,
721
  "learning_rate": 1.7317009125696208e-05,
722
+ "loss": 1.6687,
723
  "step": 102
724
  },
725
  {
726
  "epoch": 0.2647814910025707,
727
  "grad_norm": 0.0,
728
  "learning_rate": 1.725995491923131e-05,
729
+ "loss": 1.636,
730
  "step": 103
731
  },
732
  {
733
  "epoch": 0.26735218508997427,
734
  "grad_norm": 0.0,
735
  "learning_rate": 1.7202396575902118e-05,
736
+ "loss": 1.6497,
737
  "step": 104
738
  },
739
  {
740
  "epoch": 0.2699228791773779,
741
  "grad_norm": 0.0,
742
  "learning_rate": 1.714433809260435e-05,
743
+ "loss": 1.6458,
744
  "step": 105
745
  },
746
  {
747
  "epoch": 0.27249357326478146,
748
  "grad_norm": 0.0,
749
  "learning_rate": 1.7085783500963825e-05,
750
+ "loss": 1.624,
751
  "step": 106
752
  },
753
  {
754
  "epoch": 0.2750642673521851,
755
  "grad_norm": 0.0,
756
  "learning_rate": 1.702673686705651e-05,
757
+ "loss": 1.6353,
758
  "step": 107
759
  },
760
  {
761
  "epoch": 0.2776349614395887,
762
  "grad_norm": 0.0,
763
  "learning_rate": 1.6967202291126174e-05,
764
+ "loss": 1.6406,
765
  "step": 108
766
  },
767
  {
768
  "epoch": 0.2802056555269923,
769
  "grad_norm": 0.0,
770
  "learning_rate": 1.690718390729964e-05,
771
+ "loss": 1.6323,
772
  "step": 109
773
  },
774
  {
775
  "epoch": 0.2827763496143959,
776
  "grad_norm": 0.0,
777
  "learning_rate": 1.684668588329973e-05,
778
+ "loss": 1.665,
779
  "step": 110
780
  },
781
  {
782
  "epoch": 0.2853470437017995,
783
  "grad_norm": 0.0,
784
  "learning_rate": 1.6785712420155864e-05,
785
+ "loss": 1.635,
786
  "step": 111
787
  },
788
  {
789
  "epoch": 0.2879177377892031,
790
  "grad_norm": 0.0,
791
  "learning_rate": 1.67242677519123e-05,
792
+ "loss": 1.6335,
793
  "step": 112
794
  },
795
  {
796
  "epoch": 0.29048843187660667,
797
  "grad_norm": 0.0,
798
  "learning_rate": 1.6662356145334158e-05,
799
+ "loss": 1.6846,
800
  "step": 113
801
  },
802
  {
803
  "epoch": 0.2930591259640103,
804
  "grad_norm": 0.0,
805
  "learning_rate": 1.6599981899611103e-05,
806
+ "loss": 1.6353,
807
  "step": 114
808
  },
809
  {
810
  "epoch": 0.29562982005141386,
811
  "grad_norm": 0.0,
812
  "learning_rate": 1.653714934605883e-05,
813
+ "loss": 1.6189,
814
  "step": 115
815
  },
816
  {
817
  "epoch": 0.2982005141388175,
818
  "grad_norm": 0.0,
819
  "learning_rate": 1.647386284781828e-05,
820
+ "loss": 1.7021,
821
  "step": 116
822
  },
823
  {
824
  "epoch": 0.30077120822622105,
825
  "grad_norm": 0.0,
826
  "learning_rate": 1.6410126799552653e-05,
827
+ "loss": 1.6777,
828
  "step": 117
829
  },
830
  {
831
  "epoch": 0.3033419023136247,
832
  "grad_norm": 0.0,
833
  "learning_rate": 1.6345945627142264e-05,
834
+ "loss": 1.6377,
835
  "step": 118
836
  },
837
  {
838
  "epoch": 0.3059125964010283,
839
  "grad_norm": 0.0,
840
  "learning_rate": 1.628132378737718e-05,
841
+ "loss": 1.6616,
842
  "step": 119
843
  },
844
  {
845
  "epoch": 0.30848329048843187,
846
  "grad_norm": 0.0,
847
  "learning_rate": 1.6216265767647756e-05,
848
+ "loss": 1.616,
849
  "step": 120
850
  },
851
  {
852
  "epoch": 0.3110539845758355,
853
  "grad_norm": 0.0,
854
  "learning_rate": 1.615077608563302e-05,
855
+ "loss": 1.6816,
856
  "step": 121
857
  },
858
  {
859
  "epoch": 0.31362467866323906,
860
  "grad_norm": 0.0,
861
  "learning_rate": 1.6084859288986957e-05,
862
+ "loss": 1.6099,
863
  "step": 122
864
  },
865
  {
866
  "epoch": 0.3161953727506427,
867
  "grad_norm": 0.0,
868
  "learning_rate": 1.601851995502272e-05,
869
+ "loss": 1.6274,
870
  "step": 123
871
  },
872
  {
873
  "epoch": 0.31876606683804626,
874
  "grad_norm": 0.0,
875
  "learning_rate": 1.5951762690394788e-05,
876
+ "loss": 1.6663,
877
  "step": 124
878
  },
879
  {
880
  "epoch": 0.3213367609254499,
881
  "grad_norm": 0.0,
882
  "learning_rate": 1.5884592130779056e-05,
883
+ "loss": 1.6494,
884
  "step": 125
885
  },
886
  {
887
  "epoch": 0.32390745501285345,
888
  "grad_norm": 0.0,
889
  "learning_rate": 1.581701294055095e-05,
890
+ "loss": 1.614,
891
  "step": 126
892
  },
893
  {
894
  "epoch": 0.3264781491002571,
895
  "grad_norm": 0.0,
896
  "learning_rate": 1.5749029812461515e-05,
897
+ "loss": 1.6265,
898
  "step": 127
899
  },
900
  {
901
  "epoch": 0.32904884318766064,
902
  "grad_norm": 0.0,
903
  "learning_rate": 1.568064746731156e-05,
904
+ "loss": 1.5913,
905
  "step": 128
906
  },
907
  {
908
  "epoch": 0.33161953727506427,
909
  "grad_norm": 0.0,
910
  "learning_rate": 1.5611870653623826e-05,
911
+ "loss": 1.5984,
912
  "step": 129
913
  },
914
  {
915
  "epoch": 0.3341902313624679,
916
  "grad_norm": 0.0,
917
  "learning_rate": 1.5542704147313257e-05,
918
+ "loss": 1.6343,
919
  "step": 130
920
  },
921
  {
922
  "epoch": 0.33676092544987146,
923
  "grad_norm": 0.0,
924
  "learning_rate": 1.5473152751355353e-05,
925
+ "loss": 1.6355,
926
  "step": 131
927
  },
928
  {
929
  "epoch": 0.3393316195372751,
930
  "grad_norm": 0.0,
931
  "learning_rate": 1.5403221295452647e-05,
932
+ "loss": 1.647,
933
  "step": 132
934
  },
935
  {
936
  "epoch": 0.34190231362467866,
937
  "grad_norm": 0.0,
938
  "learning_rate": 1.5332914635699327e-05,
939
+ "loss": 1.6191,
940
  "step": 133
941
  },
942
  {
943
  "epoch": 0.3444730077120823,
944
  "grad_norm": 0.0,
945
  "learning_rate": 1.5262237654244026e-05,
946
+ "loss": 1.624,
947
  "step": 134
948
  },
949
  {
950
  "epoch": 0.34704370179948585,
951
  "grad_norm": 0.0,
952
  "learning_rate": 1.5191195258950804e-05,
953
+ "loss": 1.6055,
954
  "step": 135
955
  },
956
  {
957
  "epoch": 0.3496143958868895,
958
  "grad_norm": 0.0,
959
  "learning_rate": 1.5119792383058338e-05,
960
+ "loss": 1.6492,
961
  "step": 136
962
  },
963
  {
964
  "epoch": 0.35218508997429304,
965
  "grad_norm": 0.0,
966
  "learning_rate": 1.5048033984837352e-05,
967
+ "loss": 1.6155,
968
  "step": 137
969
  },
970
  {
971
  "epoch": 0.35475578406169667,
972
  "grad_norm": 0.0,
973
  "learning_rate": 1.4975925047246319e-05,
974
+ "loss": 1.6042,
975
  "step": 138
976
  },
977
  {
978
  "epoch": 0.35732647814910024,
979
  "grad_norm": 0.0,
980
  "learning_rate": 1.4903470577585433e-05,
981
+ "loss": 1.6367,
982
  "step": 139
983
  },
984
  {
985
  "epoch": 0.35989717223650386,
986
  "grad_norm": 0.0,
987
  "learning_rate": 1.4830675607148899e-05,
988
+ "loss": 1.5928,
989
  "step": 140
990
  },
991
  {
992
  "epoch": 0.36246786632390743,
993
  "grad_norm": 0.0,
994
  "learning_rate": 1.475754519087557e-05,
995
+ "loss": 1.6526,
996
  "step": 141
997
  },
998
  {
999
  "epoch": 0.36503856041131105,
1000
  "grad_norm": 0.0,
1001
  "learning_rate": 1.4684084406997903e-05,
1002
+ "loss": 1.6362,
1003
  "step": 142
1004
  },
1005
  {
1006
  "epoch": 0.3676092544987147,
1007
  "grad_norm": 0.0,
1008
  "learning_rate": 1.4610298356689341e-05,
1009
+ "loss": 1.6201,
1010
  "step": 143
1011
  },
1012
  {
1013
  "epoch": 0.37017994858611825,
1014
  "grad_norm": 0.0,
1015
  "learning_rate": 1.453619216371008e-05,
1016
+ "loss": 1.6162,
1017
  "step": 144
1018
  },
1019
  {
1020
  "epoch": 0.37275064267352187,
1021
  "grad_norm": 0.0,
1022
  "learning_rate": 1.446177097405127e-05,
1023
+ "loss": 1.6172,
1024
  "step": 145
1025
  },
1026
  {
1027
  "epoch": 0.37532133676092544,
1028
  "grad_norm": 0.0,
1029
  "learning_rate": 1.4387039955577668e-05,
1030
+ "loss": 1.6301,
1031
  "step": 146
1032
  },
1033
  {
1034
  "epoch": 0.37789203084832906,
1035
  "grad_norm": 0.0,
1036
  "learning_rate": 1.4312004297668791e-05,
1037
+ "loss": 1.6096,
1038
  "step": 147
1039
  },
1040
  {
1041
  "epoch": 0.38046272493573263,
1042
  "grad_norm": 0.0,
1043
  "learning_rate": 1.4236669210858544e-05,
1044
+ "loss": 1.6152,
1045
  "step": 148
1046
  },
1047
  {
1048
  "epoch": 0.38303341902313626,
1049
  "grad_norm": 0.0,
1050
  "learning_rate": 1.4161039926473412e-05,
1051
+ "loss": 1.6321,
1052
  "step": 149
1053
  },
1054
  {
1055
  "epoch": 0.3856041131105398,
1056
  "grad_norm": 0.0,
1057
  "learning_rate": 1.4085121696269185e-05,
1058
+ "loss": 1.5957,
1059
  "step": 150
1060
  },
1061
  {
1062
  "epoch": 0.38817480719794345,
1063
  "grad_norm": 0.0,
1064
  "learning_rate": 1.4008919792066273e-05,
1065
+ "loss": 1.6421,
1066
  "step": 151
1067
  },
1068
  {
1069
  "epoch": 0.390745501285347,
1070
  "grad_norm": 0.0,
1071
  "learning_rate": 1.3932439505383628e-05,
1072
+ "loss": 1.6189,
1073
  "step": 152
1074
  },
1075
  {
1076
  "epoch": 0.39331619537275064,
1077
  "grad_norm": 0.0,
1078
  "learning_rate": 1.385568614707129e-05,
1079
+ "loss": 1.6106,
1080
  "step": 153
1081
  },
1082
  {
1083
  "epoch": 0.39588688946015427,
1084
  "grad_norm": 0.0,
1085
  "learning_rate": 1.3778665046941616e-05,
1086
+ "loss": 1.6321,
1087
  "step": 154
1088
  },
1089
  {
1090
  "epoch": 0.39845758354755784,
1091
  "grad_norm": 0.0,
1092
  "learning_rate": 1.3701381553399147e-05,
1093
+ "loss": 1.5796,
1094
  "step": 155
1095
  },
1096
  {
1097
  "epoch": 0.40102827763496146,
1098
  "grad_norm": 0.0,
1099
  "learning_rate": 1.3623841033069232e-05,
1100
+ "loss": 1.6555,
1101
  "step": 156
1102
  },
1103
  {
1104
  "epoch": 0.40359897172236503,
1105
  "grad_norm": 0.0,
1106
  "learning_rate": 1.3546048870425356e-05,
1107
+ "loss": 1.6028,
1108
  "step": 157
1109
  },
1110
  {
1111
  "epoch": 0.40616966580976865,
1112
  "grad_norm": 0.0,
1113
  "learning_rate": 1.3468010467415248e-05,
1114
+ "loss": 1.5969,
1115
  "step": 158
1116
  },
1117
  {
1118
  "epoch": 0.4087403598971722,
1119
  "grad_norm": 0.0,
1120
  "learning_rate": 1.3389731243085747e-05,
1121
+ "loss": 1.6077,
1122
  "step": 159
1123
  },
1124
  {
1125
  "epoch": 0.41131105398457585,
1126
  "grad_norm": 0.0,
1127
  "learning_rate": 1.3311216633206514e-05,
1128
+ "loss": 1.5762,
1129
  "step": 160
1130
  },
1131
  {
1132
  "epoch": 0.4138817480719794,
1133
  "grad_norm": 0.0,
1134
  "learning_rate": 1.3232472089892567e-05,
1135
+ "loss": 1.6079,
1136
  "step": 161
1137
  },
1138
  {
1139
  "epoch": 0.41645244215938304,
1140
  "grad_norm": 0.0,
1141
  "learning_rate": 1.315350308122567e-05,
1142
+ "loss": 1.5994,
1143
  "step": 162
1144
  },
1145
  {
1146
  "epoch": 0.4190231362467866,
1147
  "grad_norm": 0.0,
1148
  "learning_rate": 1.3074315090874652e-05,
1149
+ "loss": 1.5732,
1150
  "step": 163
1151
  },
1152
  {
1153
  "epoch": 0.42159383033419023,
1154
  "grad_norm": 0.0,
1155
  "learning_rate": 1.2994913617714573e-05,
1156
+ "loss": 1.5901,
1157
  "step": 164
1158
  },
1159
  {
1160
  "epoch": 0.4241645244215938,
1161
  "grad_norm": 0.0,
1162
  "learning_rate": 1.2915304175444929e-05,
1163
+ "loss": 1.6138,
1164
  "step": 165
1165
  },
1166
  {
1167
  "epoch": 0.4267352185089974,
1168
  "grad_norm": 0.0,
1169
  "learning_rate": 1.2835492292206735e-05,
1170
+ "loss": 1.5945,
1171
  "step": 166
1172
  },
1173
  {
1174
  "epoch": 0.42930591259640105,
1175
  "grad_norm": 0.0,
1176
  "learning_rate": 1.2755483510198668e-05,
1177
+ "loss": 1.6067,
1178
  "step": 167
1179
  },
1180
  {
1181
  "epoch": 0.4318766066838046,
1182
  "grad_norm": 0.0,
1183
  "learning_rate": 1.2675283385292212e-05,
1184
+ "loss": 1.5957,
1185
  "step": 168
1186
  },
1187
  {
1188
  "epoch": 0.43444730077120824,
1189
  "grad_norm": 0.0,
1190
  "learning_rate": 1.2594897486645836e-05,
1191
+ "loss": 1.6089,
1192
  "step": 169
1193
  },
1194
  {
1195
  "epoch": 0.4370179948586118,
1196
  "grad_norm": 0.0,
1197
  "learning_rate": 1.2514331396318298e-05,
1198
+ "loss": 1.6335,
1199
  "step": 170
1200
  },
1201
  {
1202
  "epoch": 0.43958868894601544,
1203
  "grad_norm": 0.0,
1204
  "learning_rate": 1.2433590708880991e-05,
1205
+ "loss": 1.6406,
1206
  "step": 171
1207
  },
1208
  {
1209
  "epoch": 0.442159383033419,
1210
  "grad_norm": 0.0,
1211
  "learning_rate": 1.2352681031029476e-05,
1212
+ "loss": 1.5759,
1213
  "step": 172
1214
  },
1215
  {
1216
  "epoch": 0.44473007712082263,
1217
  "grad_norm": 0.0,
1218
  "learning_rate": 1.2271607981194132e-05,
1219
+ "loss": 1.5955,
1220
  "step": 173
1221
  },
1222
  {
1223
  "epoch": 0.4473007712082262,
1224
  "grad_norm": 0.0,
1225
  "learning_rate": 1.2190377189150016e-05,
1226
+ "loss": 1.6069,
1227
  "step": 174
1228
  },
1229
  {
1230
  "epoch": 0.4498714652956298,
1231
  "grad_norm": 0.0,
1232
  "learning_rate": 1.2108994295625924e-05,
1233
+ "loss": 1.5796,
1234
  "step": 175
1235
  },
1236
  {
1237
  "epoch": 0.4524421593830334,
1238
  "grad_norm": 0.0,
1239
  "learning_rate": 1.2027464951912703e-05,
1240
+ "loss": 1.5952,
1241
  "step": 176
1242
  },
1243
  {
1244
  "epoch": 0.455012853470437,
1245
  "grad_norm": 0.0,
1246
  "learning_rate": 1.1945794819470805e-05,
1247
+ "loss": 1.6213,
1248
  "step": 177
1249
  },
1250
  {
1251
  "epoch": 0.45758354755784064,
1252
  "grad_norm": 0.0,
1253
  "learning_rate": 1.1863989569537165e-05,
1254
+ "loss": 1.5974,
1255
  "step": 178
1256
  },
1257
  {
1258
  "epoch": 0.4601542416452442,
1259
  "grad_norm": 0.0,
1260
  "learning_rate": 1.1782054882731377e-05,
1261
+ "loss": 1.5188,
1262
  "step": 179
1263
  },
1264
  {
1265
  "epoch": 0.46272493573264784,
1266
  "grad_norm": 0.0,
1267
  "learning_rate": 1.1699996448661242e-05,
1268
+ "loss": 1.5964,
1269
  "step": 180
1270
  },
1271
  {
1272
  "epoch": 0.4652956298200514,
1273
  "grad_norm": 0.0,
1274
  "learning_rate": 1.161781996552765e-05,
1275
+ "loss": 1.5681,
1276
  "step": 181
1277
  },
1278
  {
1279
  "epoch": 0.46786632390745503,
1280
  "grad_norm": 0.0,
1281
  "learning_rate": 1.1535531139728918e-05,
1282
+ "loss": 1.5938,
1283
  "step": 182
1284
  },
1285
  {
1286
  "epoch": 0.4704370179948586,
1287
  "grad_norm": 0.0,
1288
  "learning_rate": 1.1453135685464524e-05,
1289
+ "loss": 1.574,
1290
  "step": 183
1291
  },
1292
  {
1293
  "epoch": 0.4730077120822622,
1294
  "grad_norm": 0.0,
1295
  "learning_rate": 1.1370639324338313e-05,
1296
+ "loss": 1.5872,
1297
  "step": 184
1298
  },
1299
  {
1300
  "epoch": 0.4755784061696658,
1301
  "grad_norm": 0.0,
1302
  "learning_rate": 1.1288047784961166e-05,
1303
+ "loss": 1.5806,
1304
  "step": 185
1305
  },
1306
  {
1307
  "epoch": 0.4781491002570694,
1308
  "grad_norm": 0.0,
1309
  "learning_rate": 1.1205366802553231e-05,
1310
+ "loss": 1.5542,
1311
  "step": 186
1312
  },
1313
  {
1314
  "epoch": 0.480719794344473,
1315
  "grad_norm": 0.0,
1316
  "learning_rate": 1.1122602118545642e-05,
1317
+ "loss": 1.5723,
1318
  "step": 187
1319
  },
1320
  {
1321
  "epoch": 0.4832904884318766,
1322
  "grad_norm": 0.0,
1323
  "learning_rate": 1.1039759480181836e-05,
1324
+ "loss": 1.5645,
1325
  "step": 188
1326
  },
1327
  {
1328
  "epoch": 0.48586118251928023,
1329
  "grad_norm": 0.0,
1330
  "learning_rate": 1.0956844640118462e-05,
1331
+ "loss": 1.5884,
1332
  "step": 189
1333
  },
1334
  {
1335
  "epoch": 0.4884318766066838,
1336
  "grad_norm": 0.0,
1337
  "learning_rate": 1.0873863356025911e-05,
1338
+ "loss": 1.5559,
1339
  "step": 190
1340
  },
1341
  {
1342
  "epoch": 0.4910025706940874,
1343
  "grad_norm": 0.0,
1344
  "learning_rate": 1.0790821390188493e-05,
1345
+ "loss": 1.5623,
1346
  "step": 191
1347
  },
1348
  {
1349
  "epoch": 0.493573264781491,
1350
  "grad_norm": 0.0,
1351
  "learning_rate": 1.0707724509104318e-05,
1352
+ "loss": 1.5916,
1353
  "step": 192
1354
  },
1355
  {
1356
  "epoch": 0.4961439588688946,
1357
  "grad_norm": 0.0,
1358
  "learning_rate": 1.062457848308484e-05,
1359
+ "loss": 1.5696,
1360
  "step": 193
1361
  },
1362
  {
1363
  "epoch": 0.4987146529562982,
1364
  "grad_norm": 0.0,
1365
  "learning_rate": 1.0541389085854177e-05,
1366
+ "loss": 1.5913,
1367
  "step": 194
1368
  },
1369
  {
1370
  "epoch": 0.5012853470437018,
1371
  "grad_norm": 0.0,
1372
  "learning_rate": 1.0458162094148185e-05,
1373
+ "loss": 1.5439,
1374
  "step": 195
1375
  },
1376
  {
1377
  "epoch": 0.5038560411311054,
1378
  "grad_norm": 0.0,
1379
  "learning_rate": 1.0374903287313307e-05,
1380
+ "loss": 1.6013,
1381
  "step": 196
1382
  },
1383
  {
1384
  "epoch": 0.506426735218509,
1385
  "grad_norm": 0.0,
1386
  "learning_rate": 1.029161844690525e-05,
1387
+ "loss": 1.5813,
1388
  "step": 197
1389
  },
1390
  {
1391
  "epoch": 0.5089974293059126,
1392
  "grad_norm": 0.0,
1393
  "learning_rate": 1.0208313356287505e-05,
1394
+ "loss": 1.5757,
1395
  "step": 198
1396
  },
1397
  {
1398
  "epoch": 0.5115681233933161,
1399
  "grad_norm": 0.0,
1400
  "learning_rate": 1.0124993800229774e-05,
1401
+ "loss": 1.5508,
1402
  "step": 199
1403
  },
1404
  {
1405
  "epoch": 0.5141388174807198,
1406
  "grad_norm": 0.0,
1407
  "learning_rate": 1.004166556450623e-05,
1408
+ "loss": 1.5774,
1409
  "step": 200
1410
  },
1411
  {
1412
  "epoch": 0.5167095115681234,
1413
  "grad_norm": 0.0,
1414
  "learning_rate": 9.958334435493776e-06,
1415
+ "loss": 1.594,
1416
  "step": 201
1417
  },
1418
  {
1419
  "epoch": 0.519280205655527,
1420
  "grad_norm": 0.0,
1421
  "learning_rate": 9.87500619977023e-06,
1422
+ "loss": 1.5977,
1423
  "step": 202
1424
  },
1425
  {
1426
  "epoch": 0.5218508997429306,
1427
  "grad_norm": 0.0,
1428
  "learning_rate": 9.791686643712498e-06,
1429
+ "loss": 1.5938,
1430
  "step": 203
1431
  },
1432
  {
1433
  "epoch": 0.5244215938303342,
1434
  "grad_norm": 0.0,
1435
  "learning_rate": 9.708381553094754e-06,
1436
+ "loss": 1.5371,
1437
  "step": 204
1438
  },
1439
  {
1440
  "epoch": 0.5269922879177378,
1441
  "grad_norm": 0.0,
1442
  "learning_rate": 9.625096712686694e-06,
1443
+ "loss": 1.5315,
1444
  "step": 205
1445
  },
1446
  {
1447
  "epoch": 0.5295629820051414,
1448
  "grad_norm": 0.0,
1449
  "learning_rate": 9.541837905851817e-06,
1450
+ "loss": 1.5708,
1451
  "step": 206
1452
  },
1453
  {
1454
  "epoch": 0.532133676092545,
1455
  "grad_norm": 0.0,
1456
  "learning_rate": 9.458610914145826e-06,
1457
+ "loss": 1.5691,
1458
  "step": 207
1459
  },
1460
  {
1461
  "epoch": 0.5347043701799485,
1462
  "grad_norm": 0.0,
1463
  "learning_rate": 9.375421516915165e-06,
1464
+ "loss": 1.5881,
1465
  "step": 208
1466
  },
1467
  {
1468
  "epoch": 0.5372750642673522,
1469
  "grad_norm": 0.0,
1470
  "learning_rate": 9.292275490895685e-06,
1471
+ "loss": 1.5732,
1472
  "step": 209
1473
  },
1474
  {
1475
  "epoch": 0.5398457583547558,
1476
  "grad_norm": 0.0,
1477
  "learning_rate": 9.209178609811509e-06,
1478
+ "loss": 1.5562,
1479
  "step": 210
1480
  },
1481
  {
1482
  "epoch": 0.5424164524421594,
1483
  "grad_norm": 0.0,
1484
  "learning_rate": 9.126136643974094e-06,
1485
+ "loss": 1.5603,
1486
  "step": 211
1487
  },
1488
  {
1489
  "epoch": 0.5449871465295629,
1490
  "grad_norm": 0.0,
1491
  "learning_rate": 9.043155359881538e-06,
1492
+ "loss": 1.5352,
1493
  "step": 212
1494
  },
1495
  {
1496
  "epoch": 0.5475578406169666,
1497
  "grad_norm": 0.0,
1498
  "learning_rate": 8.960240519818167e-06,
1499
+ "loss": 1.5647,
1500
  "step": 213
1501
  },
1502
  {
1503
  "epoch": 0.5501285347043702,
1504
  "grad_norm": 0.0,
1505
  "learning_rate": 8.877397881454358e-06,
1506
+ "loss": 1.5747,
1507
  "step": 214
1508
  },
1509
  {
1510
  "epoch": 0.5526992287917738,
1511
  "grad_norm": 0.0,
1512
  "learning_rate": 8.79463319744677e-06,
1513
+ "loss": 1.5586,
1514
  "step": 215
1515
  },
1516
  {
1517
  "epoch": 0.5552699228791774,
1518
  "grad_norm": 0.0,
1519
  "learning_rate": 8.711952215038837e-06,
1520
+ "loss": 1.5527,
1521
  "step": 216
1522
  },
1523
  {
1524
  "epoch": 0.5578406169665809,
1525
  "grad_norm": 0.0,
1526
  "learning_rate": 8.629360675661693e-06,
1527
+ "loss": 1.5374,
1528
  "step": 217
1529
  },
1530
  {
1531
  "epoch": 0.5604113110539846,
1532
  "grad_norm": 0.0,
1533
  "learning_rate": 8.546864314535478e-06,
1534
+ "loss": 1.5647,
1535
  "step": 218
1536
  },
1537
  {
1538
  "epoch": 0.5629820051413882,
1539
  "grad_norm": 0.0,
1540
  "learning_rate": 8.464468860271084e-06,
1541
+ "loss": 1.5356,
1542
  "step": 219
1543
  },
1544
  {
1545
  "epoch": 0.5655526992287918,
1546
  "grad_norm": 0.0,
1547
  "learning_rate": 8.382180034472353e-06,
1548
+ "loss": 1.5483,
1549
  "step": 220
1550
  },
1551
  {
1552
  "epoch": 0.5681233933161953,
1553
  "grad_norm": 0.0,
1554
  "learning_rate": 8.30000355133876e-06,
1555
+ "loss": 1.5386,
1556
  "step": 221
1557
  },
1558
  {
1559
  "epoch": 0.570694087403599,
1560
  "grad_norm": 0.0,
1561
  "learning_rate": 8.217945117268624e-06,
1562
+ "loss": 1.5552,
1563
  "step": 222
1564
  },
1565
  {
1566
  "epoch": 0.5732647814910026,
1567
  "grad_norm": 0.0,
1568
  "learning_rate": 8.136010430462837e-06,
1569
+ "loss": 1.5635,
1570
  "step": 223
1571
  },
1572
  {
1573
  "epoch": 0.5758354755784062,
1574
  "grad_norm": 0.0,
1575
  "learning_rate": 8.0542051805292e-06,
1576
+ "loss": 1.5657,
1577
  "step": 224
1578
  },
1579
  {
1580
  "epoch": 0.5784061696658098,
1581
  "grad_norm": 0.0,
1582
  "learning_rate": 7.9725350480873e-06,
1583
+ "loss": 1.5386,
1584
  "step": 225
1585
  },
1586
  {
1587
  "epoch": 0.5809768637532133,
1588
  "grad_norm": 0.0,
1589
  "learning_rate": 7.89100570437408e-06,
1590
+ "loss": 1.6018,
1591
  "step": 226
1592
  },
1593
  {
1594
  "epoch": 0.583547557840617,
1595
  "grad_norm": 0.0,
1596
  "learning_rate": 7.809622810849986e-06,
1597
+ "loss": 1.5396,
1598
  "step": 227
1599
  },
1600
  {
1601
  "epoch": 0.5861182519280206,
1602
  "grad_norm": 0.0,
1603
  "learning_rate": 7.72839201880587e-06,
1604
+ "loss": 1.5474,
1605
  "step": 228
1606
  },
1607
  {
1608
  "epoch": 0.5886889460154242,
1609
  "grad_norm": 0.0,
1610
  "learning_rate": 7.647318968970528e-06,
1611
+ "loss": 1.5654,
1612
  "step": 229
1613
  },
1614
  {
1615
  "epoch": 0.5912596401028277,
1616
  "grad_norm": 0.0,
1617
  "learning_rate": 7.566409291119008e-06,
1618
+ "loss": 1.5732,
1619
  "step": 230
1620
  },
1621
  {
1622
  "epoch": 0.5938303341902313,
1623
  "grad_norm": 0.0,
1624
  "learning_rate": 7.485668603681706e-06,
1625
+ "loss": 1.5779,
1626
  "step": 231
1627
  },
1628
  {
1629
  "epoch": 0.596401028277635,
1630
  "grad_norm": 0.0,
1631
  "learning_rate": 7.405102513354166e-06,
1632
+ "loss": 1.5449,
1633
  "step": 232
1634
  },
1635
  {
1636
  "epoch": 0.5989717223650386,
1637
  "grad_norm": 0.0,
1638
  "learning_rate": 7.324716614707794e-06,
1639
+ "loss": 1.5408,
1640
  "step": 233
1641
  },
1642
  {
1643
  "epoch": 0.6015424164524421,
1644
  "grad_norm": 0.0,
1645
  "learning_rate": 7.2445164898013345e-06,
1646
+ "loss": 1.5403,
1647
  "step": 234
1648
  },
1649
  {
1650
  "epoch": 0.6041131105398457,
1651
  "grad_norm": 0.0,
1652
  "learning_rate": 7.1645077077932666e-06,
1653
+ "loss": 1.5159,
1654
  "step": 235
1655
  },
1656
  {
1657
  "epoch": 0.6066838046272494,
1658
  "grad_norm": 0.0,
1659
  "learning_rate": 7.084695824555074e-06,
1660
+ "loss": 1.5557,
1661
  "step": 236
1662
  },
1663
  {
1664
  "epoch": 0.609254498714653,
1665
  "grad_norm": 0.0,
1666
  "learning_rate": 7.005086382285426e-06,
1667
+ "loss": 1.5625,
1668
  "step": 237
1669
  },
1670
  {
1671
  "epoch": 0.6118251928020566,
1672
  "grad_norm": 0.0,
1673
  "learning_rate": 6.925684909125354e-06,
1674
+ "loss": 1.552,
1675
  "step": 238
1676
  },
1677
  {
1678
  "epoch": 0.6143958868894601,
1679
  "grad_norm": 0.0,
1680
  "learning_rate": 6.84649691877433e-06,
1681
+ "loss": 1.5488,
1682
  "step": 239
1683
  },
1684
  {
1685
  "epoch": 0.6169665809768637,
1686
  "grad_norm": 0.0,
1687
  "learning_rate": 6.767527910107437e-06,
1688
+ "loss": 1.5181,
1689
  "step": 240
1690
  },
1691
  {
1692
  "epoch": 0.6195372750642674,
1693
  "grad_norm": 0.0,
1694
  "learning_rate": 6.688783366793488e-06,
1695
+ "loss": 1.5403,
1696
  "step": 241
1697
  },
1698
  {
1699
  "epoch": 0.622107969151671,
1700
  "grad_norm": 0.0,
1701
  "learning_rate": 6.610268756914254e-06,
1702
+ "loss": 1.5662,
1703
  "step": 242
1704
  },
1705
  {
1706
  "epoch": 0.6246786632390745,
1707
  "grad_norm": 0.0,
1708
  "learning_rate": 6.5319895325847535e-06,
1709
+ "loss": 1.5222,
1710
  "step": 243
1711
  },
1712
  {
1713
  "epoch": 0.6272493573264781,
1714
  "grad_norm": 0.0,
1715
  "learning_rate": 6.453951129574644e-06,
1716
+ "loss": 1.5439,
1717
  "step": 244
1718
  },
1719
  {
1720
  "epoch": 0.6298200514138818,
1721
  "grad_norm": 0.0,
1722
  "learning_rate": 6.3761589669307745e-06,
1723
+ "loss": 1.5312,
1724
  "step": 245
1725
  },
1726
  {
1727
  "epoch": 0.6323907455012854,
1728
  "grad_norm": 0.0,
1729
  "learning_rate": 6.298618446600856e-06,
1730
+ "loss": 1.5383,
1731
  "step": 246
1732
  },
1733
  {
1734
  "epoch": 0.6349614395886889,
1735
  "grad_norm": 0.0,
1736
  "learning_rate": 6.221334953058389e-06,
1737
+ "loss": 1.5393,
1738
  "step": 247
1739
  },
1740
  {
1741
  "epoch": 0.6375321336760925,
1742
  "grad_norm": 0.0,
1743
  "learning_rate": 6.144313852928712e-06,
1744
+ "loss": 1.5247,
1745
  "step": 248
1746
  },
1747
  {
1748
  "epoch": 0.6401028277634961,
1749
  "grad_norm": 0.0,
1750
  "learning_rate": 6.067560494616374e-06,
1751
+ "loss": 1.5454,
1752
  "step": 249
1753
  },
1754
  {
1755
  "epoch": 0.6426735218508998,
1756
  "grad_norm": 0.0,
1757
  "learning_rate": 5.9910802079337285e-06,
1758
+ "loss": 1.5215,
1759
  "step": 250
1760
  },
1761
  {
1762
  "epoch": 0.6452442159383034,
1763
  "grad_norm": 0.0,
1764
  "learning_rate": 5.9148783037308154e-06,
1765
+ "loss": 1.5427,
1766
  "step": 251
1767
  },
1768
  {
1769
  "epoch": 0.6478149100257069,
1770
  "grad_norm": 0.0,
1771
  "learning_rate": 5.838960073526589e-06,
1772
+ "loss": 1.5427,
1773
  "step": 252
1774
  },
1775
  {
1776
  "epoch": 0.6503856041131105,
1777
  "grad_norm": 0.0,
1778
  "learning_rate": 5.763330789141457e-06,
1779
+ "loss": 1.5552,
1780
  "step": 253
1781
  },
1782
  {
1783
  "epoch": 0.6529562982005142,
1784
  "grad_norm": 0.0,
1785
  "learning_rate": 5.687995702331211e-06,
1786
+ "loss": 1.5388,
1787
  "step": 254
1788
  },
1789
  {
1790
  "epoch": 0.6555269922879178,
1791
  "grad_norm": 0.0,
1792
  "learning_rate": 5.612960044422335e-06,
1793
+ "loss": 1.5854,
1794
  "step": 255
1795
  },
1796
  {
1797
  "epoch": 0.6580976863753213,
1798
  "grad_norm": 0.0,
1799
  "learning_rate": 5.538229025948729e-06,
1800
+ "loss": 1.5588,
1801
  "step": 256
1802
  },
1803
  {
1804
  "epoch": 0.6606683804627249,
1805
  "grad_norm": 0.0,
1806
  "learning_rate": 5.463807836289921e-06,
1807
+ "loss": 1.5217,
1808
  "step": 257
1809
  },
1810
  {
1811
  "epoch": 0.6632390745501285,
1812
  "grad_norm": 0.0,
1813
  "learning_rate": 5.389701643310661e-06,
1814
+ "loss": 1.5066,
1815
  "step": 258
1816
  },
1817
  {
1818
  "epoch": 0.6658097686375322,
1819
  "grad_norm": 0.0,
1820
  "learning_rate": 5.3159155930021e-06,
1821
+ "loss": 1.5327,
1822
  "step": 259
1823
  },
1824
  {
1825
  "epoch": 0.6683804627249358,
1826
  "grad_norm": 0.0,
1827
  "learning_rate": 5.2424548091244334e-06,
1828
+ "loss": 1.5522,
1829
  "step": 260
1830
  },
1831
  {
1832
  "epoch": 0.6709511568123393,
1833
  "grad_norm": 0.0,
1834
  "learning_rate": 5.169324392851105e-06,
1835
+ "loss": 1.543,
1836
  "step": 261
1837
  },
1838
  {
1839
  "epoch": 0.6735218508997429,
1840
  "grad_norm": 0.0,
1841
  "learning_rate": 5.096529422414571e-06,
1842
+ "loss": 1.5483,
1843
  "step": 262
1844
  },
1845
  {
1846
  "epoch": 0.6760925449871465,
1847
  "grad_norm": 0.0,
1848
  "learning_rate": 5.0240749527536845e-06,
1849
+ "loss": 1.5234,
1850
  "step": 263
1851
  },
1852
  {
1853
  "epoch": 0.6786632390745502,
1854
  "grad_norm": 0.0,
1855
  "learning_rate": 4.951966015162652e-06,
1856
+ "loss": 1.5315,
1857
  "step": 264
1858
  },
1859
  {
1860
  "epoch": 0.6812339331619537,
1861
  "grad_norm": 0.0,
1862
  "learning_rate": 4.880207616941663e-06,
1863
+ "loss": 1.5193,
1864
  "step": 265
1865
  },
1866
  {
1867
  "epoch": 0.6838046272493573,
1868
  "grad_norm": 0.0,
1869
  "learning_rate": 4.8088047410492e-06,
1870
+ "loss": 1.5586,
1871
  "step": 266
1872
  },
1873
  {
1874
  "epoch": 0.6863753213367609,
1875
  "grad_norm": 0.0,
1876
  "learning_rate": 4.737762345755975e-06,
1877
+ "loss": 1.481,
1878
  "step": 267
1879
  },
1880
  {
1881
  "epoch": 0.6889460154241646,
1882
  "grad_norm": 0.0,
1883
  "learning_rate": 4.667085364300678e-06,
1884
+ "loss": 1.5869,
1885
  "step": 268
1886
  },
1887
  {
1888
  "epoch": 0.6915167095115681,
1889
  "grad_norm": 0.0,
1890
  "learning_rate": 4.596778704547359e-06,
1891
+ "loss": 1.5366,
1892
  "step": 269
1893
  },
1894
  {
1895
  "epoch": 0.6940874035989717,
1896
  "grad_norm": 0.0,
1897
  "learning_rate": 4.526847248644652e-06,
1898
+ "loss": 1.5007,
1899
  "step": 270
1900
  },
1901
  {
1902
  "epoch": 0.6966580976863753,
1903
  "grad_norm": 0.0,
1904
  "learning_rate": 4.457295852686746e-06,
1905
+ "loss": 1.5352,
1906
  "step": 271
1907
  },
1908
  {
1909
  "epoch": 0.699228791773779,
1910
  "grad_norm": 0.0,
1911
  "learning_rate": 4.388129346376177e-06,
1912
+ "loss": 1.5447,
1913
  "step": 272
1914
  },
1915
  {
1916
  "epoch": 0.7017994858611826,
1917
  "grad_norm": 0.0,
1918
  "learning_rate": 4.319352532688444e-06,
1919
+ "loss": 1.5701,
1920
  "step": 273
1921
  },
1922
  {
1923
  "epoch": 0.7043701799485861,
1924
  "grad_norm": 0.0,
1925
  "learning_rate": 4.250970187538484e-06,
1926
+ "loss": 1.5,
1927
  "step": 274
1928
  },
1929
  {
1930
  "epoch": 0.7069408740359897,
1931
  "grad_norm": 0.0,
1932
  "learning_rate": 4.182987059449056e-06,
1933
+ "loss": 1.5513,
1934
  "step": 275
1935
  },
1936
  {
1937
  "epoch": 0.7095115681233933,
1938
  "grad_norm": 0.0,
1939
  "learning_rate": 4.115407869220948e-06,
1940
+ "loss": 1.5007,
1941
  "step": 276
1942
  },
1943
  {
1944
  "epoch": 0.712082262210797,
1945
  "grad_norm": 0.0,
1946
  "learning_rate": 4.048237309605216e-06,
1947
+ "loss": 1.5398,
1948
  "step": 277
1949
  },
1950
  {
1951
  "epoch": 0.7146529562982005,
1952
  "grad_norm": 0.0,
1953
  "learning_rate": 3.981480044977284e-06,
1954
+ "loss": 1.5476,
1955
  "step": 278
1956
  },
1957
  {
1958
  "epoch": 0.7172236503856041,
1959
  "grad_norm": 0.0,
1960
  "learning_rate": 3.915140711013044e-06,
1961
+ "loss": 1.5015,
1962
  "step": 279
1963
  },
1964
  {
1965
  "epoch": 0.7197943444730077,
1966
  "grad_norm": 0.0,
1967
  "learning_rate": 3.849223914366981e-06,
1968
+ "loss": 1.5405,
1969
  "step": 280
1970
  },
1971
  {
1972
  "epoch": 0.7223650385604113,
1973
  "grad_norm": 0.0,
1974
  "learning_rate": 3.7837342323522454e-06,
1975
+ "loss": 1.5413,
1976
  "step": 281
1977
  },
1978
  {
1979
  "epoch": 0.7249357326478149,
1980
  "grad_norm": 0.0,
1981
  "learning_rate": 3.7186762126228227e-06,
1982
+ "loss": 1.5874,
1983
  "step": 282
1984
  },
1985
  {
1986
  "epoch": 0.7275064267352185,
1987
  "grad_norm": 0.0,
1988
  "learning_rate": 3.654054372857738e-06,
1989
+ "loss": 1.5122,
1990
  "step": 283
1991
  },
1992
  {
1993
  "epoch": 0.7300771208226221,
1994
  "grad_norm": 0.0,
1995
  "learning_rate": 3.5898732004473523e-06,
1996
+ "loss": 1.55,
1997
  "step": 284
1998
  },
1999
  {
2000
  "epoch": 0.7326478149100257,
2001
  "grad_norm": 0.0,
2002
  "learning_rate": 3.5261371521817247e-06,
2003
+ "loss": 1.5337,
2004
  "step": 285
2005
  },
2006
  {
2007
  "epoch": 0.7352185089974294,
2008
  "grad_norm": 0.0,
2009
  "learning_rate": 3.462850653941171e-06,
2010
+ "loss": 1.5159,
2011
  "step": 286
2012
  },
2013
  {
2014
  "epoch": 0.7377892030848329,
2015
  "grad_norm": 0.0,
2016
  "learning_rate": 3.4000181003889e-06,
2017
+ "loss": 1.5139,
2018
  "step": 287
2019
  },
2020
  {
2021
  "epoch": 0.7403598971722365,
2022
  "grad_norm": 0.0,
2023
  "learning_rate": 3.337643854665843e-06,
2024
+ "loss": 1.499,
2025
  "step": 288
2026
  },
2027
  {
2028
  "epoch": 0.7429305912596401,
2029
  "grad_norm": 0.0,
2030
  "learning_rate": 3.2757322480876996e-06,
2031
+ "loss": 1.5149,
2032
  "step": 289
2033
  },
2034
  {
2035
  "epoch": 0.7455012853470437,
2036
  "grad_norm": 0.0,
2037
  "learning_rate": 3.2142875798441376e-06,
2038
+ "loss": 1.5098,
2039
  "step": 290
2040
  },
2041
  {
2042
  "epoch": 0.7480719794344473,
2043
  "grad_norm": 0.0,
2044
  "learning_rate": 3.15331411670027e-06,
2045
+ "loss": 1.5217,
2046
  "step": 291
2047
  },
2048
  {
2049
  "epoch": 0.7506426735218509,
2050
  "grad_norm": 0.0,
2051
  "learning_rate": 3.092816092700366e-06,
2052
+ "loss": 1.5017,
2053
  "step": 292
2054
  },
2055
  {
2056
  "epoch": 0.7532133676092545,
2057
  "grad_norm": 0.0,
2058
  "learning_rate": 3.032797708873828e-06,
2059
+ "loss": 1.5398,
2060
  "step": 293
2061
  },
2062
  {
2063
  "epoch": 0.7557840616966581,
2064
  "grad_norm": 0.0,
2065
  "learning_rate": 2.97326313294349e-06,
2066
+ "loss": 1.4983,
2067
  "step": 294
2068
  },
2069
  {
2070
  "epoch": 0.7583547557840618,
2071
  "grad_norm": 0.0,
2072
  "learning_rate": 2.914216499036178e-06,
2073
+ "loss": 1.5271,
2074
  "step": 295
2075
  },
2076
  {
2077
  "epoch": 0.7609254498714653,
2078
  "grad_norm": 0.0,
2079
  "learning_rate": 2.855661907395655e-06,
2080
+ "loss": 1.5286,
2081
  "step": 296
2082
  },
2083
  {
2084
  "epoch": 0.7634961439588689,
2085
  "grad_norm": 0.0,
2086
  "learning_rate": 2.7976034240978834e-06,
2087
+ "loss": 1.4954,
2088
  "step": 297
2089
  },
2090
  {
2091
  "epoch": 0.7660668380462725,
2092
  "grad_norm": 0.0,
2093
  "learning_rate": 2.740045080768694e-06,
2094
+ "loss": 1.4653,
2095
  "step": 298
2096
  },
2097
  {
2098
  "epoch": 0.7686375321336761,
2099
  "grad_norm": 0.0,
2100
  "learning_rate": 2.6829908743037936e-06,
2101
+ "loss": 1.5271,
2102
  "step": 299
2103
  },
2104
  {
2105
  "epoch": 0.7712082262210797,
2106
  "grad_norm": 0.0,
2107
  "learning_rate": 2.626444766591253e-06,
2108
+ "loss": 1.48,
2109
  "step": 300
2110
  },
2111
  {
2112
  "epoch": 0.7737789203084833,
2113
  "grad_norm": 0.0,
2114
  "learning_rate": 2.570410684236365e-06,
2115
+ "loss": 1.5093,
2116
  "step": 301
2117
  },
2118
  {
2119
  "epoch": 0.7763496143958869,
2120
  "grad_norm": 0.0,
2121
  "learning_rate": 2.514892518288988e-06,
2122
+ "loss": 1.531,
2123
  "step": 302
2124
  },
2125
  {
2126
  "epoch": 0.7789203084832905,
2127
  "grad_norm": 0.0,
2128
  "learning_rate": 2.4598941239733555e-06,
2129
+ "loss": 1.4795,
2130
  "step": 303
2131
  },
2132
  {
2133
  "epoch": 0.781491002570694,
2134
  "grad_norm": 0.0,
2135
  "learning_rate": 2.4054193204203457e-06,
2136
+ "loss": 1.5056,
2137
  "step": 304
2138
  },
2139
  {
2140
  "epoch": 0.7840616966580977,
2141
  "grad_norm": 0.0,
2142
  "learning_rate": 2.3514718904022993e-06,
2143
+ "loss": 1.4841,
2144
  "step": 305
2145
  },
2146
  {
2147
  "epoch": 0.7866323907455013,
2148
  "grad_norm": 0.0,
2149
  "learning_rate": 2.2980555800703273e-06,
2150
+ "loss": 1.5337,
2151
  "step": 306
2152
  },
2153
  {
2154
  "epoch": 0.7892030848329049,
2155
  "grad_norm": 0.0,
2156
  "learning_rate": 2.2451740986941905e-06,
2157
+ "loss": 1.5212,
2158
  "step": 307
2159
  },
2160
  {
2161
  "epoch": 0.7917737789203085,
2162
  "grad_norm": 0.0,
2163
  "learning_rate": 2.1928311184046967e-06,
2164
+ "loss": 1.5308,
2165
  "step": 308
2166
  },
2167
  {
2168
  "epoch": 0.794344473007712,
2169
  "grad_norm": 0.0,
2170
  "learning_rate": 2.1410302739387424e-06,
2171
+ "loss": 1.5159,
2172
  "step": 309
2173
  },
2174
  {
2175
  "epoch": 0.7969151670951157,
2176
  "grad_norm": 0.0,
2177
  "learning_rate": 2.0897751623868833e-06,
2178
+ "loss": 1.5349,
2179
  "step": 310
2180
  },
2181
  {
2182
  "epoch": 0.7994858611825193,
2183
  "grad_norm": 0.0,
2184
  "learning_rate": 2.0390693429435626e-06,
2185
+ "loss": 1.5029,
2186
  "step": 311
2187
  },
2188
  {
2189
  "epoch": 0.8020565552699229,
2190
  "grad_norm": 0.0,
2191
  "learning_rate": 1.9889163366599607e-06,
2192
+ "loss": 1.519,
2193
  "step": 312
2194
  },
2195
  {
2196
  "epoch": 0.8046272493573264,
2197
  "grad_norm": 0.0,
2198
  "learning_rate": 1.939319626199483e-06,
2199
+ "loss": 1.5054,
2200
  "step": 313
2201
  },
2202
  {
2203
  "epoch": 0.8071979434447301,
2204
  "grad_norm": 0.0,
2205
  "learning_rate": 1.890282655595922e-06,
2206
+ "loss": 1.4736,
2207
  "step": 314
2208
  },
2209
  {
2210
  "epoch": 0.8097686375321337,
2211
  "grad_norm": 0.0,
2212
  "learning_rate": 1.8418088300143044e-06,
2213
+ "loss": 1.5242,
2214
  "step": 315
2215
  },
2216
  {
2217
  "epoch": 0.8123393316195373,
2218
  "grad_norm": 0.0,
2219
  "learning_rate": 1.7939015155144378e-06,
2220
+ "loss": 1.5208,
2221
  "step": 316
2222
  },
2223
  {
2224
  "epoch": 0.8149100257069408,
2225
  "grad_norm": 0.0,
2226
  "learning_rate": 1.7465640388171589e-06,
2227
+ "loss": 1.5332,
2228
  "step": 317
2229
  },
2230
  {
2231
  "epoch": 0.8174807197943444,
2232
  "grad_norm": 0.0,
2233
  "learning_rate": 1.6997996870733268e-06,
2234
+ "loss": 1.4978,
2235
  "step": 318
2236
  },
2237
  {
2238
  "epoch": 0.8200514138817481,
2239
  "grad_norm": 0.0,
2240
  "learning_rate": 1.6536117076355652e-06,
2241
+ "loss": 1.4961,
2242
  "step": 319
2243
  },
2244
  {
2245
  "epoch": 0.8226221079691517,
2246
  "grad_norm": 0.0,
2247
  "learning_rate": 1.6080033078327585e-06,
2248
+ "loss": 1.5559,
2249
  "step": 320
2250
  },
2251
  {
2252
  "epoch": 0.8251928020565553,
2253
  "grad_norm": 0.0,
2254
  "learning_rate": 1.5629776547473397e-06,
2255
+ "loss": 1.5435,
2256
  "step": 321
2257
  },
2258
  {
2259
  "epoch": 0.8277634961439588,
2260
  "grad_norm": 0.0,
2261
  "learning_rate": 1.5185378749953538e-06,
2262
+ "loss": 1.4744,
2263
  "step": 322
2264
  },
2265
  {
2266
  "epoch": 0.8303341902313625,
2267
  "grad_norm": 0.0,
2268
  "learning_rate": 1.4746870545093528e-06,
2269
+ "loss": 1.4885,
2270
  "step": 323
2271
  },
2272
  {
2273
  "epoch": 0.8329048843187661,
2274
  "grad_norm": 0.0,
2275
  "learning_rate": 1.4314282383241097e-06,
2276
+ "loss": 1.5088,
2277
  "step": 324
2278
  },
2279
  {
2280
  "epoch": 0.8354755784061697,
2281
  "grad_norm": 0.0,
2282
  "learning_rate": 1.388764430365147e-06,
2283
+ "loss": 1.4971,
2284
  "step": 325
2285
  },
2286
  {
2287
  "epoch": 0.8380462724935732,
2288
  "grad_norm": 0.0,
2289
  "learning_rate": 1.3466985932401743e-06,
2290
+ "loss": 1.5269,
2291
  "step": 326
2292
  },
2293
  {
2294
  "epoch": 0.8406169665809768,
2295
  "grad_norm": 0.0,
2296
  "learning_rate": 1.3052336480333372e-06,
2297
+ "loss": 1.5088,
2298
  "step": 327
2299
  },
2300
  {
2301
  "epoch": 0.8431876606683805,
2302
  "grad_norm": 0.0,
2303
  "learning_rate": 1.2643724741023845e-06,
2304
+ "loss": 1.5046,
2305
  "step": 328
2306
  },
2307
  {
2308
  "epoch": 0.8457583547557841,
2309
  "grad_norm": 0.0,
2310
  "learning_rate": 1.2241179088787192e-06,
2311
+ "loss": 1.5217,
2312
  "step": 329
2313
  },
2314
  {
2315
  "epoch": 0.8483290488431876,
2316
  "grad_norm": 0.0,
2317
  "learning_rate": 1.1844727476703776e-06,
2318
+ "loss": 1.4951,
2319
  "step": 330
2320
  },
2321
  {
2322
  "epoch": 0.8508997429305912,
2323
  "grad_norm": 0.0,
2324
  "learning_rate": 1.1454397434679022e-06,
2325
+ "loss": 1.4941,
2326
  "step": 331
2327
  },
2328
  {
2329
  "epoch": 0.8534704370179949,
2330
  "grad_norm": 0.0,
2331
  "learning_rate": 1.1070216067531825e-06,
2332
+ "loss": 1.5122,
2333
  "step": 332
2334
  },
2335
  {
2336
  "epoch": 0.8560411311053985,
2337
  "grad_norm": 0.0,
2338
  "learning_rate": 1.0692210053112451e-06,
2339
+ "loss": 1.5427,
2340
  "step": 333
2341
  },
2342
  {
2343
  "epoch": 0.8586118251928021,
2344
  "grad_norm": 0.0,
2345
  "learning_rate": 1.032040564044975e-06,
2346
+ "loss": 1.5278,
2347
  "step": 334
2348
  },
2349
  {
2350
  "epoch": 0.8611825192802056,
2351
  "grad_norm": 0.0,
2352
  "learning_rate": 9.954828647928727e-07,
2353
+ "loss": 1.4768,
2354
  "step": 335
2355
  },
2356
  {
2357
  "epoch": 0.8637532133676092,
2358
  "grad_norm": 0.0,
2359
  "learning_rate": 9.595504461497441e-07,
2360
+ "loss": 1.5066,
2361
  "step": 336
2362
  },
2363
  {
2364
  "epoch": 0.8663239074550129,
2365
  "grad_norm": 0.0,
2366
  "learning_rate": 9.242458032904311e-07,
2367
+ "loss": 1.4871,
2368
  "step": 337
2369
  },
2370
  {
2371
  "epoch": 0.8688946015424165,
2372
  "grad_norm": 0.0,
2373
  "learning_rate": 8.895713877965373e-07,
2374
+ "loss": 1.5212,
2375
  "step": 338
2376
  },
2377
  {
2378
  "epoch": 0.87146529562982,
2379
  "grad_norm": 0.0,
2380
  "learning_rate": 8.555296074861996e-07,
2381
+ "loss": 1.4919,
2382
  "step": 339
2383
  },
2384
  {
2385
  "epoch": 0.8740359897172236,
2386
  "grad_norm": 0.0,
2387
  "learning_rate": 8.22122826246875e-07,
2388
+ "loss": 1.5476,
2389
  "step": 340
2390
  },
2391
  {
2392
  "epoch": 0.8766066838046273,
2393
  "grad_norm": 0.0,
2394
  "learning_rate": 7.89353363871197e-07,
2395
+ "loss": 1.5142,
2396
  "step": 341
2397
  },
2398
  {
2399
  "epoch": 0.8791773778920309,
2400
  "grad_norm": 0.0,
2401
  "learning_rate": 7.572234958958846e-07,
2402
+ "loss": 1.5332,
2403
  "step": 342
2404
  },
2405
  {
2406
  "epoch": 0.8817480719794345,
2407
  "grad_norm": 0.0,
2408
  "learning_rate": 7.2573545344373e-07,
2409
+ "loss": 1.4924,
2410
  "step": 343
2411
  },
2412
  {
2413
  "epoch": 0.884318766066838,
2414
  "grad_norm": 0.0,
2415
  "learning_rate": 6.948914230686688e-07,
2416
+ "loss": 1.5181,
2417
  "step": 344
2418
  },
2419
  {
2420
  "epoch": 0.8868894601542416,
2421
  "grad_norm": 0.0,
2422
  "learning_rate": 6.646935466039373e-07,
2423
+ "loss": 1.5137,
2424
  "step": 345
2425
  },
2426
  {
2427
  "epoch": 0.8894601542416453,
2428
  "grad_norm": 0.0,
2429
  "learning_rate": 6.351439210133492e-07,
2430
+ "loss": 1.5056,
2431
  "step": 346
2432
  },
2433
  {
2434
  "epoch": 0.8920308483290489,
2435
  "grad_norm": 0.0,
2436
  "learning_rate": 6.062445982456777e-07,
2437
+ "loss": 1.4688,
2438
  "step": 347
2439
  },
2440
  {
2441
  "epoch": 0.8946015424164524,
2442
  "grad_norm": 0.0,
2443
  "learning_rate": 5.77997585092166e-07,
2444
+ "loss": 1.5146,
2445
  "step": 348
2446
  },
2447
  {
2448
  "epoch": 0.897172236503856,
2449
  "grad_norm": 0.0,
2450
  "learning_rate": 5.504048430471753e-07,
2451
+ "loss": 1.4695,
2452
  "step": 349
2453
  },
2454
  {
2455
  "epoch": 0.8997429305912596,
2456
  "grad_norm": 0.0,
2457
  "learning_rate": 5.234682881719766e-07,
2458
+ "loss": 1.5129,
2459
  "step": 350
2460
  },
2461
  {
2462
  "epoch": 0.9023136246786633,
2463
  "grad_norm": 0.0,
2464
  "learning_rate": 4.971897909616985e-07,
2465
+ "loss": 1.5061,
2466
  "step": 351
2467
  },
2468
  {
2469
  "epoch": 0.9048843187660668,
2470
  "grad_norm": 0.0,
2471
  "learning_rate": 4.715711762154362e-07,
2472
+ "loss": 1.4722,
2473
  "step": 352
2474
  },
2475
  {
2476
  "epoch": 0.9074550128534704,
2477
  "grad_norm": 0.0,
2478
  "learning_rate": 4.4661422290954495e-07,
2479
+ "loss": 1.5056,
2480
  "step": 353
2481
  },
2482
  {
2483
  "epoch": 0.910025706940874,
2484
  "grad_norm": 0.0,
2485
  "learning_rate": 4.2232066407409067e-07,
2486
+ "loss": 1.5017,
2487
  "step": 354
2488
  },
2489
  {
2490
  "epoch": 0.9125964010282777,
2491
  "grad_norm": 0.0,
2492
  "learning_rate": 3.986921866725202e-07,
2493
+ "loss": 1.5393,
2494
  "step": 355
2495
  },
2496
  {
2497
  "epoch": 0.9151670951156813,
2498
  "grad_norm": 0.0,
2499
  "learning_rate": 3.7573043148451673e-07,
2500
+ "loss": 1.5034,
2501
  "step": 356
2502
  },
2503
  {
2504
  "epoch": 0.9177377892030848,
2505
  "grad_norm": 0.0,
2506
  "learning_rate": 3.5343699299205003e-07,
2507
+ "loss": 1.5139,
2508
  "step": 357
2509
  },
2510
  {
2511
  "epoch": 0.9203084832904884,
2512
  "grad_norm": 0.0,
2513
  "learning_rate": 3.3181341926867283e-07,
2514
+ "loss": 1.4788,
2515
  "step": 358
2516
  },
2517
  {
2518
  "epoch": 0.922879177377892,
2519
  "grad_norm": 0.0,
2520
  "learning_rate": 3.1086121187200667e-07,
2521
+ "loss": 1.4746,
2522
  "step": 359
2523
  },
2524
  {
2525
  "epoch": 0.9254498714652957,
2526
  "grad_norm": 0.0,
2527
  "learning_rate": 2.905818257394799e-07,
2528
+ "loss": 1.5112,
2529
  "step": 360
2530
  },
2531
  {
2532
  "epoch": 0.9280205655526992,
2533
  "grad_norm": 0.0,
2534
  "learning_rate": 2.7097666908729283e-07,
2535
+ "loss": 1.5071,
2536
  "step": 361
2537
  },
2538
  {
2539
  "epoch": 0.9305912596401028,
2540
  "grad_norm": 0.0,
2541
  "learning_rate": 2.520471033126326e-07,
2542
+ "loss": 1.4773,
2543
  "step": 362
2544
  },
2545
  {
2546
  "epoch": 0.9331619537275064,
2547
  "grad_norm": 0.0,
2548
  "learning_rate": 2.3379444289913344e-07,
2549
+ "loss": 1.5146,
2550
  "step": 363
2551
  },
2552
  {
2553
  "epoch": 0.9357326478149101,
2554
  "grad_norm": 0.0,
2555
  "learning_rate": 2.1621995532559947e-07,
2556
+ "loss": 1.4978,
2557
  "step": 364
2558
  },
2559
  {
2560
  "epoch": 0.9383033419023136,
2561
  "grad_norm": 0.0,
2562
  "learning_rate": 1.9932486097799408e-07,
2563
+ "loss": 1.5183,
2564
  "step": 365
2565
  },
2566
  {
2567
  "epoch": 0.9408740359897172,
2568
  "grad_norm": 0.0,
2569
  "learning_rate": 1.8311033306468552e-07,
2570
+ "loss": 1.4761,
2571
  "step": 366
2572
  },
2573
  {
2574
  "epoch": 0.9434447300771208,
2575
  "grad_norm": 0.0,
2576
  "learning_rate": 1.6757749753498865e-07,
2577
+ "loss": 1.509,
2578
  "step": 367
2579
  },
2580
  {
2581
  "epoch": 0.9460154241645244,
2582
  "grad_norm": 0.0,
2583
  "learning_rate": 1.5272743300097316e-07,
2584
+ "loss": 1.5095,
2585
  "step": 368
2586
  },
2587
  {
2588
  "epoch": 0.9485861182519281,
2589
  "grad_norm": 0.0,
2590
  "learning_rate": 1.3856117066256225e-07,
2591
+ "loss": 1.5361,
2592
  "step": 369
2593
  },
2594
  {
2595
  "epoch": 0.9511568123393316,
2596
  "grad_norm": 0.0,
2597
  "learning_rate": 1.2507969423593225e-07,
2598
+ "loss": 1.5051,
2599
  "step": 370
2600
  },
2601
  {
2602
  "epoch": 0.9537275064267352,
2603
  "grad_norm": 0.0,
2604
  "learning_rate": 1.1228393988519381e-07,
2605
+ "loss": 1.5532,
2606
  "step": 371
2607
  },
2608
  {
2609
  "epoch": 0.9562982005141388,
2610
  "grad_norm": 0.0,
2611
  "learning_rate": 1.0017479615738957e-07,
2612
+ "loss": 1.553,
2613
  "step": 372
2614
  },
2615
  {
2616
  "epoch": 0.9588688946015425,
2617
  "grad_norm": 0.0,
2618
  "learning_rate": 8.875310392079118e-08,
2619
+ "loss": 1.5125,
2620
  "step": 373
2621
  },
2622
  {
2623
  "epoch": 0.961439588688946,
2624
  "grad_norm": 0.0,
2625
  "learning_rate": 7.801965630651165e-08,
2626
+ "loss": 1.4321,
2627
  "step": 374
2628
  },
2629
  {
2630
  "epoch": 0.9640102827763496,
2631
  "grad_norm": 0.0,
2632
  "learning_rate": 6.797519865342161e-08,
2633
+ "loss": 1.5005,
2634
  "step": 375
2635
  },
2636
  {
2637
  "epoch": 0.9665809768637532,
2638
  "grad_norm": 0.0,
2639
  "learning_rate": 5.862042845640403e-08,
2640
+ "loss": 1.4973,
2641
  "step": 376
2642
  },
2643
  {
2644
  "epoch": 0.9691516709511568,
2645
  "grad_norm": 0.0,
2646
  "learning_rate": 4.9955995317908514e-08,
2647
+ "loss": 1.5449,
2648
  "step": 377
2649
  },
2650
  {
2651
  "epoch": 0.9717223650385605,
2652
  "grad_norm": 0.0,
2653
  "learning_rate": 4.198250090284961e-08,
2654
+ "loss": 1.4795,
2655
  "step": 378
2656
  },
2657
  {
2658
  "epoch": 0.974293059125964,
2659
  "grad_norm": 0.0,
2660
  "learning_rate": 3.47004988968247e-08,
2661
+ "loss": 1.5508,
2662
  "step": 379
2663
  },
2664
  {
2665
  "epoch": 0.9768637532133676,
2666
  "grad_norm": 0.0,
2667
  "learning_rate": 2.8110494967664713e-08,
2668
+ "loss": 1.5095,
2669
  "step": 380
2670
  },
2671
  {
2672
  "epoch": 0.9794344473007712,
2673
  "grad_norm": 0.0,
2674
  "learning_rate": 2.221294673032004e-08,
2675
+ "loss": 1.5146,
2676
  "step": 381
2677
  },
2678
  {
2679
  "epoch": 0.9820051413881749,
2680
  "grad_norm": 0.0,
2681
  "learning_rate": 1.7008263715085904e-08,
2682
+ "loss": 1.5112,
2683
  "step": 382
2684
  },
2685
  {
2686
  "epoch": 0.9845758354755784,
2687
  "grad_norm": 0.0,
2688
  "learning_rate": 1.24968073391607e-08,
2689
+ "loss": 1.5144,
2690
  "step": 383
2691
  },
2692
  {
2693
  "epoch": 0.987146529562982,
2694
  "grad_norm": 0.0,
2695
  "learning_rate": 8.678890881552715e-09,
2696
+ "loss": 1.5459,
2697
  "step": 384
2698
  },
2699
  {
2700
  "epoch": 0.9897172236503856,
2701
  "grad_norm": 0.0,
2702
  "learning_rate": 5.554779461323101e-09,
2703
+ "loss": 1.4885,
2704
  "step": 385
2705
  },
2706
  {
2707
  "epoch": 0.9922879177377892,
2708
  "grad_norm": 0.0,
2709
  "learning_rate": 3.1246900191761463e-09,
2710
+ "loss": 1.4919,
2711
  "step": 386
2712
  },
2713
  {
2714
  "epoch": 0.9948586118251928,
2715
  "grad_norm": 0.0,
2716
  "learning_rate": 1.3887913023946652e-09,
2717
+ "loss": 1.5034,
2718
  "step": 387
2719
  },
2720
  {
2721
  "epoch": 0.9974293059125964,
2722
  "grad_norm": 0.0,
2723
  "learning_rate": 3.4720385312492223e-10,
2724
+ "loss": 1.4812,
2725
  "step": 388
2726
  },
2727
  {
2728
  "epoch": 1.0,
2729
  "grad_norm": 0.0,
2730
  "learning_rate": 0.0,
2731
+ "loss": 1.3696,
2732
  "step": 389
2733
  },
2734
  {
2735
  "epoch": 1.0,
2736
  "step": 389,
2737
+ "total_flos": 1.4102482311698186e+18,
2738
+ "train_loss": 1.5950692380302056,
2739
+ "train_runtime": 5789.3639,
2740
+ "train_samples_per_second": 17.167,
2741
  "train_steps_per_second": 0.067
2742
  }
2743
  ],
 
2758
  "attributes": {}
2759
  }
2760
  },
2761
+ "total_flos": 1.4102482311698186e+18,
2762
  "train_batch_size": 8,
2763
  "trial_name": null,
2764
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:145ed827bee3a57b7ae1ffa2e2548128c776658cc3e524c09ac1865e2a584bf7
3
  size 6776
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:922bf3c9651d9cec9642c0a40c9644a277ad37d1a89d17d2f00d7318b8038c35
3
  size 6776