anoaky commited on
Commit
e2a0f33
·
verified ·
1 Parent(s): f1cdcfe

Training in progress, epoch 4, checkpoint

Browse files
checkpoint-2220/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1751a91e15485c2f6d57e2040398354fda8cbd997e63ebde3da4aff8a8f08c3c
3
  size 437958648
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3fde9e031d986a8531c58c641f727b4fccd9dba34b250e11255973129990348d
3
  size 437958648
checkpoint-2220/trainer_state.json CHANGED
@@ -8,1613 +8,1618 @@
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
- {
12
- "epoch": 0,
13
- "eval_f1": 0.6562770562770562,
14
- "eval_loss": 0.7476533651351929,
15
- "eval_precision": 0.48976954555244456,
16
- "eval_recall": 0.9943156974202011,
17
- "eval_runtime": 16.4688,
18
- "eval_samples_per_second": 283.749,
19
- "eval_steps_per_second": 35.522,
20
- "step": 0
21
- },
22
  {
23
  "epoch": 0.018026137899954935,
24
- "grad_norm": 14.20566463470459,
25
  "learning_rate": 4.981949458483755e-05,
26
- "loss": 0.6876,
27
  "step": 10
28
  },
29
  {
30
  "epoch": 0.03605227579990987,
31
- "grad_norm": 27.79998016357422,
32
  "learning_rate": 4.963898916967509e-05,
33
- "loss": 0.5988,
34
  "step": 20
35
  },
36
  {
37
  "epoch": 0.054078413699864804,
38
- "grad_norm": 39.63682556152344,
39
  "learning_rate": 4.945848375451264e-05,
40
- "loss": 0.5677,
41
  "step": 30
42
  },
43
  {
44
  "epoch": 0.07210455159981974,
45
- "grad_norm": 38.49867630004883,
46
  "learning_rate": 4.927797833935018e-05,
47
- "loss": 0.5922,
48
  "step": 40
49
  },
50
  {
51
  "epoch": 0.09013068949977468,
52
- "grad_norm": 52.28614044189453,
53
  "learning_rate": 4.909747292418773e-05,
54
- "loss": 0.5506,
55
  "step": 50
56
  },
57
  {
58
  "epoch": 0.10815682739972961,
59
- "grad_norm": 29.180490493774414,
60
  "learning_rate": 4.891696750902527e-05,
61
- "loss": 0.5173,
62
  "step": 60
63
  },
64
  {
65
  "epoch": 0.12618296529968454,
66
- "grad_norm": 33.55237579345703,
67
  "learning_rate": 4.873646209386282e-05,
68
- "loss": 0.4931,
69
  "step": 70
70
  },
71
  {
72
  "epoch": 0.14420910319963948,
73
- "grad_norm": 32.063228607177734,
74
  "learning_rate": 4.855595667870036e-05,
75
- "loss": 0.483,
76
  "step": 80
77
  },
78
  {
79
  "epoch": 0.16223524109959442,
80
- "grad_norm": 24.234926223754883,
81
  "learning_rate": 4.837545126353791e-05,
82
- "loss": 0.47,
83
  "step": 90
84
  },
85
  {
86
  "epoch": 0.18026137899954936,
87
- "grad_norm": 33.66775894165039,
88
  "learning_rate": 4.819494584837546e-05,
89
- "loss": 0.4564,
90
  "step": 100
91
  },
92
  {
93
  "epoch": 0.19828751689950427,
94
- "grad_norm": 53.322574615478516,
95
  "learning_rate": 4.8014440433213e-05,
96
- "loss": 0.5083,
97
  "step": 110
98
  },
99
  {
100
  "epoch": 0.21631365479945922,
101
- "grad_norm": 29.443470001220703,
102
  "learning_rate": 4.783393501805055e-05,
103
- "loss": 0.463,
104
  "step": 120
105
  },
106
  {
107
  "epoch": 0.23433979269941416,
108
- "grad_norm": 33.13877487182617,
109
  "learning_rate": 4.765342960288809e-05,
110
- "loss": 0.4626,
111
  "step": 130
112
  },
113
  {
114
  "epoch": 0.25236593059936907,
115
- "grad_norm": 25.509536743164062,
116
  "learning_rate": 4.747292418772563e-05,
117
- "loss": 0.5113,
118
  "step": 140
119
  },
120
  {
121
  "epoch": 0.270392068499324,
122
- "grad_norm": 21.015031814575195,
123
  "learning_rate": 4.7292418772563177e-05,
124
- "loss": 0.4611,
125
  "step": 150
126
  },
127
  {
128
  "epoch": 0.28841820639927895,
129
- "grad_norm": 28.079387664794922,
130
  "learning_rate": 4.711191335740072e-05,
131
- "loss": 0.4783,
132
  "step": 160
133
  },
134
  {
135
  "epoch": 0.3064443442992339,
136
- "grad_norm": 19.978599548339844,
137
  "learning_rate": 4.693140794223827e-05,
138
- "loss": 0.5026,
139
  "step": 170
140
  },
141
  {
142
  "epoch": 0.32447048219918884,
143
- "grad_norm": 29.316265106201172,
144
  "learning_rate": 4.675090252707581e-05,
145
- "loss": 0.4906,
146
  "step": 180
147
  },
148
  {
149
  "epoch": 0.3424966200991438,
150
- "grad_norm": 18.79282569885254,
151
  "learning_rate": 4.657039711191336e-05,
152
- "loss": 0.5016,
153
  "step": 190
154
  },
155
  {
156
  "epoch": 0.3605227579990987,
157
- "grad_norm": 18.66801643371582,
158
  "learning_rate": 4.63898916967509e-05,
159
- "loss": 0.4502,
160
  "step": 200
161
  },
162
  {
163
  "epoch": 0.3785488958990536,
164
- "grad_norm": 27.929332733154297,
165
  "learning_rate": 4.620938628158845e-05,
166
- "loss": 0.4302,
167
  "step": 210
168
  },
169
  {
170
  "epoch": 0.39657503379900855,
171
- "grad_norm": 20.541879653930664,
172
  "learning_rate": 4.602888086642599e-05,
173
- "loss": 0.4496,
174
  "step": 220
175
  },
176
  {
177
  "epoch": 0.4146011716989635,
178
- "grad_norm": 19.034873962402344,
179
  "learning_rate": 4.584837545126354e-05,
180
- "loss": 0.4541,
181
  "step": 230
182
  },
183
  {
184
  "epoch": 0.43262730959891843,
185
- "grad_norm": 32.077945709228516,
186
  "learning_rate": 4.566787003610109e-05,
187
- "loss": 0.4562,
188
  "step": 240
189
  },
190
  {
191
  "epoch": 0.45065344749887337,
192
- "grad_norm": 25.475997924804688,
193
  "learning_rate": 4.548736462093863e-05,
194
- "loss": 0.4456,
195
  "step": 250
196
  },
197
  {
198
  "epoch": 0.4686795853988283,
199
- "grad_norm": 17.132720947265625,
200
  "learning_rate": 4.530685920577618e-05,
201
- "loss": 0.4629,
202
  "step": 260
203
  },
204
  {
205
  "epoch": 0.48670572329878325,
206
- "grad_norm": 22.313941955566406,
207
  "learning_rate": 4.5126353790613716e-05,
208
- "loss": 0.4444,
209
  "step": 270
210
  },
211
  {
212
  "epoch": 0.5047318611987381,
213
- "grad_norm": 22.373477935791016,
214
  "learning_rate": 4.494584837545127e-05,
215
- "loss": 0.4404,
216
  "step": 280
217
  },
218
  {
219
  "epoch": 0.5227579990986931,
220
- "grad_norm": 16.72430992126465,
221
  "learning_rate": 4.4765342960288806e-05,
222
- "loss": 0.4611,
223
  "step": 290
224
  },
225
  {
226
  "epoch": 0.540784136998648,
227
- "grad_norm": 27.037927627563477,
228
  "learning_rate": 4.458483754512636e-05,
229
- "loss": 0.4272,
230
  "step": 300
231
  },
232
  {
233
  "epoch": 0.558810274898603,
234
- "grad_norm": 31.637985229492188,
235
  "learning_rate": 4.44043321299639e-05,
236
- "loss": 0.448,
237
  "step": 310
238
  },
239
  {
240
  "epoch": 0.5768364127985579,
241
- "grad_norm": 35.010459899902344,
242
  "learning_rate": 4.422382671480145e-05,
243
- "loss": 0.4215,
244
  "step": 320
245
  },
246
  {
247
  "epoch": 0.5948625506985128,
248
- "grad_norm": 26.25156021118164,
249
  "learning_rate": 4.404332129963899e-05,
250
- "loss": 0.4396,
251
  "step": 330
252
  },
253
  {
254
  "epoch": 0.6128886885984678,
255
- "grad_norm": 19.4619083404541,
256
  "learning_rate": 4.386281588447654e-05,
257
- "loss": 0.4378,
258
  "step": 340
259
  },
260
  {
261
  "epoch": 0.6309148264984227,
262
- "grad_norm": 19.16460609436035,
263
  "learning_rate": 4.368231046931408e-05,
264
- "loss": 0.4366,
265
  "step": 350
266
  },
267
  {
268
  "epoch": 0.6489409643983777,
269
- "grad_norm": 30.745384216308594,
270
  "learning_rate": 4.350180505415163e-05,
271
- "loss": 0.4062,
272
  "step": 360
273
  },
274
  {
275
  "epoch": 0.6669671022983326,
276
- "grad_norm": 16.873245239257812,
277
  "learning_rate": 4.332129963898917e-05,
278
- "loss": 0.439,
279
  "step": 370
280
  },
281
  {
282
  "epoch": 0.6849932401982876,
283
- "grad_norm": 25.771486282348633,
284
  "learning_rate": 4.314079422382672e-05,
285
- "loss": 0.4053,
286
  "step": 380
287
  },
288
  {
289
  "epoch": 0.7030193780982424,
290
- "grad_norm": 14.48513412475586,
291
  "learning_rate": 4.296028880866426e-05,
292
- "loss": 0.4164,
293
  "step": 390
294
  },
295
  {
296
  "epoch": 0.7210455159981974,
297
- "grad_norm": 34.993465423583984,
298
  "learning_rate": 4.277978339350181e-05,
299
- "loss": 0.4438,
300
  "step": 400
301
  },
302
  {
303
  "epoch": 0.7390716538981523,
304
- "grad_norm": 22.576608657836914,
305
  "learning_rate": 4.259927797833935e-05,
306
- "loss": 0.4518,
307
  "step": 410
308
  },
309
  {
310
  "epoch": 0.7570977917981072,
311
- "grad_norm": 19.088132858276367,
312
  "learning_rate": 4.24187725631769e-05,
313
- "loss": 0.4495,
314
  "step": 420
315
  },
316
  {
317
  "epoch": 0.7751239296980622,
318
- "grad_norm": 35.2998046875,
319
  "learning_rate": 4.223826714801444e-05,
320
- "loss": 0.3897,
321
  "step": 430
322
  },
323
  {
324
  "epoch": 0.7931500675980171,
325
- "grad_norm": 20.395572662353516,
326
  "learning_rate": 4.205776173285199e-05,
327
- "loss": 0.4818,
328
  "step": 440
329
  },
330
  {
331
  "epoch": 0.8111762054979721,
332
- "grad_norm": 21.174386978149414,
333
  "learning_rate": 4.187725631768953e-05,
334
- "loss": 0.4103,
335
  "step": 450
336
  },
337
  {
338
  "epoch": 0.829202343397927,
339
- "grad_norm": 32.97265625,
340
  "learning_rate": 4.169675090252708e-05,
341
- "loss": 0.4036,
342
  "step": 460
343
  },
344
  {
345
  "epoch": 0.847228481297882,
346
- "grad_norm": 23.78690528869629,
347
  "learning_rate": 4.151624548736462e-05,
348
- "loss": 0.4079,
349
  "step": 470
350
  },
351
  {
352
  "epoch": 0.8652546191978369,
353
- "grad_norm": 17.087247848510742,
354
  "learning_rate": 4.1335740072202167e-05,
355
- "loss": 0.4371,
356
  "step": 480
357
  },
358
  {
359
  "epoch": 0.8832807570977917,
360
- "grad_norm": 13.810160636901855,
361
  "learning_rate": 4.115523465703972e-05,
362
- "loss": 0.4249,
363
  "step": 490
364
  },
365
  {
366
  "epoch": 0.9013068949977467,
367
- "grad_norm": 20.197996139526367,
368
  "learning_rate": 4.0974729241877256e-05,
369
- "loss": 0.3991,
370
  "step": 500
371
  },
372
  {
373
  "epoch": 0.9193330328977016,
374
- "grad_norm": 33.1153564453125,
375
  "learning_rate": 4.079422382671481e-05,
376
- "loss": 0.3994,
377
  "step": 510
378
  },
379
  {
380
  "epoch": 0.9373591707976566,
381
- "grad_norm": 18.20081901550293,
382
  "learning_rate": 4.0613718411552346e-05,
383
- "loss": 0.4176,
384
  "step": 520
385
  },
386
  {
387
  "epoch": 0.9553853086976115,
388
- "grad_norm": 20.09193992614746,
389
  "learning_rate": 4.043321299638989e-05,
390
- "loss": 0.4297,
391
  "step": 530
392
  },
393
  {
394
  "epoch": 0.9734114465975665,
395
- "grad_norm": 15.939692497253418,
396
  "learning_rate": 4.0252707581227436e-05,
397
- "loss": 0.4309,
398
  "step": 540
399
  },
400
  {
401
  "epoch": 0.9914375844975214,
402
- "grad_norm": 24.811601638793945,
403
  "learning_rate": 4.007220216606498e-05,
404
- "loss": 0.3908,
405
  "step": 550
406
  },
407
  {
408
  "epoch": 1.0,
409
- "eval_f1": 0.8367177786987153,
410
- "eval_loss": 0.37827184796333313,
411
- "eval_precision": 0.7951949586451359,
412
- "eval_recall": 0.8828159160472234,
413
- "eval_runtime": 15.9582,
414
- "eval_samples_per_second": 292.827,
415
- "eval_steps_per_second": 36.658,
 
 
 
 
416
  "step": 555
417
  },
418
  {
419
  "epoch": 1.0090130689499774,
420
- "grad_norm": 16.960424423217773,
421
  "learning_rate": 3.989169675090253e-05,
422
- "loss": 0.3719,
423
  "step": 560
424
  },
425
  {
426
  "epoch": 1.0270392068499323,
427
- "grad_norm": 15.816173553466797,
428
  "learning_rate": 3.971119133574007e-05,
429
- "loss": 0.3238,
430
  "step": 570
431
  },
432
  {
433
  "epoch": 1.0450653447498874,
434
- "grad_norm": 19.375043869018555,
435
  "learning_rate": 3.953068592057762e-05,
436
- "loss": 0.3516,
437
  "step": 580
438
  },
439
  {
440
  "epoch": 1.0630914826498423,
441
- "grad_norm": 36.740943908691406,
442
  "learning_rate": 3.935018050541516e-05,
443
- "loss": 0.3329,
444
  "step": 590
445
  },
446
  {
447
  "epoch": 1.0811176205497972,
448
- "grad_norm": 23.23931884765625,
449
  "learning_rate": 3.916967509025271e-05,
450
- "loss": 0.345,
451
  "step": 600
452
  },
453
  {
454
  "epoch": 1.099143758449752,
455
- "grad_norm": 23.009553909301758,
456
  "learning_rate": 3.898916967509025e-05,
457
- "loss": 0.3054,
458
  "step": 610
459
  },
460
  {
461
  "epoch": 1.117169896349707,
462
- "grad_norm": 18.865903854370117,
463
  "learning_rate": 3.88086642599278e-05,
464
- "loss": 0.3236,
465
  "step": 620
466
  },
467
  {
468
  "epoch": 1.135196034249662,
469
- "grad_norm": 21.043642044067383,
470
  "learning_rate": 3.862815884476535e-05,
471
- "loss": 0.3092,
472
  "step": 630
473
  },
474
  {
475
  "epoch": 1.153222172149617,
476
- "grad_norm": 22.50505256652832,
477
  "learning_rate": 3.844765342960289e-05,
478
- "loss": 0.3274,
479
  "step": 640
480
  },
481
  {
482
  "epoch": 1.1712483100495719,
483
- "grad_norm": 20.4163818359375,
484
  "learning_rate": 3.826714801444044e-05,
485
- "loss": 0.2459,
486
  "step": 650
487
  },
488
  {
489
  "epoch": 1.1892744479495267,
490
- "grad_norm": 21.210535049438477,
491
  "learning_rate": 3.8086642599277976e-05,
492
- "loss": 0.3365,
493
  "step": 660
494
  },
495
  {
496
  "epoch": 1.2073005858494819,
497
- "grad_norm": 21.084487915039062,
498
  "learning_rate": 3.790613718411553e-05,
499
- "loss": 0.3242,
500
  "step": 670
501
  },
502
  {
503
  "epoch": 1.2253267237494367,
504
- "grad_norm": 22.721454620361328,
505
  "learning_rate": 3.7725631768953066e-05,
506
- "loss": 0.2844,
507
  "step": 680
508
  },
509
  {
510
  "epoch": 1.2433528616493916,
511
- "grad_norm": 49.28988265991211,
512
  "learning_rate": 3.754512635379062e-05,
513
- "loss": 0.3247,
514
  "step": 690
515
  },
516
  {
517
  "epoch": 1.2613789995493465,
518
- "grad_norm": 48.35593795776367,
519
  "learning_rate": 3.7364620938628155e-05,
520
- "loss": 0.3217,
521
  "step": 700
522
  },
523
  {
524
  "epoch": 1.2794051374493014,
525
- "grad_norm": 30.997228622436523,
526
  "learning_rate": 3.718411552346571e-05,
527
- "loss": 0.2854,
528
  "step": 710
529
  },
530
  {
531
  "epoch": 1.2974312753492563,
532
- "grad_norm": 35.57414627075195,
533
  "learning_rate": 3.700361010830325e-05,
534
- "loss": 0.3315,
535
  "step": 720
536
  },
537
  {
538
  "epoch": 1.3154574132492114,
539
- "grad_norm": 27.17759895324707,
540
  "learning_rate": 3.68231046931408e-05,
541
- "loss": 0.2965,
542
  "step": 730
543
  },
544
  {
545
  "epoch": 1.3334835511491663,
546
- "grad_norm": 31.296627044677734,
547
  "learning_rate": 3.664259927797834e-05,
548
- "loss": 0.3396,
549
  "step": 740
550
  },
551
  {
552
  "epoch": 1.3515096890491212,
553
- "grad_norm": 18.639175415039062,
554
  "learning_rate": 3.646209386281589e-05,
555
- "loss": 0.3178,
556
  "step": 750
557
  },
558
  {
559
  "epoch": 1.3695358269490763,
560
- "grad_norm": 31.972665786743164,
561
  "learning_rate": 3.628158844765343e-05,
562
- "loss": 0.2927,
563
  "step": 760
564
  },
565
  {
566
  "epoch": 1.3875619648490312,
567
- "grad_norm": 14.907872200012207,
568
  "learning_rate": 3.610108303249098e-05,
569
- "loss": 0.3391,
570
  "step": 770
571
  },
572
  {
573
  "epoch": 1.405588102748986,
574
- "grad_norm": 33.58858871459961,
575
  "learning_rate": 3.592057761732852e-05,
576
- "loss": 0.3111,
577
  "step": 780
578
  },
579
  {
580
  "epoch": 1.423614240648941,
581
- "grad_norm": 17.019819259643555,
582
  "learning_rate": 3.574007220216607e-05,
583
- "loss": 0.3401,
584
  "step": 790
585
  },
586
  {
587
  "epoch": 1.4416403785488958,
588
- "grad_norm": 27.324296951293945,
589
  "learning_rate": 3.555956678700361e-05,
590
- "loss": 0.2917,
591
  "step": 800
592
  },
593
  {
594
  "epoch": 1.4596665164488507,
595
- "grad_norm": 30.170120239257812,
596
  "learning_rate": 3.537906137184116e-05,
597
- "loss": 0.2871,
598
  "step": 810
599
  },
600
  {
601
  "epoch": 1.4776926543488058,
602
- "grad_norm": 44.26614761352539,
603
  "learning_rate": 3.51985559566787e-05,
604
- "loss": 0.3307,
605
  "step": 820
606
  },
607
  {
608
  "epoch": 1.4957187922487607,
609
- "grad_norm": 28.978620529174805,
610
  "learning_rate": 3.5018050541516247e-05,
611
- "loss": 0.3207,
612
  "step": 830
613
  },
614
  {
615
  "epoch": 1.5137449301487156,
616
- "grad_norm": 22.961040496826172,
617
  "learning_rate": 3.483754512635379e-05,
618
- "loss": 0.3075,
619
  "step": 840
620
  },
621
  {
622
  "epoch": 1.5317710680486707,
623
- "grad_norm": 22.511327743530273,
624
  "learning_rate": 3.4657039711191336e-05,
625
- "loss": 0.3035,
626
  "step": 850
627
  },
628
  {
629
  "epoch": 1.5497972059486256,
630
- "grad_norm": 33.944190979003906,
631
  "learning_rate": 3.447653429602888e-05,
632
- "loss": 0.3243,
633
  "step": 860
634
  },
635
  {
636
  "epoch": 1.5678233438485805,
637
- "grad_norm": 24.72734832763672,
638
  "learning_rate": 3.4296028880866426e-05,
639
- "loss": 0.3403,
640
  "step": 870
641
  },
642
  {
643
  "epoch": 1.5858494817485354,
644
- "grad_norm": 31.211387634277344,
645
  "learning_rate": 3.411552346570397e-05,
646
- "loss": 0.3142,
647
  "step": 880
648
  },
649
  {
650
  "epoch": 1.6038756196484902,
651
- "grad_norm": 23.974918365478516,
652
  "learning_rate": 3.3935018050541516e-05,
653
- "loss": 0.3015,
654
  "step": 890
655
  },
656
  {
657
  "epoch": 1.6219017575484451,
658
- "grad_norm": 30.705829620361328,
659
  "learning_rate": 3.375451263537907e-05,
660
- "loss": 0.3529,
661
  "step": 900
662
  },
663
  {
664
  "epoch": 1.6399278954484002,
665
- "grad_norm": 20.697528839111328,
666
  "learning_rate": 3.3574007220216606e-05,
667
- "loss": 0.302,
668
  "step": 910
669
  },
670
  {
671
  "epoch": 1.6579540333483551,
672
- "grad_norm": 28.308101654052734,
673
  "learning_rate": 3.339350180505416e-05,
674
- "loss": 0.2735,
675
  "step": 920
676
  },
677
  {
678
  "epoch": 1.67598017124831,
679
- "grad_norm": 22.28900909423828,
680
  "learning_rate": 3.3212996389891696e-05,
681
- "loss": 0.3194,
682
  "step": 930
683
  },
684
  {
685
  "epoch": 1.694006309148265,
686
- "grad_norm": 29.04107666015625,
687
  "learning_rate": 3.303249097472924e-05,
688
- "loss": 0.3265,
689
  "step": 940
690
  },
691
  {
692
  "epoch": 1.71203244704822,
693
- "grad_norm": 40.08032989501953,
694
  "learning_rate": 3.2851985559566786e-05,
695
- "loss": 0.3331,
696
  "step": 950
697
  },
698
  {
699
  "epoch": 1.7300585849481749,
700
- "grad_norm": 29.40334129333496,
701
  "learning_rate": 3.267148014440433e-05,
702
- "loss": 0.2664,
703
  "step": 960
704
  },
705
  {
706
  "epoch": 1.7480847228481298,
707
- "grad_norm": 33.51088333129883,
708
  "learning_rate": 3.249097472924188e-05,
709
- "loss": 0.3031,
710
  "step": 970
711
  },
712
  {
713
  "epoch": 1.7661108607480847,
714
- "grad_norm": 27.003469467163086,
715
  "learning_rate": 3.231046931407942e-05,
716
- "loss": 0.3195,
717
  "step": 980
718
  },
719
  {
720
  "epoch": 1.7841369986480395,
721
- "grad_norm": 26.585309982299805,
722
  "learning_rate": 3.212996389891697e-05,
723
- "loss": 0.3385,
724
  "step": 990
725
  },
726
  {
727
  "epoch": 1.8021631365479944,
728
- "grad_norm": 36.866294860839844,
729
  "learning_rate": 3.194945848375451e-05,
730
- "loss": 0.3029,
731
  "step": 1000
732
  },
733
  {
734
  "epoch": 1.8201892744479495,
735
- "grad_norm": 44.910362243652344,
736
  "learning_rate": 3.176895306859206e-05,
737
- "loss": 0.3239,
738
  "step": 1010
739
  },
740
  {
741
  "epoch": 1.8382154123479044,
742
- "grad_norm": 20.13945198059082,
743
  "learning_rate": 3.15884476534296e-05,
744
- "loss": 0.3071,
745
  "step": 1020
746
  },
747
  {
748
  "epoch": 1.8562415502478595,
749
- "grad_norm": 42.44215774536133,
750
  "learning_rate": 3.140794223826715e-05,
751
- "loss": 0.3246,
752
  "step": 1030
753
  },
754
  {
755
  "epoch": 1.8742676881478144,
756
- "grad_norm": 31.791410446166992,
757
  "learning_rate": 3.12274368231047e-05,
758
- "loss": 0.3273,
759
  "step": 1040
760
  },
761
  {
762
  "epoch": 1.8922938260477693,
763
- "grad_norm": 21.244722366333008,
764
  "learning_rate": 3.104693140794224e-05,
765
- "loss": 0.3093,
766
  "step": 1050
767
  },
768
  {
769
  "epoch": 1.9103199639477242,
770
- "grad_norm": 27.103349685668945,
771
  "learning_rate": 3.086642599277979e-05,
772
- "loss": 0.2694,
773
  "step": 1060
774
  },
775
  {
776
  "epoch": 1.928346101847679,
777
- "grad_norm": 35.73145294189453,
778
  "learning_rate": 3.0685920577617325e-05,
779
- "loss": 0.2934,
780
  "step": 1070
781
  },
782
  {
783
  "epoch": 1.946372239747634,
784
- "grad_norm": 19.97008514404297,
785
  "learning_rate": 3.0505415162454877e-05,
786
- "loss": 0.3493,
787
  "step": 1080
788
  },
789
  {
790
  "epoch": 1.9643983776475888,
791
- "grad_norm": 23.084754943847656,
792
  "learning_rate": 3.032490974729242e-05,
793
- "loss": 0.3243,
794
  "step": 1090
795
  },
796
  {
797
  "epoch": 1.982424515547544,
798
- "grad_norm": 29.515155792236328,
799
  "learning_rate": 3.0144404332129967e-05,
800
- "loss": 0.3235,
801
  "step": 1100
802
  },
803
  {
804
  "epoch": 2.0,
805
- "grad_norm": 24.17915916442871,
806
  "learning_rate": 2.996389891696751e-05,
807
- "loss": 0.2751,
808
  "step": 1110
809
  },
810
  {
811
  "epoch": 2.0,
812
- "eval_f1": 0.8428896708755951,
813
- "eval_loss": 0.3940623104572296,
814
- "eval_precision": 0.800314465408805,
815
- "eval_recall": 0.890249234805422,
816
- "eval_runtime": 12.3989,
817
- "eval_samples_per_second": 376.889,
818
- "eval_steps_per_second": 47.182,
 
 
 
 
819
  "step": 1110
820
  },
821
  {
822
  "epoch": 2.018026137899955,
823
- "grad_norm": 18.65660858154297,
824
  "learning_rate": 2.9783393501805057e-05,
825
- "loss": 0.1912,
826
  "step": 1120
827
  },
828
  {
829
  "epoch": 2.0360522757999098,
830
- "grad_norm": 15.253448486328125,
831
  "learning_rate": 2.9602888086642598e-05,
832
- "loss": 0.1425,
833
  "step": 1130
834
  },
835
  {
836
  "epoch": 2.0540784136998647,
837
- "grad_norm": 58.709293365478516,
838
  "learning_rate": 2.9422382671480147e-05,
839
- "loss": 0.1945,
840
  "step": 1140
841
  },
842
  {
843
  "epoch": 2.0721045515998195,
844
- "grad_norm": 45.032073974609375,
845
  "learning_rate": 2.924187725631769e-05,
846
- "loss": 0.1477,
847
  "step": 1150
848
  },
849
  {
850
  "epoch": 2.090130689499775,
851
- "grad_norm": 26.54606819152832,
852
  "learning_rate": 2.906137184115524e-05,
853
- "loss": 0.1731,
854
  "step": 1160
855
  },
856
  {
857
  "epoch": 2.1081568273997298,
858
- "grad_norm": 24.949045181274414,
859
  "learning_rate": 2.888086642599278e-05,
860
- "loss": 0.1504,
861
  "step": 1170
862
  },
863
  {
864
  "epoch": 2.1261829652996846,
865
- "grad_norm": 71.09517669677734,
866
  "learning_rate": 2.870036101083033e-05,
867
- "loss": 0.149,
868
  "step": 1180
869
  },
870
  {
871
  "epoch": 2.1442091031996395,
872
- "grad_norm": 43.31296157836914,
873
  "learning_rate": 2.851985559566787e-05,
874
- "loss": 0.1826,
875
  "step": 1190
876
  },
877
  {
878
  "epoch": 2.1622352410995944,
879
- "grad_norm": 23.145519256591797,
880
  "learning_rate": 2.8339350180505413e-05,
881
- "loss": 0.1716,
882
  "step": 1200
883
  },
884
  {
885
  "epoch": 2.1802613789995493,
886
- "grad_norm": 41.57735061645508,
887
  "learning_rate": 2.815884476534296e-05,
888
- "loss": 0.1784,
889
  "step": 1210
890
  },
891
  {
892
  "epoch": 2.198287516899504,
893
- "grad_norm": 51.243560791015625,
894
  "learning_rate": 2.7978339350180506e-05,
895
- "loss": 0.161,
896
  "step": 1220
897
  },
898
  {
899
  "epoch": 2.216313654799459,
900
- "grad_norm": 38.89030838012695,
901
  "learning_rate": 2.779783393501805e-05,
902
- "loss": 0.1688,
903
  "step": 1230
904
  },
905
  {
906
  "epoch": 2.234339792699414,
907
- "grad_norm": 43.14015197753906,
908
  "learning_rate": 2.7617328519855596e-05,
909
- "loss": 0.1916,
910
  "step": 1240
911
  },
912
  {
913
  "epoch": 2.2523659305993693,
914
- "grad_norm": 35.20539474487305,
915
  "learning_rate": 2.7436823104693144e-05,
916
- "loss": 0.1652,
917
  "step": 1250
918
  },
919
  {
920
  "epoch": 2.270392068499324,
921
- "grad_norm": 39.17034912109375,
922
  "learning_rate": 2.7256317689530686e-05,
923
- "loss": 0.1888,
924
  "step": 1260
925
  },
926
  {
927
  "epoch": 2.288418206399279,
928
- "grad_norm": 26.350337982177734,
929
  "learning_rate": 2.7075812274368234e-05,
930
- "loss": 0.1585,
931
  "step": 1270
932
  },
933
  {
934
  "epoch": 2.306444344299234,
935
- "grad_norm": 33.05204772949219,
936
  "learning_rate": 2.6895306859205776e-05,
937
- "loss": 0.1449,
938
  "step": 1280
939
  },
940
  {
941
  "epoch": 2.324470482199189,
942
- "grad_norm": 53.03055191040039,
943
  "learning_rate": 2.6714801444043324e-05,
944
- "loss": 0.1457,
945
  "step": 1290
946
  },
947
  {
948
  "epoch": 2.3424966200991437,
949
- "grad_norm": 13.711820602416992,
950
  "learning_rate": 2.6534296028880866e-05,
951
- "loss": 0.1451,
952
  "step": 1300
953
  },
954
  {
955
  "epoch": 2.3605227579990986,
956
- "grad_norm": 60.76357650756836,
957
  "learning_rate": 2.6353790613718414e-05,
958
- "loss": 0.1803,
959
  "step": 1310
960
  },
961
  {
962
  "epoch": 2.3785488958990535,
963
- "grad_norm": 47.53473663330078,
964
  "learning_rate": 2.617328519855596e-05,
965
- "loss": 0.1405,
966
  "step": 1320
967
  },
968
  {
969
  "epoch": 2.3965750337990084,
970
- "grad_norm": 46.01548385620117,
971
  "learning_rate": 2.59927797833935e-05,
972
- "loss": 0.1701,
973
  "step": 1330
974
  },
975
  {
976
  "epoch": 2.4146011716989637,
977
- "grad_norm": 36.47391128540039,
978
  "learning_rate": 2.581227436823105e-05,
979
- "loss": 0.1362,
980
  "step": 1340
981
  },
982
  {
983
  "epoch": 2.4326273095989186,
984
- "grad_norm": 69.90142059326172,
985
  "learning_rate": 2.563176895306859e-05,
986
- "loss": 0.143,
987
  "step": 1350
988
  },
989
  {
990
  "epoch": 2.4506534474988735,
991
- "grad_norm": 52.88728713989258,
992
  "learning_rate": 2.545126353790614e-05,
993
- "loss": 0.1776,
994
  "step": 1360
995
  },
996
  {
997
  "epoch": 2.4686795853988284,
998
- "grad_norm": 26.982271194458008,
999
  "learning_rate": 2.527075812274368e-05,
1000
- "loss": 0.1922,
1001
  "step": 1370
1002
  },
1003
  {
1004
  "epoch": 2.4867057232987833,
1005
- "grad_norm": 41.308414459228516,
1006
  "learning_rate": 2.509025270758123e-05,
1007
- "loss": 0.1699,
1008
  "step": 1380
1009
  },
1010
  {
1011
  "epoch": 2.504731861198738,
1012
- "grad_norm": 68.30561828613281,
1013
  "learning_rate": 2.4909747292418774e-05,
1014
- "loss": 0.1503,
1015
  "step": 1390
1016
  },
1017
  {
1018
  "epoch": 2.522757999098693,
1019
- "grad_norm": 32.563026428222656,
1020
  "learning_rate": 2.472924187725632e-05,
1021
- "loss": 0.2153,
1022
  "step": 1400
1023
  },
1024
  {
1025
  "epoch": 2.540784136998648,
1026
- "grad_norm": 24.238431930541992,
1027
  "learning_rate": 2.4548736462093864e-05,
1028
- "loss": 0.1935,
1029
  "step": 1410
1030
  },
1031
  {
1032
  "epoch": 2.558810274898603,
1033
- "grad_norm": 52.790916442871094,
1034
  "learning_rate": 2.436823104693141e-05,
1035
- "loss": 0.21,
1036
  "step": 1420
1037
  },
1038
  {
1039
  "epoch": 2.576836412798558,
1040
- "grad_norm": 39.62615966796875,
1041
  "learning_rate": 2.4187725631768953e-05,
1042
- "loss": 0.1756,
1043
  "step": 1430
1044
  },
1045
  {
1046
  "epoch": 2.5948625506985126,
1047
- "grad_norm": 28.220199584960938,
1048
  "learning_rate": 2.40072202166065e-05,
1049
- "loss": 0.1704,
1050
  "step": 1440
1051
  },
1052
  {
1053
  "epoch": 2.612888688598468,
1054
- "grad_norm": 36.99165344238281,
1055
  "learning_rate": 2.3826714801444043e-05,
1056
- "loss": 0.1632,
1057
  "step": 1450
1058
  },
1059
  {
1060
  "epoch": 2.630914826498423,
1061
- "grad_norm": 79.26138305664062,
1062
  "learning_rate": 2.3646209386281588e-05,
1063
- "loss": 0.1562,
1064
  "step": 1460
1065
  },
1066
  {
1067
  "epoch": 2.6489409643983777,
1068
- "grad_norm": 47.28179931640625,
1069
  "learning_rate": 2.3465703971119137e-05,
1070
- "loss": 0.2061,
1071
  "step": 1470
1072
  },
1073
  {
1074
  "epoch": 2.6669671022983326,
1075
- "grad_norm": 40.676551818847656,
1076
  "learning_rate": 2.328519855595668e-05,
1077
- "loss": 0.1955,
1078
  "step": 1480
1079
  },
1080
  {
1081
  "epoch": 2.6849932401982874,
1082
- "grad_norm": 29.851699829101562,
1083
  "learning_rate": 2.3104693140794227e-05,
1084
- "loss": 0.1447,
1085
  "step": 1490
1086
  },
1087
  {
1088
  "epoch": 2.7030193780982423,
1089
- "grad_norm": 46.22013473510742,
1090
  "learning_rate": 2.292418772563177e-05,
1091
- "loss": 0.1635,
1092
  "step": 1500
1093
  },
1094
  {
1095
  "epoch": 2.721045515998197,
1096
- "grad_norm": 35.77067565917969,
1097
  "learning_rate": 2.2743682310469316e-05,
1098
- "loss": 0.1611,
1099
  "step": 1510
1100
  },
1101
  {
1102
  "epoch": 2.7390716538981525,
1103
- "grad_norm": 44.474876403808594,
1104
  "learning_rate": 2.2563176895306858e-05,
1105
- "loss": 0.159,
1106
  "step": 1520
1107
  },
1108
  {
1109
  "epoch": 2.757097791798107,
1110
- "grad_norm": 49.898887634277344,
1111
  "learning_rate": 2.2382671480144403e-05,
1112
- "loss": 0.1716,
1113
  "step": 1530
1114
  },
1115
  {
1116
  "epoch": 2.7751239296980623,
1117
- "grad_norm": 54.783653259277344,
1118
  "learning_rate": 2.220216606498195e-05,
1119
- "loss": 0.1921,
1120
  "step": 1540
1121
  },
1122
  {
1123
  "epoch": 2.793150067598017,
1124
- "grad_norm": 14.532942771911621,
1125
  "learning_rate": 2.2021660649819496e-05,
1126
- "loss": 0.1436,
1127
  "step": 1550
1128
  },
1129
  {
1130
  "epoch": 2.811176205497972,
1131
- "grad_norm": 47.2420768737793,
1132
  "learning_rate": 2.184115523465704e-05,
1133
- "loss": 0.2074,
1134
  "step": 1560
1135
  },
1136
  {
1137
  "epoch": 2.829202343397927,
1138
- "grad_norm": 39.21223449707031,
1139
  "learning_rate": 2.1660649819494586e-05,
1140
- "loss": 0.1871,
1141
  "step": 1570
1142
  },
1143
  {
1144
  "epoch": 2.847228481297882,
1145
- "grad_norm": 43.29368591308594,
1146
  "learning_rate": 2.148014440433213e-05,
1147
- "loss": 0.1474,
1148
  "step": 1580
1149
  },
1150
  {
1151
  "epoch": 2.8652546191978367,
1152
- "grad_norm": 30.276391983032227,
1153
  "learning_rate": 2.1299638989169676e-05,
1154
- "loss": 0.2214,
1155
  "step": 1590
1156
  },
1157
  {
1158
  "epoch": 2.8832807570977916,
1159
- "grad_norm": 38.97634506225586,
1160
  "learning_rate": 2.111913357400722e-05,
1161
- "loss": 0.1692,
1162
  "step": 1600
1163
  },
1164
  {
1165
  "epoch": 2.901306894997747,
1166
- "grad_norm": 46.147945404052734,
1167
  "learning_rate": 2.0938628158844766e-05,
1168
- "loss": 0.1587,
1169
  "step": 1610
1170
  },
1171
  {
1172
  "epoch": 2.9193330328977014,
1173
- "grad_norm": 57.70730209350586,
1174
  "learning_rate": 2.075812274368231e-05,
1175
- "loss": 0.1642,
1176
  "step": 1620
1177
  },
1178
  {
1179
  "epoch": 2.9373591707976567,
1180
- "grad_norm": 48.976478576660156,
1181
  "learning_rate": 2.057761732851986e-05,
1182
- "loss": 0.1536,
1183
  "step": 1630
1184
  },
1185
  {
1186
  "epoch": 2.9553853086976116,
1187
- "grad_norm": 49.945587158203125,
1188
  "learning_rate": 2.0397111913357404e-05,
1189
- "loss": 0.1612,
1190
  "step": 1640
1191
  },
1192
  {
1193
  "epoch": 2.9734114465975665,
1194
- "grad_norm": 74.91495513916016,
1195
  "learning_rate": 2.0216606498194946e-05,
1196
- "loss": 0.1557,
1197
  "step": 1650
1198
  },
1199
  {
1200
  "epoch": 2.9914375844975214,
1201
- "grad_norm": 30.24640464782715,
1202
  "learning_rate": 2.003610108303249e-05,
1203
- "loss": 0.1631,
1204
  "step": 1660
1205
  },
1206
  {
1207
  "epoch": 3.0,
1208
- "eval_f1": 0.8290598290598291,
1209
- "eval_loss": 0.5290467739105225,
1210
- "eval_precision": 0.8106978687839532,
1211
- "eval_recall": 0.8482728465238304,
1212
- "eval_runtime": 11.4074,
1213
- "eval_samples_per_second": 409.646,
1214
- "eval_steps_per_second": 51.282,
 
 
 
 
1215
  "step": 1665
1216
  },
1217
  {
1218
  "epoch": 3.0090130689499777,
1219
- "grad_norm": 7.1513214111328125,
1220
  "learning_rate": 1.9855595667870036e-05,
1221
- "loss": 0.1199,
1222
  "step": 1670
1223
  },
1224
  {
1225
  "epoch": 3.0270392068499326,
1226
- "grad_norm": 36.67481994628906,
1227
  "learning_rate": 1.967509025270758e-05,
1228
- "loss": 0.0607,
1229
  "step": 1680
1230
  },
1231
  {
1232
  "epoch": 3.0450653447498874,
1233
- "grad_norm": 41.55238723754883,
1234
  "learning_rate": 1.9494584837545125e-05,
1235
- "loss": 0.0821,
1236
  "step": 1690
1237
  },
1238
  {
1239
  "epoch": 3.0630914826498423,
1240
- "grad_norm": 37.779537200927734,
1241
  "learning_rate": 1.9314079422382674e-05,
1242
- "loss": 0.0624,
1243
  "step": 1700
1244
  },
1245
  {
1246
  "epoch": 3.081117620549797,
1247
- "grad_norm": 13.272784233093262,
1248
  "learning_rate": 1.913357400722022e-05,
1249
- "loss": 0.0745,
1250
  "step": 1710
1251
  },
1252
  {
1253
  "epoch": 3.099143758449752,
1254
- "grad_norm": 19.611099243164062,
1255
  "learning_rate": 1.8953068592057764e-05,
1256
- "loss": 0.0953,
1257
  "step": 1720
1258
  },
1259
  {
1260
  "epoch": 3.117169896349707,
1261
- "grad_norm": 26.23482894897461,
1262
  "learning_rate": 1.877256317689531e-05,
1263
- "loss": 0.0576,
1264
  "step": 1730
1265
  },
1266
  {
1267
  "epoch": 3.135196034249662,
1268
- "grad_norm": 31.549488067626953,
1269
  "learning_rate": 1.8592057761732854e-05,
1270
- "loss": 0.1034,
1271
  "step": 1740
1272
  },
1273
  {
1274
  "epoch": 3.1532221721496168,
1275
- "grad_norm": 44.37907409667969,
1276
  "learning_rate": 1.84115523465704e-05,
1277
- "loss": 0.0807,
1278
  "step": 1750
1279
  },
1280
  {
1281
  "epoch": 3.171248310049572,
1282
- "grad_norm": 29.255582809448242,
1283
  "learning_rate": 1.8231046931407943e-05,
1284
- "loss": 0.08,
1285
  "step": 1760
1286
  },
1287
  {
1288
  "epoch": 3.189274447949527,
1289
- "grad_norm": 11.359423637390137,
1290
  "learning_rate": 1.805054151624549e-05,
1291
- "loss": 0.073,
1292
  "step": 1770
1293
  },
1294
  {
1295
  "epoch": 3.207300585849482,
1296
- "grad_norm": 51.08259201049805,
1297
  "learning_rate": 1.7870036101083033e-05,
1298
- "loss": 0.0869,
1299
  "step": 1780
1300
  },
1301
  {
1302
  "epoch": 3.2253267237494367,
1303
- "grad_norm": 28.016101837158203,
1304
  "learning_rate": 1.768953068592058e-05,
1305
- "loss": 0.1044,
1306
  "step": 1790
1307
  },
1308
  {
1309
  "epoch": 3.2433528616493916,
1310
- "grad_norm": 81.0438003540039,
1311
  "learning_rate": 1.7509025270758123e-05,
1312
- "loss": 0.0818,
1313
  "step": 1800
1314
  },
1315
  {
1316
  "epoch": 3.2613789995493465,
1317
- "grad_norm": 25.233104705810547,
1318
  "learning_rate": 1.7328519855595668e-05,
1319
- "loss": 0.0808,
1320
  "step": 1810
1321
  },
1322
  {
1323
  "epoch": 3.2794051374493014,
1324
- "grad_norm": 127.22054290771484,
1325
  "learning_rate": 1.7148014440433213e-05,
1326
- "loss": 0.0847,
1327
  "step": 1820
1328
  },
1329
  {
1330
  "epoch": 3.2974312753492563,
1331
- "grad_norm": 37.59592819213867,
1332
  "learning_rate": 1.6967509025270758e-05,
1333
- "loss": 0.1276,
1334
  "step": 1830
1335
  },
1336
  {
1337
  "epoch": 3.315457413249211,
1338
- "grad_norm": 33.60833740234375,
1339
  "learning_rate": 1.6787003610108303e-05,
1340
- "loss": 0.0718,
1341
  "step": 1840
1342
  },
1343
  {
1344
  "epoch": 3.3334835511491665,
1345
- "grad_norm": 47.96291732788086,
1346
  "learning_rate": 1.6606498194945848e-05,
1347
- "loss": 0.0769,
1348
  "step": 1850
1349
  },
1350
  {
1351
  "epoch": 3.3515096890491214,
1352
- "grad_norm": 1.6931202411651611,
1353
  "learning_rate": 1.6425992779783393e-05,
1354
- "loss": 0.0694,
1355
  "step": 1860
1356
  },
1357
  {
1358
  "epoch": 3.3695358269490763,
1359
- "grad_norm": 65.2172622680664,
1360
  "learning_rate": 1.624548736462094e-05,
1361
- "loss": 0.1009,
1362
  "step": 1870
1363
  },
1364
  {
1365
  "epoch": 3.387561964849031,
1366
- "grad_norm": 11.240936279296875,
1367
  "learning_rate": 1.6064981949458486e-05,
1368
- "loss": 0.0749,
1369
  "step": 1880
1370
  },
1371
  {
1372
  "epoch": 3.405588102748986,
1373
- "grad_norm": 24.050607681274414,
1374
  "learning_rate": 1.588447653429603e-05,
1375
- "loss": 0.0979,
1376
  "step": 1890
1377
  },
1378
  {
1379
  "epoch": 3.423614240648941,
1380
- "grad_norm": 92.54638671875,
1381
  "learning_rate": 1.5703971119133576e-05,
1382
- "loss": 0.0968,
1383
  "step": 1900
1384
  },
1385
  {
1386
  "epoch": 3.441640378548896,
1387
- "grad_norm": 10.564998626708984,
1388
  "learning_rate": 1.552346570397112e-05,
1389
- "loss": 0.0642,
1390
  "step": 1910
1391
  },
1392
  {
1393
  "epoch": 3.4596665164488507,
1394
- "grad_norm": 63.50326919555664,
1395
  "learning_rate": 1.5342960288808663e-05,
1396
- "loss": 0.0941,
1397
  "step": 1920
1398
  },
1399
  {
1400
  "epoch": 3.4776926543488056,
1401
- "grad_norm": 74.58378601074219,
1402
  "learning_rate": 1.516245487364621e-05,
1403
- "loss": 0.1205,
1404
  "step": 1930
1405
  },
1406
  {
1407
  "epoch": 3.495718792248761,
1408
- "grad_norm": 9.73009967803955,
1409
  "learning_rate": 1.4981949458483754e-05,
1410
- "loss": 0.0826,
1411
  "step": 1940
1412
  },
1413
  {
1414
  "epoch": 3.5137449301487154,
1415
- "grad_norm": 14.504748344421387,
1416
  "learning_rate": 1.4801444043321299e-05,
1417
- "loss": 0.0861,
1418
  "step": 1950
1419
  },
1420
  {
1421
  "epoch": 3.5317710680486707,
1422
- "grad_norm": 3.4811439514160156,
1423
  "learning_rate": 1.4620938628158846e-05,
1424
- "loss": 0.0658,
1425
  "step": 1960
1426
  },
1427
  {
1428
  "epoch": 3.5497972059486256,
1429
- "grad_norm": 60.301517486572266,
1430
  "learning_rate": 1.444043321299639e-05,
1431
- "loss": 0.074,
1432
  "step": 1970
1433
  },
1434
  {
1435
  "epoch": 3.5678233438485805,
1436
- "grad_norm": 58.39499282836914,
1437
  "learning_rate": 1.4259927797833936e-05,
1438
- "loss": 0.1037,
1439
  "step": 1980
1440
  },
1441
  {
1442
  "epoch": 3.5858494817485354,
1443
- "grad_norm": 28.403823852539062,
1444
  "learning_rate": 1.407942238267148e-05,
1445
- "loss": 0.0807,
1446
  "step": 1990
1447
  },
1448
  {
1449
  "epoch": 3.6038756196484902,
1450
- "grad_norm": 47.89693832397461,
1451
  "learning_rate": 1.3898916967509026e-05,
1452
- "loss": 0.0818,
1453
  "step": 2000
1454
  },
1455
  {
1456
  "epoch": 3.621901757548445,
1457
- "grad_norm": 43.21398162841797,
1458
  "learning_rate": 1.3718411552346572e-05,
1459
- "loss": 0.099,
1460
  "step": 2010
1461
  },
1462
  {
1463
  "epoch": 3.6399278954484,
1464
- "grad_norm": 84.97303771972656,
1465
  "learning_rate": 1.3537906137184117e-05,
1466
- "loss": 0.0916,
1467
  "step": 2020
1468
  },
1469
  {
1470
  "epoch": 3.6579540333483553,
1471
- "grad_norm": 62.820228576660156,
1472
  "learning_rate": 1.3357400722021662e-05,
1473
- "loss": 0.1033,
1474
  "step": 2030
1475
  },
1476
  {
1477
  "epoch": 3.67598017124831,
1478
- "grad_norm": 41.46628952026367,
1479
  "learning_rate": 1.3176895306859207e-05,
1480
- "loss": 0.0775,
1481
  "step": 2040
1482
  },
1483
  {
1484
  "epoch": 3.694006309148265,
1485
- "grad_norm": 9.337126731872559,
1486
  "learning_rate": 1.299638989169675e-05,
1487
- "loss": 0.083,
1488
  "step": 2050
1489
  },
1490
  {
1491
  "epoch": 3.71203244704822,
1492
- "grad_norm": 86.4469985961914,
1493
  "learning_rate": 1.2815884476534295e-05,
1494
- "loss": 0.0702,
1495
  "step": 2060
1496
  },
1497
  {
1498
  "epoch": 3.730058584948175,
1499
- "grad_norm": 44.70920944213867,
1500
  "learning_rate": 1.263537906137184e-05,
1501
- "loss": 0.0908,
1502
  "step": 2070
1503
  },
1504
  {
1505
  "epoch": 3.7480847228481298,
1506
- "grad_norm": 83.01412963867188,
1507
  "learning_rate": 1.2454873646209387e-05,
1508
- "loss": 0.0831,
1509
  "step": 2080
1510
  },
1511
  {
1512
  "epoch": 3.7661108607480847,
1513
- "grad_norm": 28.753332138061523,
1514
  "learning_rate": 1.2274368231046932e-05,
1515
- "loss": 0.1054,
1516
  "step": 2090
1517
  },
1518
  {
1519
  "epoch": 3.7841369986480395,
1520
- "grad_norm": 39.22829055786133,
1521
  "learning_rate": 1.2093862815884477e-05,
1522
- "loss": 0.0976,
1523
  "step": 2100
1524
  },
1525
  {
1526
  "epoch": 3.8021631365479944,
1527
- "grad_norm": 41.21415328979492,
1528
  "learning_rate": 1.1913357400722022e-05,
1529
- "loss": 0.0995,
1530
  "step": 2110
1531
  },
1532
  {
1533
  "epoch": 3.8201892744479498,
1534
- "grad_norm": 25.80561065673828,
1535
  "learning_rate": 1.1732851985559568e-05,
1536
- "loss": 0.1185,
1537
  "step": 2120
1538
  },
1539
  {
1540
  "epoch": 3.838215412347904,
1541
- "grad_norm": 23.873735427856445,
1542
  "learning_rate": 1.1552346570397113e-05,
1543
- "loss": 0.0618,
1544
  "step": 2130
1545
  },
1546
  {
1547
  "epoch": 3.8562415502478595,
1548
- "grad_norm": 20.476320266723633,
1549
  "learning_rate": 1.1371841155234658e-05,
1550
- "loss": 0.1164,
1551
  "step": 2140
1552
  },
1553
  {
1554
  "epoch": 3.8742676881478144,
1555
- "grad_norm": 75.58688354492188,
1556
  "learning_rate": 1.1191335740072201e-05,
1557
- "loss": 0.1166,
1558
  "step": 2150
1559
  },
1560
  {
1561
  "epoch": 3.8922938260477693,
1562
- "grad_norm": 49.5202751159668,
1563
  "learning_rate": 1.1010830324909748e-05,
1564
- "loss": 0.0982,
1565
  "step": 2160
1566
  },
1567
  {
1568
  "epoch": 3.910319963947724,
1569
- "grad_norm": 37.534568786621094,
1570
  "learning_rate": 1.0830324909747293e-05,
1571
- "loss": 0.0652,
1572
  "step": 2170
1573
  },
1574
  {
1575
  "epoch": 3.928346101847679,
1576
- "grad_norm": 70.99764251708984,
1577
  "learning_rate": 1.0649819494584838e-05,
1578
- "loss": 0.0876,
1579
  "step": 2180
1580
  },
1581
  {
1582
  "epoch": 3.946372239747634,
1583
- "grad_norm": 35.94860076904297,
1584
  "learning_rate": 1.0469314079422383e-05,
1585
- "loss": 0.0642,
1586
  "step": 2190
1587
  },
1588
  {
1589
  "epoch": 3.964398377647589,
1590
- "grad_norm": 6.9634785652160645,
1591
  "learning_rate": 1.028880866425993e-05,
1592
- "loss": 0.1256,
1593
  "step": 2200
1594
  },
1595
  {
1596
  "epoch": 3.982424515547544,
1597
- "grad_norm": 33.263797760009766,
1598
  "learning_rate": 1.0108303249097473e-05,
1599
- "loss": 0.0646,
1600
  "step": 2210
1601
  },
1602
  {
1603
  "epoch": 4.0,
1604
- "grad_norm": 24.34364128112793,
1605
  "learning_rate": 9.927797833935018e-06,
1606
- "loss": 0.0782,
1607
  "step": 2220
1608
  },
1609
  {
1610
  "epoch": 4.0,
1611
- "eval_f1": 0.827906976744186,
1612
- "eval_loss": 0.6959211826324463,
1613
- "eval_precision": 0.8014735980352026,
1614
- "eval_recall": 0.8561434193266287,
1615
- "eval_runtime": 10.9179,
1616
- "eval_samples_per_second": 428.013,
1617
- "eval_steps_per_second": 53.582,
 
 
 
 
1618
  "step": 2220
1619
  }
1620
  ],
 
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
 
 
 
 
 
 
 
 
 
 
 
11
  {
12
  "epoch": 0.018026137899954935,
13
+ "grad_norm": 13.032843589782715,
14
  "learning_rate": 4.981949458483755e-05,
15
+ "loss": 0.6633,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.03605227579990987,
20
+ "grad_norm": 35.63669204711914,
21
  "learning_rate": 4.963898916967509e-05,
22
+ "loss": 0.5651,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.054078413699864804,
27
+ "grad_norm": 16.95796012878418,
28
  "learning_rate": 4.945848375451264e-05,
29
+ "loss": 0.5359,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.07210455159981974,
34
+ "grad_norm": 14.045697212219238,
35
  "learning_rate": 4.927797833935018e-05,
36
+ "loss": 0.5421,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.09013068949977468,
41
+ "grad_norm": 43.34794235229492,
42
  "learning_rate": 4.909747292418773e-05,
43
+ "loss": 0.5222,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.10815682739972961,
48
+ "grad_norm": 32.69561767578125,
49
  "learning_rate": 4.891696750902527e-05,
50
+ "loss": 0.4589,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.12618296529968454,
55
+ "grad_norm": 29.39051055908203,
56
  "learning_rate": 4.873646209386282e-05,
57
+ "loss": 0.4858,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.14420910319963948,
62
+ "grad_norm": 30.52906608581543,
63
  "learning_rate": 4.855595667870036e-05,
64
+ "loss": 0.4418,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.16223524109959442,
69
+ "grad_norm": 15.103797912597656,
70
  "learning_rate": 4.837545126353791e-05,
71
+ "loss": 0.4713,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.18026137899954936,
76
+ "grad_norm": 40.57420349121094,
77
  "learning_rate": 4.819494584837546e-05,
78
+ "loss": 0.468,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.19828751689950427,
83
+ "grad_norm": 37.67963409423828,
84
  "learning_rate": 4.8014440433213e-05,
85
+ "loss": 0.492,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.21631365479945922,
90
+ "grad_norm": 30.945823669433594,
91
  "learning_rate": 4.783393501805055e-05,
92
+ "loss": 0.4633,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.23433979269941416,
97
+ "grad_norm": 40.709590911865234,
98
  "learning_rate": 4.765342960288809e-05,
99
+ "loss": 0.4392,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.25236593059936907,
104
+ "grad_norm": 19.698150634765625,
105
  "learning_rate": 4.747292418772563e-05,
106
+ "loss": 0.4707,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.270392068499324,
111
+ "grad_norm": 21.289947509765625,
112
  "learning_rate": 4.7292418772563177e-05,
113
+ "loss": 0.4576,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.28841820639927895,
118
+ "grad_norm": 26.911935806274414,
119
  "learning_rate": 4.711191335740072e-05,
120
+ "loss": 0.4583,
121
  "step": 160
122
  },
123
  {
124
  "epoch": 0.3064443442992339,
125
+ "grad_norm": 19.308853149414062,
126
  "learning_rate": 4.693140794223827e-05,
127
+ "loss": 0.4937,
128
  "step": 170
129
  },
130
  {
131
  "epoch": 0.32447048219918884,
132
+ "grad_norm": 34.61503219604492,
133
  "learning_rate": 4.675090252707581e-05,
134
+ "loss": 0.4836,
135
  "step": 180
136
  },
137
  {
138
  "epoch": 0.3424966200991438,
139
+ "grad_norm": 16.551424026489258,
140
  "learning_rate": 4.657039711191336e-05,
141
+ "loss": 0.4919,
142
  "step": 190
143
  },
144
  {
145
  "epoch": 0.3605227579990987,
146
+ "grad_norm": 16.011377334594727,
147
  "learning_rate": 4.63898916967509e-05,
148
+ "loss": 0.4518,
149
  "step": 200
150
  },
151
  {
152
  "epoch": 0.3785488958990536,
153
+ "grad_norm": 22.71525764465332,
154
  "learning_rate": 4.620938628158845e-05,
155
+ "loss": 0.4221,
156
  "step": 210
157
  },
158
  {
159
  "epoch": 0.39657503379900855,
160
+ "grad_norm": 22.2515811920166,
161
  "learning_rate": 4.602888086642599e-05,
162
+ "loss": 0.4286,
163
  "step": 220
164
  },
165
  {
166
  "epoch": 0.4146011716989635,
167
+ "grad_norm": 18.233482360839844,
168
  "learning_rate": 4.584837545126354e-05,
169
+ "loss": 0.4442,
170
  "step": 230
171
  },
172
  {
173
  "epoch": 0.43262730959891843,
174
+ "grad_norm": 33.190948486328125,
175
  "learning_rate": 4.566787003610109e-05,
176
+ "loss": 0.4584,
177
  "step": 240
178
  },
179
  {
180
  "epoch": 0.45065344749887337,
181
+ "grad_norm": 29.945205688476562,
182
  "learning_rate": 4.548736462093863e-05,
183
+ "loss": 0.4339,
184
  "step": 250
185
  },
186
  {
187
  "epoch": 0.4686795853988283,
188
+ "grad_norm": 17.004419326782227,
189
  "learning_rate": 4.530685920577618e-05,
190
+ "loss": 0.4504,
191
  "step": 260
192
  },
193
  {
194
  "epoch": 0.48670572329878325,
195
+ "grad_norm": 23.36432647705078,
196
  "learning_rate": 4.5126353790613716e-05,
197
+ "loss": 0.4405,
198
  "step": 270
199
  },
200
  {
201
  "epoch": 0.5047318611987381,
202
+ "grad_norm": 29.156505584716797,
203
  "learning_rate": 4.494584837545127e-05,
204
+ "loss": 0.4319,
205
  "step": 280
206
  },
207
  {
208
  "epoch": 0.5227579990986931,
209
+ "grad_norm": 16.330259323120117,
210
  "learning_rate": 4.4765342960288806e-05,
211
+ "loss": 0.453,
212
  "step": 290
213
  },
214
  {
215
  "epoch": 0.540784136998648,
216
+ "grad_norm": 21.66246223449707,
217
  "learning_rate": 4.458483754512636e-05,
218
+ "loss": 0.416,
219
  "step": 300
220
  },
221
  {
222
  "epoch": 0.558810274898603,
223
+ "grad_norm": 22.177268981933594,
224
  "learning_rate": 4.44043321299639e-05,
225
+ "loss": 0.4456,
226
  "step": 310
227
  },
228
  {
229
  "epoch": 0.5768364127985579,
230
+ "grad_norm": 38.450069427490234,
231
  "learning_rate": 4.422382671480145e-05,
232
+ "loss": 0.4216,
233
  "step": 320
234
  },
235
  {
236
  "epoch": 0.5948625506985128,
237
+ "grad_norm": 28.213655471801758,
238
  "learning_rate": 4.404332129963899e-05,
239
+ "loss": 0.4392,
240
  "step": 330
241
  },
242
  {
243
  "epoch": 0.6128886885984678,
244
+ "grad_norm": 19.354459762573242,
245
  "learning_rate": 4.386281588447654e-05,
246
+ "loss": 0.4303,
247
  "step": 340
248
  },
249
  {
250
  "epoch": 0.6309148264984227,
251
+ "grad_norm": 20.212663650512695,
252
  "learning_rate": 4.368231046931408e-05,
253
+ "loss": 0.4426,
254
  "step": 350
255
  },
256
  {
257
  "epoch": 0.6489409643983777,
258
+ "grad_norm": 34.96459197998047,
259
  "learning_rate": 4.350180505415163e-05,
260
+ "loss": 0.4146,
261
  "step": 360
262
  },
263
  {
264
  "epoch": 0.6669671022983326,
265
+ "grad_norm": 17.65025520324707,
266
  "learning_rate": 4.332129963898917e-05,
267
+ "loss": 0.4506,
268
  "step": 370
269
  },
270
  {
271
  "epoch": 0.6849932401982876,
272
+ "grad_norm": 18.796554565429688,
273
  "learning_rate": 4.314079422382672e-05,
274
+ "loss": 0.3765,
275
  "step": 380
276
  },
277
  {
278
  "epoch": 0.7030193780982424,
279
+ "grad_norm": 21.690357208251953,
280
  "learning_rate": 4.296028880866426e-05,
281
+ "loss": 0.4158,
282
  "step": 390
283
  },
284
  {
285
  "epoch": 0.7210455159981974,
286
+ "grad_norm": 39.8782844543457,
287
  "learning_rate": 4.277978339350181e-05,
288
+ "loss": 0.4602,
289
  "step": 400
290
  },
291
  {
292
  "epoch": 0.7390716538981523,
293
+ "grad_norm": 26.3798885345459,
294
  "learning_rate": 4.259927797833935e-05,
295
+ "loss": 0.4512,
296
  "step": 410
297
  },
298
  {
299
  "epoch": 0.7570977917981072,
300
+ "grad_norm": 18.073617935180664,
301
  "learning_rate": 4.24187725631769e-05,
302
+ "loss": 0.4347,
303
  "step": 420
304
  },
305
  {
306
  "epoch": 0.7751239296980622,
307
+ "grad_norm": 30.09633445739746,
308
  "learning_rate": 4.223826714801444e-05,
309
+ "loss": 0.3858,
310
  "step": 430
311
  },
312
  {
313
  "epoch": 0.7931500675980171,
314
+ "grad_norm": 17.02672576904297,
315
  "learning_rate": 4.205776173285199e-05,
316
+ "loss": 0.4815,
317
  "step": 440
318
  },
319
  {
320
  "epoch": 0.8111762054979721,
321
+ "grad_norm": 19.149808883666992,
322
  "learning_rate": 4.187725631768953e-05,
323
+ "loss": 0.4196,
324
  "step": 450
325
  },
326
  {
327
  "epoch": 0.829202343397927,
328
+ "grad_norm": 28.140705108642578,
329
  "learning_rate": 4.169675090252708e-05,
330
+ "loss": 0.4085,
331
  "step": 460
332
  },
333
  {
334
  "epoch": 0.847228481297882,
335
+ "grad_norm": 21.819814682006836,
336
  "learning_rate": 4.151624548736462e-05,
337
+ "loss": 0.3986,
338
  "step": 470
339
  },
340
  {
341
  "epoch": 0.8652546191978369,
342
+ "grad_norm": 15.050581932067871,
343
  "learning_rate": 4.1335740072202167e-05,
344
+ "loss": 0.4267,
345
  "step": 480
346
  },
347
  {
348
  "epoch": 0.8832807570977917,
349
+ "grad_norm": 14.929478645324707,
350
  "learning_rate": 4.115523465703972e-05,
351
+ "loss": 0.4315,
352
  "step": 490
353
  },
354
  {
355
  "epoch": 0.9013068949977467,
356
+ "grad_norm": 20.087432861328125,
357
  "learning_rate": 4.0974729241877256e-05,
358
+ "loss": 0.3886,
359
  "step": 500
360
  },
361
  {
362
  "epoch": 0.9193330328977016,
363
+ "grad_norm": 32.96128463745117,
364
  "learning_rate": 4.079422382671481e-05,
365
+ "loss": 0.4046,
366
  "step": 510
367
  },
368
  {
369
  "epoch": 0.9373591707976566,
370
+ "grad_norm": 19.673940658569336,
371
  "learning_rate": 4.0613718411552346e-05,
372
+ "loss": 0.4127,
373
  "step": 520
374
  },
375
  {
376
  "epoch": 0.9553853086976115,
377
+ "grad_norm": 16.12790298461914,
378
  "learning_rate": 4.043321299638989e-05,
379
+ "loss": 0.4227,
380
  "step": 530
381
  },
382
  {
383
  "epoch": 0.9734114465975665,
384
+ "grad_norm": 20.4881649017334,
385
  "learning_rate": 4.0252707581227436e-05,
386
+ "loss": 0.4223,
387
  "step": 540
388
  },
389
  {
390
  "epoch": 0.9914375844975214,
391
+ "grad_norm": 17.96915054321289,
392
  "learning_rate": 4.007220216606498e-05,
393
+ "loss": 0.395,
394
  "step": 550
395
  },
396
  {
397
  "epoch": 1.0,
398
+ "eval_f1": 0.8363481591828048,
399
+ "eval_fn": 322,
400
+ "eval_fp": 447,
401
+ "eval_loss": 0.372616171836853,
402
+ "eval_precision": 0.8146766169154229,
403
+ "eval_recall": 0.8592041976388282,
404
+ "eval_runtime": 12.0589,
405
+ "eval_samples_per_second": 387.513,
406
+ "eval_steps_per_second": 48.512,
407
+ "eval_tn": 1939,
408
+ "eval_tp": 1965,
409
  "step": 555
410
  },
411
  {
412
  "epoch": 1.0090130689499774,
413
+ "grad_norm": 16.42650604248047,
414
  "learning_rate": 3.989169675090253e-05,
415
+ "loss": 0.3725,
416
  "step": 560
417
  },
418
  {
419
  "epoch": 1.0270392068499323,
420
+ "grad_norm": 14.740382194519043,
421
  "learning_rate": 3.971119133574007e-05,
422
+ "loss": 0.3028,
423
  "step": 570
424
  },
425
  {
426
  "epoch": 1.0450653447498874,
427
+ "grad_norm": 21.919588088989258,
428
  "learning_rate": 3.953068592057762e-05,
429
+ "loss": 0.3371,
430
  "step": 580
431
  },
432
  {
433
  "epoch": 1.0630914826498423,
434
+ "grad_norm": 23.157644271850586,
435
  "learning_rate": 3.935018050541516e-05,
436
+ "loss": 0.3098,
437
  "step": 590
438
  },
439
  {
440
  "epoch": 1.0811176205497972,
441
+ "grad_norm": 19.175317764282227,
442
  "learning_rate": 3.916967509025271e-05,
443
+ "loss": 0.3394,
444
  "step": 600
445
  },
446
  {
447
  "epoch": 1.099143758449752,
448
+ "grad_norm": 24.65229034423828,
449
  "learning_rate": 3.898916967509025e-05,
450
+ "loss": 0.3204,
451
  "step": 610
452
  },
453
  {
454
  "epoch": 1.117169896349707,
455
+ "grad_norm": 20.54008674621582,
456
  "learning_rate": 3.88086642599278e-05,
457
+ "loss": 0.2994,
458
  "step": 620
459
  },
460
  {
461
  "epoch": 1.135196034249662,
462
+ "grad_norm": 24.291664123535156,
463
  "learning_rate": 3.862815884476535e-05,
464
+ "loss": 0.3038,
465
  "step": 630
466
  },
467
  {
468
  "epoch": 1.153222172149617,
469
+ "grad_norm": 21.287853240966797,
470
  "learning_rate": 3.844765342960289e-05,
471
+ "loss": 0.3118,
472
  "step": 640
473
  },
474
  {
475
  "epoch": 1.1712483100495719,
476
+ "grad_norm": 19.468006134033203,
477
  "learning_rate": 3.826714801444044e-05,
478
+ "loss": 0.2484,
479
  "step": 650
480
  },
481
  {
482
  "epoch": 1.1892744479495267,
483
+ "grad_norm": 26.11173439025879,
484
  "learning_rate": 3.8086642599277976e-05,
485
+ "loss": 0.308,
486
  "step": 660
487
  },
488
  {
489
  "epoch": 1.2073005858494819,
490
+ "grad_norm": 24.100196838378906,
491
  "learning_rate": 3.790613718411553e-05,
492
+ "loss": 0.3032,
493
  "step": 670
494
  },
495
  {
496
  "epoch": 1.2253267237494367,
497
+ "grad_norm": 23.543447494506836,
498
  "learning_rate": 3.7725631768953066e-05,
499
+ "loss": 0.2704,
500
  "step": 680
501
  },
502
  {
503
  "epoch": 1.2433528616493916,
504
+ "grad_norm": 34.42282485961914,
505
  "learning_rate": 3.754512635379062e-05,
506
+ "loss": 0.3207,
507
  "step": 690
508
  },
509
  {
510
  "epoch": 1.2613789995493465,
511
+ "grad_norm": 52.59242630004883,
512
  "learning_rate": 3.7364620938628155e-05,
513
+ "loss": 0.303,
514
  "step": 700
515
  },
516
  {
517
  "epoch": 1.2794051374493014,
518
+ "grad_norm": 28.380693435668945,
519
  "learning_rate": 3.718411552346571e-05,
520
+ "loss": 0.2782,
521
  "step": 710
522
  },
523
  {
524
  "epoch": 1.2974312753492563,
525
+ "grad_norm": 30.861343383789062,
526
  "learning_rate": 3.700361010830325e-05,
527
+ "loss": 0.3218,
528
  "step": 720
529
  },
530
  {
531
  "epoch": 1.3154574132492114,
532
+ "grad_norm": 24.913606643676758,
533
  "learning_rate": 3.68231046931408e-05,
534
+ "loss": 0.2904,
535
  "step": 730
536
  },
537
  {
538
  "epoch": 1.3334835511491663,
539
+ "grad_norm": 32.816200256347656,
540
  "learning_rate": 3.664259927797834e-05,
541
+ "loss": 0.31,
542
  "step": 740
543
  },
544
  {
545
  "epoch": 1.3515096890491212,
546
+ "grad_norm": 21.931764602661133,
547
  "learning_rate": 3.646209386281589e-05,
548
+ "loss": 0.2986,
549
  "step": 750
550
  },
551
  {
552
  "epoch": 1.3695358269490763,
553
+ "grad_norm": 18.701095581054688,
554
  "learning_rate": 3.628158844765343e-05,
555
+ "loss": 0.2841,
556
  "step": 760
557
  },
558
  {
559
  "epoch": 1.3875619648490312,
560
+ "grad_norm": 18.000774383544922,
561
  "learning_rate": 3.610108303249098e-05,
562
+ "loss": 0.3354,
563
  "step": 770
564
  },
565
  {
566
  "epoch": 1.405588102748986,
567
+ "grad_norm": 37.74651336669922,
568
  "learning_rate": 3.592057761732852e-05,
569
+ "loss": 0.3101,
570
  "step": 780
571
  },
572
  {
573
  "epoch": 1.423614240648941,
574
+ "grad_norm": 20.058916091918945,
575
  "learning_rate": 3.574007220216607e-05,
576
+ "loss": 0.3324,
577
  "step": 790
578
  },
579
  {
580
  "epoch": 1.4416403785488958,
581
+ "grad_norm": 25.672412872314453,
582
  "learning_rate": 3.555956678700361e-05,
583
+ "loss": 0.2853,
584
  "step": 800
585
  },
586
  {
587
  "epoch": 1.4596665164488507,
588
+ "grad_norm": 25.06855010986328,
589
  "learning_rate": 3.537906137184116e-05,
590
+ "loss": 0.2913,
591
  "step": 810
592
  },
593
  {
594
  "epoch": 1.4776926543488058,
595
+ "grad_norm": 28.99418067932129,
596
  "learning_rate": 3.51985559566787e-05,
597
+ "loss": 0.3055,
598
  "step": 820
599
  },
600
  {
601
  "epoch": 1.4957187922487607,
602
+ "grad_norm": 31.89482307434082,
603
  "learning_rate": 3.5018050541516247e-05,
604
+ "loss": 0.3102,
605
  "step": 830
606
  },
607
  {
608
  "epoch": 1.5137449301487156,
609
+ "grad_norm": 19.116968154907227,
610
  "learning_rate": 3.483754512635379e-05,
611
+ "loss": 0.3079,
612
  "step": 840
613
  },
614
  {
615
  "epoch": 1.5317710680486707,
616
+ "grad_norm": 17.446434020996094,
617
  "learning_rate": 3.4657039711191336e-05,
618
+ "loss": 0.2972,
619
  "step": 850
620
  },
621
  {
622
  "epoch": 1.5497972059486256,
623
+ "grad_norm": 24.87527847290039,
624
  "learning_rate": 3.447653429602888e-05,
625
+ "loss": 0.3148,
626
  "step": 860
627
  },
628
  {
629
  "epoch": 1.5678233438485805,
630
+ "grad_norm": 27.43445587158203,
631
  "learning_rate": 3.4296028880866426e-05,
632
+ "loss": 0.3321,
633
  "step": 870
634
  },
635
  {
636
  "epoch": 1.5858494817485354,
637
+ "grad_norm": 29.606460571289062,
638
  "learning_rate": 3.411552346570397e-05,
639
+ "loss": 0.3132,
640
  "step": 880
641
  },
642
  {
643
  "epoch": 1.6038756196484902,
644
+ "grad_norm": 26.478710174560547,
645
  "learning_rate": 3.3935018050541516e-05,
646
+ "loss": 0.2844,
647
  "step": 890
648
  },
649
  {
650
  "epoch": 1.6219017575484451,
651
+ "grad_norm": 39.11272048950195,
652
  "learning_rate": 3.375451263537907e-05,
653
+ "loss": 0.3578,
654
  "step": 900
655
  },
656
  {
657
  "epoch": 1.6399278954484002,
658
+ "grad_norm": 25.545093536376953,
659
  "learning_rate": 3.3574007220216606e-05,
660
+ "loss": 0.2977,
661
  "step": 910
662
  },
663
  {
664
  "epoch": 1.6579540333483551,
665
+ "grad_norm": 32.68045425415039,
666
  "learning_rate": 3.339350180505416e-05,
667
+ "loss": 0.2662,
668
  "step": 920
669
  },
670
  {
671
  "epoch": 1.67598017124831,
672
+ "grad_norm": 21.527555465698242,
673
  "learning_rate": 3.3212996389891696e-05,
674
+ "loss": 0.3121,
675
  "step": 930
676
  },
677
  {
678
  "epoch": 1.694006309148265,
679
+ "grad_norm": 25.452423095703125,
680
  "learning_rate": 3.303249097472924e-05,
681
+ "loss": 0.3243,
682
  "step": 940
683
  },
684
  {
685
  "epoch": 1.71203244704822,
686
+ "grad_norm": 36.91832733154297,
687
  "learning_rate": 3.2851985559566786e-05,
688
+ "loss": 0.3199,
689
  "step": 950
690
  },
691
  {
692
  "epoch": 1.7300585849481749,
693
+ "grad_norm": 29.058032989501953,
694
  "learning_rate": 3.267148014440433e-05,
695
+ "loss": 0.2745,
696
  "step": 960
697
  },
698
  {
699
  "epoch": 1.7480847228481298,
700
+ "grad_norm": 34.39455032348633,
701
  "learning_rate": 3.249097472924188e-05,
702
+ "loss": 0.294,
703
  "step": 970
704
  },
705
  {
706
  "epoch": 1.7661108607480847,
707
+ "grad_norm": 32.51374053955078,
708
  "learning_rate": 3.231046931407942e-05,
709
+ "loss": 0.2994,
710
  "step": 980
711
  },
712
  {
713
  "epoch": 1.7841369986480395,
714
+ "grad_norm": 22.213062286376953,
715
  "learning_rate": 3.212996389891697e-05,
716
+ "loss": 0.3296,
717
  "step": 990
718
  },
719
  {
720
  "epoch": 1.8021631365479944,
721
+ "grad_norm": 26.40260887145996,
722
  "learning_rate": 3.194945848375451e-05,
723
+ "loss": 0.2876,
724
  "step": 1000
725
  },
726
  {
727
  "epoch": 1.8201892744479495,
728
+ "grad_norm": 26.672101974487305,
729
  "learning_rate": 3.176895306859206e-05,
730
+ "loss": 0.3172,
731
  "step": 1010
732
  },
733
  {
734
  "epoch": 1.8382154123479044,
735
+ "grad_norm": 20.305883407592773,
736
  "learning_rate": 3.15884476534296e-05,
737
+ "loss": 0.3199,
738
  "step": 1020
739
  },
740
  {
741
  "epoch": 1.8562415502478595,
742
+ "grad_norm": 33.50856018066406,
743
  "learning_rate": 3.140794223826715e-05,
744
+ "loss": 0.2886,
745
  "step": 1030
746
  },
747
  {
748
  "epoch": 1.8742676881478144,
749
+ "grad_norm": 38.9220085144043,
750
  "learning_rate": 3.12274368231047e-05,
751
+ "loss": 0.3198,
752
  "step": 1040
753
  },
754
  {
755
  "epoch": 1.8922938260477693,
756
+ "grad_norm": 31.592369079589844,
757
  "learning_rate": 3.104693140794224e-05,
758
+ "loss": 0.3174,
759
  "step": 1050
760
  },
761
  {
762
  "epoch": 1.9103199639477242,
763
+ "grad_norm": 23.867713928222656,
764
  "learning_rate": 3.086642599277979e-05,
765
+ "loss": 0.2686,
766
  "step": 1060
767
  },
768
  {
769
  "epoch": 1.928346101847679,
770
+ "grad_norm": 30.095354080200195,
771
  "learning_rate": 3.0685920577617325e-05,
772
+ "loss": 0.2915,
773
  "step": 1070
774
  },
775
  {
776
  "epoch": 1.946372239747634,
777
+ "grad_norm": 21.510950088500977,
778
  "learning_rate": 3.0505415162454877e-05,
779
+ "loss": 0.3328,
780
  "step": 1080
781
  },
782
  {
783
  "epoch": 1.9643983776475888,
784
+ "grad_norm": 25.863767623901367,
785
  "learning_rate": 3.032490974729242e-05,
786
+ "loss": 0.3207,
787
  "step": 1090
788
  },
789
  {
790
  "epoch": 1.982424515547544,
791
+ "grad_norm": 28.48052978515625,
792
  "learning_rate": 3.0144404332129967e-05,
793
+ "loss": 0.3221,
794
  "step": 1100
795
  },
796
  {
797
  "epoch": 2.0,
798
+ "grad_norm": 29.120187759399414,
799
  "learning_rate": 2.996389891696751e-05,
800
+ "loss": 0.2667,
801
  "step": 1110
802
  },
803
  {
804
  "epoch": 2.0,
805
+ "eval_f1": 0.8394543546694648,
806
+ "eval_fn": 287,
807
+ "eval_fp": 478,
808
+ "eval_loss": 0.3905850350856781,
809
+ "eval_precision": 0.8071025020177562,
810
+ "eval_recall": 0.8745080891998251,
811
+ "eval_runtime": 17.6994,
812
+ "eval_samples_per_second": 264.02,
813
+ "eval_steps_per_second": 33.052,
814
+ "eval_tn": 1908,
815
+ "eval_tp": 2000,
816
  "step": 1110
817
  },
818
  {
819
  "epoch": 2.018026137899955,
820
+ "grad_norm": 17.400802612304688,
821
  "learning_rate": 2.9783393501805057e-05,
822
+ "loss": 0.1682,
823
  "step": 1120
824
  },
825
  {
826
  "epoch": 2.0360522757999098,
827
+ "grad_norm": 18.69659423828125,
828
  "learning_rate": 2.9602888086642598e-05,
829
+ "loss": 0.1222,
830
  "step": 1130
831
  },
832
  {
833
  "epoch": 2.0540784136998647,
834
+ "grad_norm": 50.107913970947266,
835
  "learning_rate": 2.9422382671480147e-05,
836
+ "loss": 0.1668,
837
  "step": 1140
838
  },
839
  {
840
  "epoch": 2.0721045515998195,
841
+ "grad_norm": 46.38024139404297,
842
  "learning_rate": 2.924187725631769e-05,
843
+ "loss": 0.1498,
844
  "step": 1150
845
  },
846
  {
847
  "epoch": 2.090130689499775,
848
+ "grad_norm": 25.969005584716797,
849
  "learning_rate": 2.906137184115524e-05,
850
+ "loss": 0.159,
851
  "step": 1160
852
  },
853
  {
854
  "epoch": 2.1081568273997298,
855
+ "grad_norm": 39.98933792114258,
856
  "learning_rate": 2.888086642599278e-05,
857
+ "loss": 0.1309,
858
  "step": 1170
859
  },
860
  {
861
  "epoch": 2.1261829652996846,
862
+ "grad_norm": 52.10431671142578,
863
  "learning_rate": 2.870036101083033e-05,
864
+ "loss": 0.1667,
865
  "step": 1180
866
  },
867
  {
868
  "epoch": 2.1442091031996395,
869
+ "grad_norm": 40.3720703125,
870
  "learning_rate": 2.851985559566787e-05,
871
+ "loss": 0.1893,
872
  "step": 1190
873
  },
874
  {
875
  "epoch": 2.1622352410995944,
876
+ "grad_norm": 38.03019332885742,
877
  "learning_rate": 2.8339350180505413e-05,
878
+ "loss": 0.1565,
879
  "step": 1200
880
  },
881
  {
882
  "epoch": 2.1802613789995493,
883
+ "grad_norm": 45.700809478759766,
884
  "learning_rate": 2.815884476534296e-05,
885
+ "loss": 0.1461,
886
  "step": 1210
887
  },
888
  {
889
  "epoch": 2.198287516899504,
890
+ "grad_norm": 37.712379455566406,
891
  "learning_rate": 2.7978339350180506e-05,
892
+ "loss": 0.1561,
893
  "step": 1220
894
  },
895
  {
896
  "epoch": 2.216313654799459,
897
+ "grad_norm": 33.16317367553711,
898
  "learning_rate": 2.779783393501805e-05,
899
+ "loss": 0.1484,
900
  "step": 1230
901
  },
902
  {
903
  "epoch": 2.234339792699414,
904
+ "grad_norm": 19.943294525146484,
905
  "learning_rate": 2.7617328519855596e-05,
906
+ "loss": 0.1659,
907
  "step": 1240
908
  },
909
  {
910
  "epoch": 2.2523659305993693,
911
+ "grad_norm": 20.473445892333984,
912
  "learning_rate": 2.7436823104693144e-05,
913
+ "loss": 0.1515,
914
  "step": 1250
915
  },
916
  {
917
  "epoch": 2.270392068499324,
918
+ "grad_norm": 38.28823471069336,
919
  "learning_rate": 2.7256317689530686e-05,
920
+ "loss": 0.1856,
921
  "step": 1260
922
  },
923
  {
924
  "epoch": 2.288418206399279,
925
+ "grad_norm": 17.913368225097656,
926
  "learning_rate": 2.7075812274368234e-05,
927
+ "loss": 0.1326,
928
  "step": 1270
929
  },
930
  {
931
  "epoch": 2.306444344299234,
932
+ "grad_norm": 20.06118392944336,
933
  "learning_rate": 2.6895306859205776e-05,
934
+ "loss": 0.1426,
935
  "step": 1280
936
  },
937
  {
938
  "epoch": 2.324470482199189,
939
+ "grad_norm": 30.24198341369629,
940
  "learning_rate": 2.6714801444043324e-05,
941
+ "loss": 0.1237,
942
  "step": 1290
943
  },
944
  {
945
  "epoch": 2.3424966200991437,
946
+ "grad_norm": 25.373851776123047,
947
  "learning_rate": 2.6534296028880866e-05,
948
+ "loss": 0.1321,
949
  "step": 1300
950
  },
951
  {
952
  "epoch": 2.3605227579990986,
953
+ "grad_norm": 61.367210388183594,
954
  "learning_rate": 2.6353790613718414e-05,
955
+ "loss": 0.1628,
956
  "step": 1310
957
  },
958
  {
959
  "epoch": 2.3785488958990535,
960
+ "grad_norm": 41.69776916503906,
961
  "learning_rate": 2.617328519855596e-05,
962
+ "loss": 0.1245,
963
  "step": 1320
964
  },
965
  {
966
  "epoch": 2.3965750337990084,
967
+ "grad_norm": 42.08649826049805,
968
  "learning_rate": 2.59927797833935e-05,
969
+ "loss": 0.1612,
970
  "step": 1330
971
  },
972
  {
973
  "epoch": 2.4146011716989637,
974
+ "grad_norm": 22.838258743286133,
975
  "learning_rate": 2.581227436823105e-05,
976
+ "loss": 0.1373,
977
  "step": 1340
978
  },
979
  {
980
  "epoch": 2.4326273095989186,
981
+ "grad_norm": 52.76067352294922,
982
  "learning_rate": 2.563176895306859e-05,
983
+ "loss": 0.1511,
984
  "step": 1350
985
  },
986
  {
987
  "epoch": 2.4506534474988735,
988
+ "grad_norm": 50.871219635009766,
989
  "learning_rate": 2.545126353790614e-05,
990
+ "loss": 0.1777,
991
  "step": 1360
992
  },
993
  {
994
  "epoch": 2.4686795853988284,
995
+ "grad_norm": 19.779335021972656,
996
  "learning_rate": 2.527075812274368e-05,
997
+ "loss": 0.1778,
998
  "step": 1370
999
  },
1000
  {
1001
  "epoch": 2.4867057232987833,
1002
+ "grad_norm": 40.787845611572266,
1003
  "learning_rate": 2.509025270758123e-05,
1004
+ "loss": 0.1433,
1005
  "step": 1380
1006
  },
1007
  {
1008
  "epoch": 2.504731861198738,
1009
+ "grad_norm": 39.423404693603516,
1010
  "learning_rate": 2.4909747292418774e-05,
1011
+ "loss": 0.1372,
1012
  "step": 1390
1013
  },
1014
  {
1015
  "epoch": 2.522757999098693,
1016
+ "grad_norm": 46.86770248413086,
1017
  "learning_rate": 2.472924187725632e-05,
1018
+ "loss": 0.2135,
1019
  "step": 1400
1020
  },
1021
  {
1022
  "epoch": 2.540784136998648,
1023
+ "grad_norm": 17.858736038208008,
1024
  "learning_rate": 2.4548736462093864e-05,
1025
+ "loss": 0.1631,
1026
  "step": 1410
1027
  },
1028
  {
1029
  "epoch": 2.558810274898603,
1030
+ "grad_norm": 36.45213317871094,
1031
  "learning_rate": 2.436823104693141e-05,
1032
+ "loss": 0.1753,
1033
  "step": 1420
1034
  },
1035
  {
1036
  "epoch": 2.576836412798558,
1037
+ "grad_norm": 51.208805084228516,
1038
  "learning_rate": 2.4187725631768953e-05,
1039
+ "loss": 0.1722,
1040
  "step": 1430
1041
  },
1042
  {
1043
  "epoch": 2.5948625506985126,
1044
+ "grad_norm": 20.30636978149414,
1045
  "learning_rate": 2.40072202166065e-05,
1046
+ "loss": 0.1516,
1047
  "step": 1440
1048
  },
1049
  {
1050
  "epoch": 2.612888688598468,
1051
+ "grad_norm": 57.81936264038086,
1052
  "learning_rate": 2.3826714801444043e-05,
1053
+ "loss": 0.1488,
1054
  "step": 1450
1055
  },
1056
  {
1057
  "epoch": 2.630914826498423,
1058
+ "grad_norm": 33.060733795166016,
1059
  "learning_rate": 2.3646209386281588e-05,
1060
+ "loss": 0.1625,
1061
  "step": 1460
1062
  },
1063
  {
1064
  "epoch": 2.6489409643983777,
1065
+ "grad_norm": 54.26327133178711,
1066
  "learning_rate": 2.3465703971119137e-05,
1067
+ "loss": 0.1771,
1068
  "step": 1470
1069
  },
1070
  {
1071
  "epoch": 2.6669671022983326,
1072
+ "grad_norm": 25.87835693359375,
1073
  "learning_rate": 2.328519855595668e-05,
1074
+ "loss": 0.191,
1075
  "step": 1480
1076
  },
1077
  {
1078
  "epoch": 2.6849932401982874,
1079
+ "grad_norm": 34.679718017578125,
1080
  "learning_rate": 2.3104693140794227e-05,
1081
+ "loss": 0.138,
1082
  "step": 1490
1083
  },
1084
  {
1085
  "epoch": 2.7030193780982423,
1086
+ "grad_norm": 44.00432205200195,
1087
  "learning_rate": 2.292418772563177e-05,
1088
+ "loss": 0.1652,
1089
  "step": 1500
1090
  },
1091
  {
1092
  "epoch": 2.721045515998197,
1093
+ "grad_norm": 11.452496528625488,
1094
  "learning_rate": 2.2743682310469316e-05,
1095
+ "loss": 0.1457,
1096
  "step": 1510
1097
  },
1098
  {
1099
  "epoch": 2.7390716538981525,
1100
+ "grad_norm": 34.115055084228516,
1101
  "learning_rate": 2.2563176895306858e-05,
1102
+ "loss": 0.1607,
1103
  "step": 1520
1104
  },
1105
  {
1106
  "epoch": 2.757097791798107,
1107
+ "grad_norm": 37.13041305541992,
1108
  "learning_rate": 2.2382671480144403e-05,
1109
+ "loss": 0.1519,
1110
  "step": 1530
1111
  },
1112
  {
1113
  "epoch": 2.7751239296980623,
1114
+ "grad_norm": 49.859092712402344,
1115
  "learning_rate": 2.220216606498195e-05,
1116
+ "loss": 0.1842,
1117
  "step": 1540
1118
  },
1119
  {
1120
  "epoch": 2.793150067598017,
1121
+ "grad_norm": 20.27824592590332,
1122
  "learning_rate": 2.2021660649819496e-05,
1123
+ "loss": 0.1352,
1124
  "step": 1550
1125
  },
1126
  {
1127
  "epoch": 2.811176205497972,
1128
+ "grad_norm": 54.31693649291992,
1129
  "learning_rate": 2.184115523465704e-05,
1130
+ "loss": 0.2065,
1131
  "step": 1560
1132
  },
1133
  {
1134
  "epoch": 2.829202343397927,
1135
+ "grad_norm": 53.624446868896484,
1136
  "learning_rate": 2.1660649819494586e-05,
1137
+ "loss": 0.167,
1138
  "step": 1570
1139
  },
1140
  {
1141
  "epoch": 2.847228481297882,
1142
+ "grad_norm": 22.161457061767578,
1143
  "learning_rate": 2.148014440433213e-05,
1144
+ "loss": 0.1425,
1145
  "step": 1580
1146
  },
1147
  {
1148
  "epoch": 2.8652546191978367,
1149
+ "grad_norm": 27.219818115234375,
1150
  "learning_rate": 2.1299638989169676e-05,
1151
+ "loss": 0.2153,
1152
  "step": 1590
1153
  },
1154
  {
1155
  "epoch": 2.8832807570977916,
1156
+ "grad_norm": 32.98075866699219,
1157
  "learning_rate": 2.111913357400722e-05,
1158
+ "loss": 0.1473,
1159
  "step": 1600
1160
  },
1161
  {
1162
  "epoch": 2.901306894997747,
1163
+ "grad_norm": 71.80169677734375,
1164
  "learning_rate": 2.0938628158844766e-05,
1165
+ "loss": 0.1333,
1166
  "step": 1610
1167
  },
1168
  {
1169
  "epoch": 2.9193330328977014,
1170
+ "grad_norm": 45.45034408569336,
1171
  "learning_rate": 2.075812274368231e-05,
1172
+ "loss": 0.1525,
1173
  "step": 1620
1174
  },
1175
  {
1176
  "epoch": 2.9373591707976567,
1177
+ "grad_norm": 36.39427185058594,
1178
  "learning_rate": 2.057761732851986e-05,
1179
+ "loss": 0.1315,
1180
  "step": 1630
1181
  },
1182
  {
1183
  "epoch": 2.9553853086976116,
1184
+ "grad_norm": 36.360191345214844,
1185
  "learning_rate": 2.0397111913357404e-05,
1186
+ "loss": 0.1497,
1187
  "step": 1640
1188
  },
1189
  {
1190
  "epoch": 2.9734114465975665,
1191
+ "grad_norm": 45.537322998046875,
1192
  "learning_rate": 2.0216606498194946e-05,
1193
+ "loss": 0.1357,
1194
  "step": 1650
1195
  },
1196
  {
1197
  "epoch": 2.9914375844975214,
1198
+ "grad_norm": 22.563854217529297,
1199
  "learning_rate": 2.003610108303249e-05,
1200
+ "loss": 0.166,
1201
  "step": 1660
1202
  },
1203
  {
1204
  "epoch": 3.0,
1205
+ "eval_f1": 0.82996632996633,
1206
+ "eval_fn": 315,
1207
+ "eval_fp": 493,
1208
+ "eval_loss": 0.5492772459983826,
1209
+ "eval_precision": 0.8,
1210
+ "eval_recall": 0.8622649759510276,
1211
+ "eval_runtime": 12.9988,
1212
+ "eval_samples_per_second": 359.495,
1213
+ "eval_steps_per_second": 45.004,
1214
+ "eval_tn": 1893,
1215
+ "eval_tp": 1972,
1216
  "step": 1665
1217
  },
1218
  {
1219
  "epoch": 3.0090130689499777,
1220
+ "grad_norm": 7.169532299041748,
1221
  "learning_rate": 1.9855595667870036e-05,
1222
+ "loss": 0.1283,
1223
  "step": 1670
1224
  },
1225
  {
1226
  "epoch": 3.0270392068499326,
1227
+ "grad_norm": 53.082916259765625,
1228
  "learning_rate": 1.967509025270758e-05,
1229
+ "loss": 0.0816,
1230
  "step": 1680
1231
  },
1232
  {
1233
  "epoch": 3.0450653447498874,
1234
+ "grad_norm": 47.888553619384766,
1235
  "learning_rate": 1.9494584837545125e-05,
1236
+ "loss": 0.0742,
1237
  "step": 1690
1238
  },
1239
  {
1240
  "epoch": 3.0630914826498423,
1241
+ "grad_norm": 54.369449615478516,
1242
  "learning_rate": 1.9314079422382674e-05,
1243
+ "loss": 0.0728,
1244
  "step": 1700
1245
  },
1246
  {
1247
  "epoch": 3.081117620549797,
1248
+ "grad_norm": 7.978189945220947,
1249
  "learning_rate": 1.913357400722022e-05,
1250
+ "loss": 0.0702,
1251
  "step": 1710
1252
  },
1253
  {
1254
  "epoch": 3.099143758449752,
1255
+ "grad_norm": 30.30511474609375,
1256
  "learning_rate": 1.8953068592057764e-05,
1257
+ "loss": 0.065,
1258
  "step": 1720
1259
  },
1260
  {
1261
  "epoch": 3.117169896349707,
1262
+ "grad_norm": 15.761763572692871,
1263
  "learning_rate": 1.877256317689531e-05,
1264
+ "loss": 0.0573,
1265
  "step": 1730
1266
  },
1267
  {
1268
  "epoch": 3.135196034249662,
1269
+ "grad_norm": 47.82561492919922,
1270
  "learning_rate": 1.8592057761732854e-05,
1271
+ "loss": 0.0842,
1272
  "step": 1740
1273
  },
1274
  {
1275
  "epoch": 3.1532221721496168,
1276
+ "grad_norm": 35.642642974853516,
1277
  "learning_rate": 1.84115523465704e-05,
1278
+ "loss": 0.0745,
1279
  "step": 1750
1280
  },
1281
  {
1282
  "epoch": 3.171248310049572,
1283
+ "grad_norm": 27.68004608154297,
1284
  "learning_rate": 1.8231046931407943e-05,
1285
+ "loss": 0.0743,
1286
  "step": 1760
1287
  },
1288
  {
1289
  "epoch": 3.189274447949527,
1290
+ "grad_norm": 16.700593948364258,
1291
  "learning_rate": 1.805054151624549e-05,
1292
+ "loss": 0.061,
1293
  "step": 1770
1294
  },
1295
  {
1296
  "epoch": 3.207300585849482,
1297
+ "grad_norm": 8.846168518066406,
1298
  "learning_rate": 1.7870036101083033e-05,
1299
+ "loss": 0.0581,
1300
  "step": 1780
1301
  },
1302
  {
1303
  "epoch": 3.2253267237494367,
1304
+ "grad_norm": 38.31391143798828,
1305
  "learning_rate": 1.768953068592058e-05,
1306
+ "loss": 0.1093,
1307
  "step": 1790
1308
  },
1309
  {
1310
  "epoch": 3.2433528616493916,
1311
+ "grad_norm": 39.713565826416016,
1312
  "learning_rate": 1.7509025270758123e-05,
1313
+ "loss": 0.0859,
1314
  "step": 1800
1315
  },
1316
  {
1317
  "epoch": 3.2613789995493465,
1318
+ "grad_norm": 51.820274353027344,
1319
  "learning_rate": 1.7328519855595668e-05,
1320
+ "loss": 0.0768,
1321
  "step": 1810
1322
  },
1323
  {
1324
  "epoch": 3.2794051374493014,
1325
+ "grad_norm": 64.148681640625,
1326
  "learning_rate": 1.7148014440433213e-05,
1327
+ "loss": 0.0688,
1328
  "step": 1820
1329
  },
1330
  {
1331
  "epoch": 3.2974312753492563,
1332
+ "grad_norm": 42.258243560791016,
1333
  "learning_rate": 1.6967509025270758e-05,
1334
+ "loss": 0.0787,
1335
  "step": 1830
1336
  },
1337
  {
1338
  "epoch": 3.315457413249211,
1339
+ "grad_norm": 7.588295936584473,
1340
  "learning_rate": 1.6787003610108303e-05,
1341
+ "loss": 0.0516,
1342
  "step": 1840
1343
  },
1344
  {
1345
  "epoch": 3.3334835511491665,
1346
+ "grad_norm": 61.41086196899414,
1347
  "learning_rate": 1.6606498194945848e-05,
1348
+ "loss": 0.0759,
1349
  "step": 1850
1350
  },
1351
  {
1352
  "epoch": 3.3515096890491214,
1353
+ "grad_norm": 2.3156187534332275,
1354
  "learning_rate": 1.6425992779783393e-05,
1355
+ "loss": 0.0649,
1356
  "step": 1860
1357
  },
1358
  {
1359
  "epoch": 3.3695358269490763,
1360
+ "grad_norm": 37.482566833496094,
1361
  "learning_rate": 1.624548736462094e-05,
1362
+ "loss": 0.0882,
1363
  "step": 1870
1364
  },
1365
  {
1366
  "epoch": 3.387561964849031,
1367
+ "grad_norm": 73.03086853027344,
1368
  "learning_rate": 1.6064981949458486e-05,
1369
+ "loss": 0.0588,
1370
  "step": 1880
1371
  },
1372
  {
1373
  "epoch": 3.405588102748986,
1374
+ "grad_norm": 66.03443908691406,
1375
  "learning_rate": 1.588447653429603e-05,
1376
+ "loss": 0.0786,
1377
  "step": 1890
1378
  },
1379
  {
1380
  "epoch": 3.423614240648941,
1381
+ "grad_norm": 85.51991271972656,
1382
  "learning_rate": 1.5703971119133576e-05,
1383
+ "loss": 0.1056,
1384
  "step": 1900
1385
  },
1386
  {
1387
  "epoch": 3.441640378548896,
1388
+ "grad_norm": 146.41830444335938,
1389
  "learning_rate": 1.552346570397112e-05,
1390
+ "loss": 0.0603,
1391
  "step": 1910
1392
  },
1393
  {
1394
  "epoch": 3.4596665164488507,
1395
+ "grad_norm": 10.789298057556152,
1396
  "learning_rate": 1.5342960288808663e-05,
1397
+ "loss": 0.081,
1398
  "step": 1920
1399
  },
1400
  {
1401
  "epoch": 3.4776926543488056,
1402
+ "grad_norm": 55.54345703125,
1403
  "learning_rate": 1.516245487364621e-05,
1404
+ "loss": 0.0884,
1405
  "step": 1930
1406
  },
1407
  {
1408
  "epoch": 3.495718792248761,
1409
+ "grad_norm": 11.078765869140625,
1410
  "learning_rate": 1.4981949458483754e-05,
1411
+ "loss": 0.0609,
1412
  "step": 1940
1413
  },
1414
  {
1415
  "epoch": 3.5137449301487154,
1416
+ "grad_norm": 67.22940063476562,
1417
  "learning_rate": 1.4801444043321299e-05,
1418
+ "loss": 0.0923,
1419
  "step": 1950
1420
  },
1421
  {
1422
  "epoch": 3.5317710680486707,
1423
+ "grad_norm": 21.463754653930664,
1424
  "learning_rate": 1.4620938628158846e-05,
1425
+ "loss": 0.0784,
1426
  "step": 1960
1427
  },
1428
  {
1429
  "epoch": 3.5497972059486256,
1430
+ "grad_norm": 46.619197845458984,
1431
  "learning_rate": 1.444043321299639e-05,
1432
+ "loss": 0.0557,
1433
  "step": 1970
1434
  },
1435
  {
1436
  "epoch": 3.5678233438485805,
1437
+ "grad_norm": 38.9202766418457,
1438
  "learning_rate": 1.4259927797833936e-05,
1439
+ "loss": 0.0773,
1440
  "step": 1980
1441
  },
1442
  {
1443
  "epoch": 3.5858494817485354,
1444
+ "grad_norm": 75.98242950439453,
1445
  "learning_rate": 1.407942238267148e-05,
1446
+ "loss": 0.0704,
1447
  "step": 1990
1448
  },
1449
  {
1450
  "epoch": 3.6038756196484902,
1451
+ "grad_norm": 21.9030818939209,
1452
  "learning_rate": 1.3898916967509026e-05,
1453
+ "loss": 0.0917,
1454
  "step": 2000
1455
  },
1456
  {
1457
  "epoch": 3.621901757548445,
1458
+ "grad_norm": 39.96767807006836,
1459
  "learning_rate": 1.3718411552346572e-05,
1460
+ "loss": 0.0596,
1461
  "step": 2010
1462
  },
1463
  {
1464
  "epoch": 3.6399278954484,
1465
+ "grad_norm": 34.662776947021484,
1466
  "learning_rate": 1.3537906137184117e-05,
1467
+ "loss": 0.0943,
1468
  "step": 2020
1469
  },
1470
  {
1471
  "epoch": 3.6579540333483553,
1472
+ "grad_norm": 83.10199737548828,
1473
  "learning_rate": 1.3357400722021662e-05,
1474
+ "loss": 0.0836,
1475
  "step": 2030
1476
  },
1477
  {
1478
  "epoch": 3.67598017124831,
1479
+ "grad_norm": 43.2503662109375,
1480
  "learning_rate": 1.3176895306859207e-05,
1481
+ "loss": 0.0706,
1482
  "step": 2040
1483
  },
1484
  {
1485
  "epoch": 3.694006309148265,
1486
+ "grad_norm": 29.68882942199707,
1487
  "learning_rate": 1.299638989169675e-05,
1488
+ "loss": 0.0795,
1489
  "step": 2050
1490
  },
1491
  {
1492
  "epoch": 3.71203244704822,
1493
+ "grad_norm": 29.66282844543457,
1494
  "learning_rate": 1.2815884476534295e-05,
1495
+ "loss": 0.0581,
1496
  "step": 2060
1497
  },
1498
  {
1499
  "epoch": 3.730058584948175,
1500
+ "grad_norm": 44.41033935546875,
1501
  "learning_rate": 1.263537906137184e-05,
1502
+ "loss": 0.0801,
1503
  "step": 2070
1504
  },
1505
  {
1506
  "epoch": 3.7480847228481298,
1507
+ "grad_norm": 36.88494110107422,
1508
  "learning_rate": 1.2454873646209387e-05,
1509
+ "loss": 0.0815,
1510
  "step": 2080
1511
  },
1512
  {
1513
  "epoch": 3.7661108607480847,
1514
+ "grad_norm": 49.79912185668945,
1515
  "learning_rate": 1.2274368231046932e-05,
1516
+ "loss": 0.0758,
1517
  "step": 2090
1518
  },
1519
  {
1520
  "epoch": 3.7841369986480395,
1521
+ "grad_norm": 44.74293899536133,
1522
  "learning_rate": 1.2093862815884477e-05,
1523
+ "loss": 0.0701,
1524
  "step": 2100
1525
  },
1526
  {
1527
  "epoch": 3.8021631365479944,
1528
+ "grad_norm": 19.233646392822266,
1529
  "learning_rate": 1.1913357400722022e-05,
1530
+ "loss": 0.0836,
1531
  "step": 2110
1532
  },
1533
  {
1534
  "epoch": 3.8201892744479498,
1535
+ "grad_norm": 74.74971771240234,
1536
  "learning_rate": 1.1732851985559568e-05,
1537
+ "loss": 0.1071,
1538
  "step": 2120
1539
  },
1540
  {
1541
  "epoch": 3.838215412347904,
1542
+ "grad_norm": 65.20303344726562,
1543
  "learning_rate": 1.1552346570397113e-05,
1544
+ "loss": 0.0761,
1545
  "step": 2130
1546
  },
1547
  {
1548
  "epoch": 3.8562415502478595,
1549
+ "grad_norm": 67.05883026123047,
1550
  "learning_rate": 1.1371841155234658e-05,
1551
+ "loss": 0.1228,
1552
  "step": 2140
1553
  },
1554
  {
1555
  "epoch": 3.8742676881478144,
1556
+ "grad_norm": 21.299774169921875,
1557
  "learning_rate": 1.1191335740072201e-05,
1558
+ "loss": 0.1194,
1559
  "step": 2150
1560
  },
1561
  {
1562
  "epoch": 3.8922938260477693,
1563
+ "grad_norm": 12.536727905273438,
1564
  "learning_rate": 1.1010830324909748e-05,
1565
+ "loss": 0.0878,
1566
  "step": 2160
1567
  },
1568
  {
1569
  "epoch": 3.910319963947724,
1570
+ "grad_norm": 75.28766632080078,
1571
  "learning_rate": 1.0830324909747293e-05,
1572
+ "loss": 0.0555,
1573
  "step": 2170
1574
  },
1575
  {
1576
  "epoch": 3.928346101847679,
1577
+ "grad_norm": 30.614364624023438,
1578
  "learning_rate": 1.0649819494584838e-05,
1579
+ "loss": 0.0766,
1580
  "step": 2180
1581
  },
1582
  {
1583
  "epoch": 3.946372239747634,
1584
+ "grad_norm": 62.048099517822266,
1585
  "learning_rate": 1.0469314079422383e-05,
1586
+ "loss": 0.0459,
1587
  "step": 2190
1588
  },
1589
  {
1590
  "epoch": 3.964398377647589,
1591
+ "grad_norm": 5.321977615356445,
1592
  "learning_rate": 1.028880866425993e-05,
1593
+ "loss": 0.0751,
1594
  "step": 2200
1595
  },
1596
  {
1597
  "epoch": 3.982424515547544,
1598
+ "grad_norm": 109.93370819091797,
1599
  "learning_rate": 1.0108303249097473e-05,
1600
+ "loss": 0.0572,
1601
  "step": 2210
1602
  },
1603
  {
1604
  "epoch": 4.0,
1605
+ "grad_norm": 51.198822021484375,
1606
  "learning_rate": 9.927797833935018e-06,
1607
+ "loss": 0.0649,
1608
  "step": 2220
1609
  },
1610
  {
1611
  "epoch": 4.0,
1612
+ "eval_f1": 0.8250753985351141,
1613
+ "eval_fn": 372,
1614
+ "eval_fp": 440,
1615
+ "eval_loss": 0.7689136266708374,
1616
+ "eval_precision": 0.8131634819532909,
1617
+ "eval_recall": 0.8373414954088325,
1618
+ "eval_runtime": 17.851,
1619
+ "eval_samples_per_second": 261.777,
1620
+ "eval_steps_per_second": 32.771,
1621
+ "eval_tn": 1946,
1622
+ "eval_tp": 1915,
1623
  "step": 2220
1624
  }
1625
  ],
checkpoint-2220/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:92aaf17ba6b51dd0179acd28630a512a049c53024ba01863d7232c815d6018dd
3
  size 5432
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e924750e5e12e6bb9372df333907b4d7f42d9dd2da839a2407f8f861ab40940
3
  size 5432