diaenra commited on
Commit
cdb9871
·
verified ·
1 Parent(s): a5ce891

Training in progress, step 1545, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:309b5b8c9ac4b830a70f6fab0898dedbcf22d89e2c8dd2e39b1078a8bfd07917
3
  size 3664864144
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e735d6651ff979f84f7d64ca5c909cdd9d5d53bc7affb4b04db59bcdb9df0496
3
  size 3664864144
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0419df361bfd3bf52439d41108b5b608f9c17add6c391f3cd21793e59a0a7bf7
3
  size 7330126728
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:243c3f8ae1c3a08e0b668b5bd310c8b6c343d08cd9a9bd43d8d1adaa4d40aeb3
3
  size 7330126728
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:821bb6d17fcad1256b8d0e158f027f5e92af17c9455cff930641be7720551348
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b469b819f05d46728b32e996c035264ffbdf19b66cb9b8b924e9dfb2e5b598d6
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3234d47291be091ba5e96799eacd38272127c97f6037585624843f0ee85c4d82
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3938e5834fb6d7b92270fc83a570825167a94c73c9876e613f5b81e1c8c2381e
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.9281553398058252,
5
  "eval_steps": 500,
6
- "global_step": 1434,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -10045,6 +10045,783 @@
10045
  "learning_rate": 1.4489095429227995e-06,
10046
  "loss": 0.0,
10047
  "step": 1434
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10048
  }
10049
  ],
10050
  "logging_steps": 1,
@@ -10059,12 +10836,12 @@
10059
  "should_evaluate": false,
10060
  "should_log": false,
10061
  "should_save": true,
10062
- "should_training_stop": false
10063
  },
10064
  "attributes": {}
10065
  }
10066
  },
10067
- "total_flos": 4.203003914074718e+18,
10068
  "train_batch_size": 4,
10069
  "trial_name": null,
10070
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 500,
6
+ "global_step": 1545,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
10045
  "learning_rate": 1.4489095429227995e-06,
10046
  "loss": 0.0,
10047
  "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.9288025889967637,
10051
+ "grad_norm": 3.283307160018012e-05,
10052
+ "learning_rate": 1.4230446531803e-06,
10053
+ "loss": 0.0,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.9294498381877022,
10058
+ "grad_norm": 2.6713743864092976e-05,
10059
+ "learning_rate": 1.3974093752209206e-06,
10060
+ "loss": 0.0,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.9300970873786408,
10065
+ "grad_norm": 2.7796757422038354e-05,
10066
+ "learning_rate": 1.372003830216545e-06,
10067
+ "loss": 0.0,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.9307443365695793,
10072
+ "grad_norm": 2.8533981094369665e-05,
10073
+ "learning_rate": 1.3468281382531866e-06,
10074
+ "loss": 0.0,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.9313915857605178,
10079
+ "grad_norm": 2.888152448576875e-05,
10080
+ "learning_rate": 1.321882418330389e-06,
10081
+ "loss": 0.0,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.9320388349514563,
10086
+ "grad_norm": 2.925360058725346e-05,
10087
+ "learning_rate": 1.2971667883606652e-06,
10088
+ "loss": 0.0,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.9326860841423948,
10093
+ "grad_norm": 2.8393138563842513e-05,
10094
+ "learning_rate": 1.272681365168965e-06,
10095
+ "loss": 0.0,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.9333333333333333,
10100
+ "grad_norm": 3.054711487493478e-05,
10101
+ "learning_rate": 1.2484262644920918e-06,
10102
+ "loss": 0.0,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.9339805825242719,
10107
+ "grad_norm": 2.7200458134757355e-05,
10108
+ "learning_rate": 1.2244016009781701e-06,
10109
+ "loss": 0.0,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.9346278317152104,
10114
+ "grad_norm": 2.731495442276355e-05,
10115
+ "learning_rate": 1.2006074881861063e-06,
10116
+ "loss": 0.0,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.9352750809061489,
10121
+ "grad_norm": 2.8398326321621425e-05,
10122
+ "learning_rate": 1.1770440385850401e-06,
10123
+ "loss": 0.0,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.9359223300970874,
10128
+ "grad_norm": 2.7919622880290262e-05,
10129
+ "learning_rate": 1.1537113635538332e-06,
10130
+ "loss": 0.0,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.9365695792880259,
10135
+ "grad_norm": 2.779790520435199e-05,
10136
+ "learning_rate": 1.1306095733805254e-06,
10137
+ "loss": 0.0,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 0.9372168284789644,
10142
+ "grad_norm": 2.8276941520744003e-05,
10143
+ "learning_rate": 1.1077387772618075e-06,
10144
+ "loss": 0.0,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 0.9378640776699029,
10149
+ "grad_norm": 2.8997719709877856e-05,
10150
+ "learning_rate": 1.0850990833025322e-06,
10151
+ "loss": 0.0,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 0.9385113268608414,
10156
+ "grad_norm": 2.779282112896908e-05,
10157
+ "learning_rate": 1.062690598515187e-06,
10158
+ "loss": 0.0,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 0.9391585760517799,
10163
+ "grad_norm": 3.428855779930018e-05,
10164
+ "learning_rate": 1.0405134288193674e-06,
10165
+ "loss": 0.0,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 0.9398058252427185,
10170
+ "grad_norm": 3.5010241845157e-05,
10171
+ "learning_rate": 1.0185676790413213e-06,
10172
+ "loss": 0.0,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 0.940453074433657,
10177
+ "grad_norm": 3.0191284167813137e-05,
10178
+ "learning_rate": 9.968534529134154e-07,
10179
+ "loss": 0.0,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 0.9411003236245955,
10184
+ "grad_norm": 3.0183244234649464e-05,
10185
+ "learning_rate": 9.75370853073665e-07,
10186
+ "loss": 0.0,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 0.941747572815534,
10191
+ "grad_norm": 2.900006620620843e-05,
10192
+ "learning_rate": 9.54119981065238e-07,
10193
+ "loss": 0.0,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 0.9423948220064725,
10198
+ "grad_norm": 4.836772131966427e-05,
10199
+ "learning_rate": 9.3310093733599e-07,
10200
+ "loss": 0.0,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 0.943042071197411,
10205
+ "grad_norm": 3.2600761187495664e-05,
10206
+ "learning_rate": 9.123138212379534e-07,
10207
+ "loss": 0.0,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 0.9436893203883495,
10212
+ "grad_norm": 2.8977845431654714e-05,
10213
+ "learning_rate": 8.917587310269315e-07,
10214
+ "loss": 0.0,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 0.944336569579288,
10219
+ "grad_norm": 3.258264041505754e-05,
10220
+ "learning_rate": 8.714357638619608e-07,
10221
+ "loss": 0.0,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 0.9449838187702265,
10226
+ "grad_norm": 3.353532883920707e-05,
10227
+ "learning_rate": 8.513450158049108e-07,
10228
+ "loss": 0.0,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 0.945631067961165,
10233
+ "grad_norm": 3.066585122724064e-05,
10234
+ "learning_rate": 8.314865818200013e-07,
10235
+ "loss": 0.0,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 0.9462783171521035,
10240
+ "grad_norm": 2.8273796488065273e-05,
10241
+ "learning_rate": 8.118605557733417e-07,
10242
+ "loss": 0.0,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 0.946925566343042,
10247
+ "grad_norm": 2.887805203499738e-05,
10248
+ "learning_rate": 7.924670304325199e-07,
10249
+ "loss": 0.0,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 0.9475728155339805,
10254
+ "grad_norm": 3.234121322748251e-05,
10255
+ "learning_rate": 7.733060974661588e-07,
10256
+ "loss": 0.0,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 0.948220064724919,
10261
+ "grad_norm": 2.8881553589599207e-05,
10262
+ "learning_rate": 7.543778474434438e-07,
10263
+ "loss": 0.0,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 0.9488673139158577,
10268
+ "grad_norm": 2.9947719667688943e-05,
10269
+ "learning_rate": 7.356823698337512e-07,
10270
+ "loss": 0.0,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 0.9495145631067962,
10275
+ "grad_norm": 3.2102212571771815e-05,
10276
+ "learning_rate": 7.172197530061708e-07,
10277
+ "loss": 0.0,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 0.9501618122977347,
10282
+ "grad_norm": 2.9960867323097773e-05,
10283
+ "learning_rate": 6.989900842291286e-07,
10284
+ "loss": 0.0,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 0.9508090614886732,
10289
+ "grad_norm": 2.9122256819391623e-05,
10290
+ "learning_rate": 6.809934496699588e-07,
10291
+ "loss": 0.0,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 0.9514563106796117,
10296
+ "grad_norm": 3.0438421163125895e-05,
10297
+ "learning_rate": 6.632299343945103e-07,
10298
+ "loss": 0.0,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 0.9521035598705502,
10303
+ "grad_norm": 3.2355859730159864e-05,
10304
+ "learning_rate": 6.456996223667022e-07,
10305
+ "loss": 0.0,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 0.9527508090614887,
10310
+ "grad_norm": 2.8882805054308847e-05,
10311
+ "learning_rate": 6.28402596448191e-07,
10312
+ "loss": 0.0,
10313
+ "step": 1472
10314
+ },
10315
+ {
10316
+ "epoch": 0.9533980582524272,
10317
+ "grad_norm": 2.912832860602066e-05,
10318
+ "learning_rate": 6.113389383979151e-07,
10319
+ "loss": 0.0,
10320
+ "step": 1473
10321
+ },
10322
+ {
10323
+ "epoch": 0.9540453074433657,
10324
+ "grad_norm": 2.939105615951121e-05,
10325
+ "learning_rate": 5.945087288717622e-07,
10326
+ "loss": 0.0,
10327
+ "step": 1474
10328
+ },
10329
+ {
10330
+ "epoch": 0.9546925566343042,
10331
+ "grad_norm": 3.0436318411375396e-05,
10332
+ "learning_rate": 5.779120474221522e-07,
10333
+ "loss": 0.0,
10334
+ "step": 1475
10335
+ },
10336
+ {
10337
+ "epoch": 0.9553398058252427,
10338
+ "grad_norm": 2.996389230247587e-05,
10339
+ "learning_rate": 5.615489724976664e-07,
10340
+ "loss": 0.0,
10341
+ "step": 1476
10342
+ },
10343
+ {
10344
+ "epoch": 0.9559870550161812,
10345
+ "grad_norm": 3.117434971500188e-05,
10346
+ "learning_rate": 5.454195814427021e-07,
10347
+ "loss": 0.0,
10348
+ "step": 1477
10349
+ },
10350
+ {
10351
+ "epoch": 0.9566343042071197,
10352
+ "grad_norm": 2.7828933525597677e-05,
10353
+ "learning_rate": 5.295239504970739e-07,
10354
+ "loss": 0.0,
10355
+ "step": 1478
10356
+ },
10357
+ {
10358
+ "epoch": 0.9572815533980582,
10359
+ "grad_norm": 2.7228026738157496e-05,
10360
+ "learning_rate": 5.138621547956635e-07,
10361
+ "loss": 0.0,
10362
+ "step": 1479
10363
+ },
10364
+ {
10365
+ "epoch": 0.9579288025889967,
10366
+ "grad_norm": 2.887405025830958e-05,
10367
+ "learning_rate": 4.984342683680809e-07,
10368
+ "loss": 0.0,
10369
+ "step": 1480
10370
+ },
10371
+ {
10372
+ "epoch": 0.9585760517799353,
10373
+ "grad_norm": 2.721715827647131e-05,
10374
+ "learning_rate": 4.832403641383044e-07,
10375
+ "loss": 0.0,
10376
+ "step": 1481
10377
+ },
10378
+ {
10379
+ "epoch": 0.9592233009708738,
10380
+ "grad_norm": 2.828839569701813e-05,
10381
+ "learning_rate": 4.6828051392431847e-07,
10382
+ "loss": 0.0,
10383
+ "step": 1482
10384
+ },
10385
+ {
10386
+ "epoch": 0.9598705501618123,
10387
+ "grad_norm": 2.8300539270276204e-05,
10388
+ "learning_rate": 4.535547884378044e-07,
10389
+ "loss": 0.0,
10390
+ "step": 1483
10391
+ },
10392
+ {
10393
+ "epoch": 0.9605177993527508,
10394
+ "grad_norm": 2.900650360970758e-05,
10395
+ "learning_rate": 4.390632572837783e-07,
10396
+ "loss": 0.0,
10397
+ "step": 1484
10398
+ },
10399
+ {
10400
+ "epoch": 0.9611650485436893,
10401
+ "grad_norm": 2.971368121507112e-05,
10402
+ "learning_rate": 4.2480598896028624e-07,
10403
+ "loss": 0.0,
10404
+ "step": 1485
10405
+ },
10406
+ {
10407
+ "epoch": 0.9618122977346278,
10408
+ "grad_norm": 3.18863385473378e-05,
10409
+ "learning_rate": 4.1078305085807124e-07,
10410
+ "loss": 0.0,
10411
+ "step": 1486
10412
+ },
10413
+ {
10414
+ "epoch": 0.9624595469255663,
10415
+ "grad_norm": 2.9233349778223783e-05,
10416
+ "learning_rate": 3.9699450926022896e-07,
10417
+ "loss": 0.0,
10418
+ "step": 1487
10419
+ },
10420
+ {
10421
+ "epoch": 0.9631067961165048,
10422
+ "grad_norm": 2.9725508284172975e-05,
10423
+ "learning_rate": 3.8344042934195246e-07,
10424
+ "loss": 0.0,
10425
+ "step": 1488
10426
+ },
10427
+ {
10428
+ "epoch": 0.9637540453074434,
10429
+ "grad_norm": 2.8876263968413696e-05,
10430
+ "learning_rate": 3.7012087517016567e-07,
10431
+ "loss": 0.0,
10432
+ "step": 1489
10433
+ },
10434
+ {
10435
+ "epoch": 0.9644012944983819,
10436
+ "grad_norm": 2.9116605219314806e-05,
10437
+ "learning_rate": 3.570359097032516e-07,
10438
+ "loss": 0.0,
10439
+ "step": 1490
10440
+ },
10441
+ {
10442
+ "epoch": 0.9650485436893204,
10443
+ "grad_norm": 2.7797896109404974e-05,
10444
+ "learning_rate": 3.441855947907524e-07,
10445
+ "loss": 0.0,
10446
+ "step": 1491
10447
+ },
10448
+ {
10449
+ "epoch": 0.9656957928802589,
10450
+ "grad_norm": 2.8875567295472138e-05,
10451
+ "learning_rate": 3.315699911730641e-07,
10452
+ "loss": 0.0,
10453
+ "step": 1492
10454
+ },
10455
+ {
10456
+ "epoch": 0.9663430420711974,
10457
+ "grad_norm": 2.9713237381656654e-05,
10458
+ "learning_rate": 3.1918915848115903e-07,
10459
+ "loss": 0.0,
10460
+ "step": 1493
10461
+ },
10462
+ {
10463
+ "epoch": 0.9669902912621359,
10464
+ "grad_norm": 2.8407523132045753e-05,
10465
+ "learning_rate": 3.0704315523631953e-07,
10466
+ "loss": 0.0,
10467
+ "step": 1494
10468
+ },
10469
+ {
10470
+ "epoch": 0.9676375404530745,
10471
+ "grad_norm": 2.7202309865970165e-05,
10472
+ "learning_rate": 2.9513203884981577e-07,
10473
+ "loss": 0.0,
10474
+ "step": 1495
10475
+ },
10476
+ {
10477
+ "epoch": 0.968284789644013,
10478
+ "grad_norm": 2.7205003789276816e-05,
10479
+ "learning_rate": 2.8345586562268934e-07,
10480
+ "loss": 0.0,
10481
+ "step": 1496
10482
+ },
10483
+ {
10484
+ "epoch": 0.9689320388349515,
10485
+ "grad_norm": 2.9845659810234793e-05,
10486
+ "learning_rate": 2.7201469074544795e-07,
10487
+ "loss": 0.0,
10488
+ "step": 1497
10489
+ },
10490
+ {
10491
+ "epoch": 0.96957928802589,
10492
+ "grad_norm": 2.86362374026794e-05,
10493
+ "learning_rate": 2.608085682978212e-07,
10494
+ "loss": 0.0,
10495
+ "step": 1498
10496
+ },
10497
+ {
10498
+ "epoch": 0.9702265372168285,
10499
+ "grad_norm": 2.9241513402666897e-05,
10500
+ "learning_rate": 2.498375512484941e-07,
10501
+ "loss": 0.0,
10502
+ "step": 1499
10503
+ },
10504
+ {
10505
+ "epoch": 0.970873786407767,
10506
+ "grad_norm": 3.067816942348145e-05,
10507
+ "learning_rate": 2.3910169145487936e-07,
10508
+ "loss": 0.0,
10509
+ "step": 1500
10510
+ },
10511
+ {
10512
+ "epoch": 0.9715210355987055,
10513
+ "grad_norm": 2.9163411454646848e-05,
10514
+ "learning_rate": 2.2860103966284019e-07,
10515
+ "loss": 0.0,
10516
+ "step": 1501
10517
+ },
10518
+ {
10519
+ "epoch": 0.972168284789644,
10520
+ "grad_norm": 3.45797925547231e-05,
10521
+ "learning_rate": 2.183356455064789e-07,
10522
+ "loss": 0.0,
10523
+ "step": 1502
10524
+ },
10525
+ {
10526
+ "epoch": 0.9728155339805825,
10527
+ "grad_norm": 2.8640923119382933e-05,
10528
+ "learning_rate": 2.0830555750788738e-07,
10529
+ "loss": 0.0,
10530
+ "step": 1503
10531
+ },
10532
+ {
10533
+ "epoch": 0.973462783171521,
10534
+ "grad_norm": 3.0909341148799285e-05,
10535
+ "learning_rate": 1.9851082307691948e-07,
10536
+ "loss": 0.0,
10537
+ "step": 1504
10538
+ },
10539
+ {
10540
+ "epoch": 0.9741100323624595,
10541
+ "grad_norm": 3.211084185750224e-05,
10542
+ "learning_rate": 1.889514885109689e-07,
10543
+ "loss": 0.0,
10544
+ "step": 1505
10545
+ },
10546
+ {
10547
+ "epoch": 0.974757281553398,
10548
+ "grad_norm": 2.8628259315155447e-05,
10549
+ "learning_rate": 1.7962759899474713e-07,
10550
+ "loss": 0.0,
10551
+ "step": 1506
10552
+ },
10553
+ {
10554
+ "epoch": 0.9754045307443365,
10555
+ "grad_norm": 2.9366896342253312e-05,
10556
+ "learning_rate": 1.7053919860007816e-07,
10557
+ "loss": 0.0,
10558
+ "step": 1507
10559
+ },
10560
+ {
10561
+ "epoch": 0.976051779935275,
10562
+ "grad_norm": 2.9947226721560583e-05,
10563
+ "learning_rate": 1.6168633028568747e-07,
10564
+ "loss": 0.0,
10565
+ "step": 1508
10566
+ },
10567
+ {
10568
+ "epoch": 0.9766990291262136,
10569
+ "grad_norm": 3.185419336659834e-05,
10570
+ "learning_rate": 1.5306903589698552e-07,
10571
+ "loss": 0.0,
10572
+ "step": 1509
10573
+ },
10574
+ {
10575
+ "epoch": 0.9773462783171522,
10576
+ "grad_norm": 3.955503780161962e-05,
10577
+ "learning_rate": 1.4468735616587904e-07,
10578
+ "loss": 0.0,
10579
+ "step": 1510
10580
+ },
10581
+ {
10582
+ "epoch": 0.9779935275080907,
10583
+ "grad_norm": 3.210457362001762e-05,
10584
+ "learning_rate": 1.3654133071059893e-07,
10585
+ "loss": 0.0,
10586
+ "step": 1511
10587
+ },
10588
+ {
10589
+ "epoch": 0.9786407766990292,
10590
+ "grad_norm": 3.211268631275743e-05,
10591
+ "learning_rate": 1.2863099803547274e-07,
10592
+ "loss": 0.0,
10593
+ "step": 1512
10594
+ },
10595
+ {
10596
+ "epoch": 0.9792880258899677,
10597
+ "grad_norm": 3.0189445169526152e-05,
10598
+ "learning_rate": 1.2095639553077466e-07,
10599
+ "loss": 0.0,
10600
+ "step": 1513
10601
+ },
10602
+ {
10603
+ "epoch": 0.9799352750809062,
10604
+ "grad_norm": 2.912877607741393e-05,
10605
+ "learning_rate": 1.1351755947253684e-07,
10606
+ "loss": 0.0,
10607
+ "step": 1514
10608
+ },
10609
+ {
10610
+ "epoch": 0.9805825242718447,
10611
+ "grad_norm": 2.8272341296542436e-05,
10612
+ "learning_rate": 1.0631452502237737e-07,
10613
+ "loss": 0.0,
10614
+ "step": 1515
10615
+ },
10616
+ {
10617
+ "epoch": 0.9812297734627832,
10618
+ "grad_norm": 2.7096859412267804e-05,
10619
+ "learning_rate": 9.934732622734477e-08,
10620
+ "loss": 0.0,
10621
+ "step": 1516
10622
+ },
10623
+ {
10624
+ "epoch": 0.9818770226537217,
10625
+ "grad_norm": 3.0457478715106845e-05,
10626
+ "learning_rate": 9.261599601972926e-08,
10627
+ "loss": 0.0,
10628
+ "step": 1517
10629
+ },
10630
+ {
10631
+ "epoch": 0.9825242718446602,
10632
+ "grad_norm": 2.9363456633291207e-05,
10633
+ "learning_rate": 8.612056621694064e-08,
10634
+ "loss": 0.0,
10635
+ "step": 1518
10636
+ },
10637
+ {
10638
+ "epoch": 0.9831715210355987,
10639
+ "grad_norm": 2.9489487133105285e-05,
10640
+ "learning_rate": 7.986106752134737e-08,
10641
+ "loss": 0.0,
10642
+ "step": 1519
10643
+ },
10644
+ {
10645
+ "epoch": 0.9838187702265372,
10646
+ "grad_norm": 3.068981095566414e-05,
10647
+ "learning_rate": 7.383752952010992e-08,
10648
+ "loss": 0.0,
10649
+ "step": 1520
10650
+ },
10651
+ {
10652
+ "epoch": 0.9844660194174757,
10653
+ "grad_norm": 2.996692455781158e-05,
10654
+ "learning_rate": 6.80499806850754e-08,
10655
+ "loss": 0.0,
10656
+ "step": 1521
10657
+ },
10658
+ {
10659
+ "epoch": 0.9851132686084142,
10660
+ "grad_norm": 3.164894587825984e-05,
10661
+ "learning_rate": 6.249844837261654e-08,
10662
+ "loss": 0.0,
10663
+ "step": 1522
10664
+ },
10665
+ {
10666
+ "epoch": 0.9857605177993527,
10667
+ "grad_norm": 2.961757309094537e-05,
10668
+ "learning_rate": 5.718295882350955e-08,
10669
+ "loss": 0.0,
10670
+ "step": 1523
10671
+ },
10672
+ {
10673
+ "epoch": 0.9864077669902913,
10674
+ "grad_norm": 3.163444489473477e-05,
10675
+ "learning_rate": 5.2103537162817576e-08,
10676
+ "loss": 0.0,
10677
+ "step": 1524
10678
+ },
10679
+ {
10680
+ "epoch": 0.9870550161812298,
10681
+ "grad_norm": 2.9721826649620198e-05,
10682
+ "learning_rate": 4.7260207399774105e-08,
10683
+ "loss": 0.0,
10684
+ "step": 1525
10685
+ },
10686
+ {
10687
+ "epoch": 0.9877022653721683,
10688
+ "grad_norm": 3.056014247704297e-05,
10689
+ "learning_rate": 4.265299242764975e-08,
10690
+ "loss": 0.0,
10691
+ "step": 1526
10692
+ },
10693
+ {
10694
+ "epoch": 0.9883495145631068,
10695
+ "grad_norm": 3.068634759983979e-05,
10696
+ "learning_rate": 3.8281914023657886e-08,
10697
+ "loss": 0.0,
10698
+ "step": 1527
10699
+ },
10700
+ {
10701
+ "epoch": 0.9889967637540453,
10702
+ "grad_norm": 2.780274735414423e-05,
10703
+ "learning_rate": 3.4146992848854695e-08,
10704
+ "loss": 0.0,
10705
+ "step": 1528
10706
+ },
10707
+ {
10708
+ "epoch": 0.9896440129449838,
10709
+ "grad_norm": 2.7697720724972896e-05,
10710
+ "learning_rate": 3.0248248448033757e-08,
10711
+ "loss": 0.0,
10712
+ "step": 1529
10713
+ },
10714
+ {
10715
+ "epoch": 0.9902912621359223,
10716
+ "grad_norm": 3.008269595738966e-05,
10717
+ "learning_rate": 2.6585699249642716e-08,
10718
+ "loss": 0.0,
10719
+ "step": 1530
10720
+ },
10721
+ {
10722
+ "epoch": 0.9909385113268608,
10723
+ "grad_norm": 2.8287571694818325e-05,
10724
+ "learning_rate": 2.3159362565677857e-08,
10725
+ "loss": 0.0,
10726
+ "step": 1531
10727
+ },
10728
+ {
10729
+ "epoch": 0.9915857605177993,
10730
+ "grad_norm": 2.7803509510704316e-05,
10731
+ "learning_rate": 1.996925459162857e-08,
10732
+ "loss": 0.0,
10733
+ "step": 1532
10734
+ },
10735
+ {
10736
+ "epoch": 0.9922330097087378,
10737
+ "grad_norm": 2.8281427148613147e-05,
10738
+ "learning_rate": 1.7015390406377453e-08,
10739
+ "loss": 0.0,
10740
+ "step": 1533
10741
+ },
10742
+ {
10743
+ "epoch": 0.9928802588996763,
10744
+ "grad_norm": 3.0304252504720353e-05,
10745
+ "learning_rate": 1.4297783972144763e-08,
10746
+ "loss": 0.0,
10747
+ "step": 1534
10748
+ },
10749
+ {
10750
+ "epoch": 0.9935275080906149,
10751
+ "grad_norm": 2.8403026590240188e-05,
10752
+ "learning_rate": 1.181644813441074e-08,
10753
+ "loss": 0.0,
10754
+ "step": 1535
10755
+ },
10756
+ {
10757
+ "epoch": 0.9941747572815534,
10758
+ "grad_norm": 3.0313709430629387e-05,
10759
+ "learning_rate": 9.571394621865626e-09,
10760
+ "loss": 0.0,
10761
+ "step": 1536
10762
+ },
10763
+ {
10764
+ "epoch": 0.9948220064724919,
10765
+ "grad_norm": 2.7807334845419973e-05,
10766
+ "learning_rate": 7.562634046348604e-09,
10767
+ "loss": 0.0,
10768
+ "step": 1537
10769
+ },
10770
+ {
10771
+ "epoch": 0.9954692556634305,
10772
+ "grad_norm": 2.8401254894561134e-05,
10773
+ "learning_rate": 5.790175902786743e-09,
10774
+ "loss": 0.0,
10775
+ "step": 1538
10776
+ },
10777
+ {
10778
+ "epoch": 0.996116504854369,
10779
+ "grad_norm": 2.612316529848613e-05,
10780
+ "learning_rate": 4.254028569183888e-09,
10781
+ "loss": 0.0,
10782
+ "step": 1539
10783
+ },
10784
+ {
10785
+ "epoch": 0.9967637540453075,
10786
+ "grad_norm": 2.9241215088404715e-05,
10787
+ "learning_rate": 2.9541993065373976e-09,
10788
+ "loss": 0.0,
10789
+ "step": 1540
10790
+ },
10791
+ {
10792
+ "epoch": 0.997411003236246,
10793
+ "grad_norm": 2.732668144744821e-05,
10794
+ "learning_rate": 1.8906942588325927e-09,
10795
+ "loss": 0.0,
10796
+ "step": 1541
10797
+ },
10798
+ {
10799
+ "epoch": 0.9980582524271845,
10800
+ "grad_norm": 2.7786840291810222e-05,
10801
+ "learning_rate": 1.063518453009449e-09,
10802
+ "loss": 0.0,
10803
+ "step": 1542
10804
+ },
10805
+ {
10806
+ "epoch": 0.998705501618123,
10807
+ "grad_norm": 2.719917392823845e-05,
10808
+ "learning_rate": 4.726757989348407e-10,
10809
+ "loss": 0.0,
10810
+ "step": 1543
10811
+ },
10812
+ {
10813
+ "epoch": 0.9993527508090615,
10814
+ "grad_norm": 2.7324498660163954e-05,
10815
+ "learning_rate": 1.1816908937478664e-10,
10816
+ "loss": 0.0,
10817
+ "step": 1544
10818
+ },
10819
+ {
10820
+ "epoch": 1.0,
10821
+ "grad_norm": 2.888041126425378e-05,
10822
+ "learning_rate": 0.0,
10823
+ "loss": 0.0,
10824
+ "step": 1545
10825
  }
10826
  ],
10827
  "logging_steps": 1,
 
10836
  "should_evaluate": false,
10837
  "should_log": false,
10838
  "should_save": true,
10839
+ "should_training_stop": true
10840
  },
10841
  "attributes": {}
10842
  }
10843
  },
10844
+ "total_flos": 4.528157851813675e+18,
10845
  "train_batch_size": 4,
10846
  "trial_name": null,
10847
  "trial_params": null