Undi95 commited on
Commit
b0638ab
·
verified ·
1 Parent(s): 52f89b0

Upload folder using huggingface_hub

Browse files
model-00001-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f1a6b10529c49f267dab1303f60c029426a06dd66fca8c15811e26ede178fcee
3
  size 4965799096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e3f6db49daf04c799cca70cbdf059992d1bd0755597b15111d8082b45a79300
3
  size 4965799096
model-00002-of-00002.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:94b4d2fbf9759aadec878bab5277561c46f206ca7bf049bc2b8f706adee8d133
3
  size 1459729952
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1030409b786e4ad59908db299928e3bf990ecac00c86b5d9f8ce96b3483c94c
3
  size 1459729952
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3066289f504748316c3ecef3fb988eb7b9fe8fec3dfeafca43f4986dd693ab4
3
+ size 6527220350
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d581c751b3c27570ea48b8a98b97e22f9e4131f91b7e98afc959d50fcaa099d7
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f0a809473a15ae22afdbbd0025a12ab2bcc1734f6d34859db412a76dd8f4a9d7
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.499047619047619,
5
  "eval_steps": 500,
6
- "global_step": 1182,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8289,6 +8289,2764 @@
8289
  "learning_rate": 5.039916677556075e-06,
8290
  "loss": 1.1673,
8291
  "step": 1182
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8292
  }
8293
  ],
8294
  "logging_steps": 1,
@@ -8308,7 +11066,7 @@
8308
  "attributes": {}
8309
  }
8310
  },
8311
- "total_flos": 2.6179854689516913e+18,
8312
  "train_batch_size": 2,
8313
  "trial_name": null,
8314
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.9993650793650795,
5
  "eval_steps": 500,
6
+ "global_step": 1576,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8289
  "learning_rate": 5.039916677556075e-06,
8290
  "loss": 1.1673,
8291
  "step": 1182
8292
+ },
8293
+ {
8294
+ "epoch": 1.5003174603174603,
8295
+ "grad_norm": 0.94140625,
8296
+ "learning_rate": 5.036676316368923e-06,
8297
+ "loss": 1.1223,
8298
+ "step": 1183
8299
+ },
8300
+ {
8301
+ "epoch": 1.5015873015873016,
8302
+ "grad_norm": 0.95703125,
8303
+ "learning_rate": 5.033434322685568e-06,
8304
+ "loss": 1.111,
8305
+ "step": 1184
8306
+ },
8307
+ {
8308
+ "epoch": 1.502857142857143,
8309
+ "grad_norm": 0.96875,
8310
+ "learning_rate": 5.030190699950161e-06,
8311
+ "loss": 1.0827,
8312
+ "step": 1185
8313
+ },
8314
+ {
8315
+ "epoch": 1.5041269841269842,
8316
+ "grad_norm": 0.921875,
8317
+ "learning_rate": 5.026945451608582e-06,
8318
+ "loss": 1.1214,
8319
+ "step": 1186
8320
+ },
8321
+ {
8322
+ "epoch": 1.5053968253968253,
8323
+ "grad_norm": 0.98046875,
8324
+ "learning_rate": 5.023698581108435e-06,
8325
+ "loss": 1.1387,
8326
+ "step": 1187
8327
+ },
8328
+ {
8329
+ "epoch": 1.5066666666666668,
8330
+ "grad_norm": 0.92578125,
8331
+ "learning_rate": 5.020450091899054e-06,
8332
+ "loss": 1.0856,
8333
+ "step": 1188
8334
+ },
8335
+ {
8336
+ "epoch": 1.507936507936508,
8337
+ "grad_norm": 0.984375,
8338
+ "learning_rate": 5.017199987431486e-06,
8339
+ "loss": 1.1512,
8340
+ "step": 1189
8341
+ },
8342
+ {
8343
+ "epoch": 1.5092063492063492,
8344
+ "grad_norm": 0.9921875,
8345
+ "learning_rate": 5.013948271158496e-06,
8346
+ "loss": 1.1007,
8347
+ "step": 1190
8348
+ },
8349
+ {
8350
+ "epoch": 1.5104761904761905,
8351
+ "grad_norm": 0.96484375,
8352
+ "learning_rate": 5.010694946534565e-06,
8353
+ "loss": 1.1165,
8354
+ "step": 1191
8355
+ },
8356
+ {
8357
+ "epoch": 1.5117460317460316,
8358
+ "grad_norm": 1.0,
8359
+ "learning_rate": 5.007440017015877e-06,
8360
+ "loss": 1.1697,
8361
+ "step": 1192
8362
+ },
8363
+ {
8364
+ "epoch": 1.5130158730158731,
8365
+ "grad_norm": 0.984375,
8366
+ "learning_rate": 5.004183486060324e-06,
8367
+ "loss": 1.148,
8368
+ "step": 1193
8369
+ },
8370
+ {
8371
+ "epoch": 1.5142857142857142,
8372
+ "grad_norm": 0.9140625,
8373
+ "learning_rate": 5.0009253571275e-06,
8374
+ "loss": 1.1619,
8375
+ "step": 1194
8376
+ },
8377
+ {
8378
+ "epoch": 1.5155555555555555,
8379
+ "grad_norm": 0.9921875,
8380
+ "learning_rate": 4.997665633678694e-06,
8381
+ "loss": 1.1353,
8382
+ "step": 1195
8383
+ },
8384
+ {
8385
+ "epoch": 1.5168253968253969,
8386
+ "grad_norm": 1.0,
8387
+ "learning_rate": 4.994404319176892e-06,
8388
+ "loss": 1.1593,
8389
+ "step": 1196
8390
+ },
8391
+ {
8392
+ "epoch": 1.518095238095238,
8393
+ "grad_norm": 1.0390625,
8394
+ "learning_rate": 4.991141417086767e-06,
8395
+ "loss": 1.1655,
8396
+ "step": 1197
8397
+ },
8398
+ {
8399
+ "epoch": 1.5193650793650795,
8400
+ "grad_norm": 0.99609375,
8401
+ "learning_rate": 4.987876930874681e-06,
8402
+ "loss": 1.0915,
8403
+ "step": 1198
8404
+ },
8405
+ {
8406
+ "epoch": 1.5206349206349206,
8407
+ "grad_norm": 0.98046875,
8408
+ "learning_rate": 4.984610864008679e-06,
8409
+ "loss": 1.0815,
8410
+ "step": 1199
8411
+ },
8412
+ {
8413
+ "epoch": 1.5219047619047619,
8414
+ "grad_norm": 0.90625,
8415
+ "learning_rate": 4.981343219958484e-06,
8416
+ "loss": 1.0946,
8417
+ "step": 1200
8418
+ },
8419
+ {
8420
+ "epoch": 1.5231746031746032,
8421
+ "grad_norm": 1.0703125,
8422
+ "learning_rate": 4.978074002195494e-06,
8423
+ "loss": 1.1965,
8424
+ "step": 1201
8425
+ },
8426
+ {
8427
+ "epoch": 1.5244444444444445,
8428
+ "grad_norm": 1.0625,
8429
+ "learning_rate": 4.97480321419278e-06,
8430
+ "loss": 1.0397,
8431
+ "step": 1202
8432
+ },
8433
+ {
8434
+ "epoch": 1.5257142857142858,
8435
+ "grad_norm": 0.98046875,
8436
+ "learning_rate": 4.971530859425082e-06,
8437
+ "loss": 1.1509,
8438
+ "step": 1203
8439
+ },
8440
+ {
8441
+ "epoch": 1.5269841269841269,
8442
+ "grad_norm": 0.9453125,
8443
+ "learning_rate": 4.9682569413688014e-06,
8444
+ "loss": 1.2044,
8445
+ "step": 1204
8446
+ },
8447
+ {
8448
+ "epoch": 1.5282539682539684,
8449
+ "grad_norm": 0.98046875,
8450
+ "learning_rate": 4.964981463502005e-06,
8451
+ "loss": 1.1998,
8452
+ "step": 1205
8453
+ },
8454
+ {
8455
+ "epoch": 1.5295238095238095,
8456
+ "grad_norm": 1.046875,
8457
+ "learning_rate": 4.961704429304411e-06,
8458
+ "loss": 1.1526,
8459
+ "step": 1206
8460
+ },
8461
+ {
8462
+ "epoch": 1.5307936507936508,
8463
+ "grad_norm": 0.8984375,
8464
+ "learning_rate": 4.9584258422573966e-06,
8465
+ "loss": 1.1067,
8466
+ "step": 1207
8467
+ },
8468
+ {
8469
+ "epoch": 1.5320634920634921,
8470
+ "grad_norm": 0.9609375,
8471
+ "learning_rate": 4.955145705843985e-06,
8472
+ "loss": 1.0507,
8473
+ "step": 1208
8474
+ },
8475
+ {
8476
+ "epoch": 1.5333333333333332,
8477
+ "grad_norm": 0.96875,
8478
+ "learning_rate": 4.9518640235488464e-06,
8479
+ "loss": 1.1291,
8480
+ "step": 1209
8481
+ },
8482
+ {
8483
+ "epoch": 1.5346031746031747,
8484
+ "grad_norm": 0.96875,
8485
+ "learning_rate": 4.948580798858294e-06,
8486
+ "loss": 1.1125,
8487
+ "step": 1210
8488
+ },
8489
+ {
8490
+ "epoch": 1.5358730158730158,
8491
+ "grad_norm": 0.9609375,
8492
+ "learning_rate": 4.945296035260276e-06,
8493
+ "loss": 1.1414,
8494
+ "step": 1211
8495
+ },
8496
+ {
8497
+ "epoch": 1.5371428571428571,
8498
+ "grad_norm": 0.89453125,
8499
+ "learning_rate": 4.9420097362443834e-06,
8500
+ "loss": 1.096,
8501
+ "step": 1212
8502
+ },
8503
+ {
8504
+ "epoch": 1.5384126984126985,
8505
+ "grad_norm": 0.984375,
8506
+ "learning_rate": 4.938721905301829e-06,
8507
+ "loss": 1.1666,
8508
+ "step": 1213
8509
+ },
8510
+ {
8511
+ "epoch": 1.5396825396825395,
8512
+ "grad_norm": 0.9609375,
8513
+ "learning_rate": 4.93543254592546e-06,
8514
+ "loss": 1.1204,
8515
+ "step": 1214
8516
+ },
8517
+ {
8518
+ "epoch": 1.540952380952381,
8519
+ "grad_norm": 1.0546875,
8520
+ "learning_rate": 4.932141661609743e-06,
8521
+ "loss": 1.0977,
8522
+ "step": 1215
8523
+ },
8524
+ {
8525
+ "epoch": 1.5422222222222222,
8526
+ "grad_norm": 0.92578125,
8527
+ "learning_rate": 4.9288492558507664e-06,
8528
+ "loss": 1.1075,
8529
+ "step": 1216
8530
+ },
8531
+ {
8532
+ "epoch": 1.5434920634920635,
8533
+ "grad_norm": 0.98828125,
8534
+ "learning_rate": 4.925555332146236e-06,
8535
+ "loss": 1.0444,
8536
+ "step": 1217
8537
+ },
8538
+ {
8539
+ "epoch": 1.5447619047619048,
8540
+ "grad_norm": 0.9296875,
8541
+ "learning_rate": 4.922259893995469e-06,
8542
+ "loss": 1.0876,
8543
+ "step": 1218
8544
+ },
8545
+ {
8546
+ "epoch": 1.5460317460317459,
8547
+ "grad_norm": 0.98046875,
8548
+ "learning_rate": 4.918962944899391e-06,
8549
+ "loss": 1.1154,
8550
+ "step": 1219
8551
+ },
8552
+ {
8553
+ "epoch": 1.5473015873015874,
8554
+ "grad_norm": 1.0078125,
8555
+ "learning_rate": 4.915664488360532e-06,
8556
+ "loss": 1.161,
8557
+ "step": 1220
8558
+ },
8559
+ {
8560
+ "epoch": 1.5485714285714285,
8561
+ "grad_norm": 0.921875,
8562
+ "learning_rate": 4.912364527883026e-06,
8563
+ "loss": 1.1021,
8564
+ "step": 1221
8565
+ },
8566
+ {
8567
+ "epoch": 1.5498412698412698,
8568
+ "grad_norm": 0.99609375,
8569
+ "learning_rate": 4.9090630669726045e-06,
8570
+ "loss": 1.115,
8571
+ "step": 1222
8572
+ },
8573
+ {
8574
+ "epoch": 1.551111111111111,
8575
+ "grad_norm": 0.88671875,
8576
+ "learning_rate": 4.905760109136591e-06,
8577
+ "loss": 1.0934,
8578
+ "step": 1223
8579
+ },
8580
+ {
8581
+ "epoch": 1.5523809523809524,
8582
+ "grad_norm": 1.0078125,
8583
+ "learning_rate": 4.9024556578839e-06,
8584
+ "loss": 1.0865,
8585
+ "step": 1224
8586
+ },
8587
+ {
8588
+ "epoch": 1.5536507936507937,
8589
+ "grad_norm": 0.9375,
8590
+ "learning_rate": 4.899149716725033e-06,
8591
+ "loss": 1.164,
8592
+ "step": 1225
8593
+ },
8594
+ {
8595
+ "epoch": 1.5549206349206348,
8596
+ "grad_norm": 1.0234375,
8597
+ "learning_rate": 4.895842289172073e-06,
8598
+ "loss": 1.1473,
8599
+ "step": 1226
8600
+ },
8601
+ {
8602
+ "epoch": 1.5561904761904763,
8603
+ "grad_norm": 0.90234375,
8604
+ "learning_rate": 4.892533378738685e-06,
8605
+ "loss": 1.1032,
8606
+ "step": 1227
8607
+ },
8608
+ {
8609
+ "epoch": 1.5574603174603174,
8610
+ "grad_norm": 1.1171875,
8611
+ "learning_rate": 4.8892229889401054e-06,
8612
+ "loss": 1.0927,
8613
+ "step": 1228
8614
+ },
8615
+ {
8616
+ "epoch": 1.5587301587301587,
8617
+ "grad_norm": 1.0390625,
8618
+ "learning_rate": 4.885911123293146e-06,
8619
+ "loss": 1.0953,
8620
+ "step": 1229
8621
+ },
8622
+ {
8623
+ "epoch": 1.56,
8624
+ "grad_norm": 0.91796875,
8625
+ "learning_rate": 4.882597785316183e-06,
8626
+ "loss": 1.1072,
8627
+ "step": 1230
8628
+ },
8629
+ {
8630
+ "epoch": 1.5612698412698411,
8631
+ "grad_norm": 1.015625,
8632
+ "learning_rate": 4.879282978529162e-06,
8633
+ "loss": 1.1429,
8634
+ "step": 1231
8635
+ },
8636
+ {
8637
+ "epoch": 1.5625396825396827,
8638
+ "grad_norm": 0.97265625,
8639
+ "learning_rate": 4.875966706453582e-06,
8640
+ "loss": 1.0791,
8641
+ "step": 1232
8642
+ },
8643
+ {
8644
+ "epoch": 1.5638095238095238,
8645
+ "grad_norm": 1.0078125,
8646
+ "learning_rate": 4.872648972612502e-06,
8647
+ "loss": 1.1152,
8648
+ "step": 1233
8649
+ },
8650
+ {
8651
+ "epoch": 1.565079365079365,
8652
+ "grad_norm": 0.94921875,
8653
+ "learning_rate": 4.8693297805305375e-06,
8654
+ "loss": 1.0872,
8655
+ "step": 1234
8656
+ },
8657
+ {
8658
+ "epoch": 1.5663492063492064,
8659
+ "grad_norm": 0.99609375,
8660
+ "learning_rate": 4.866009133733848e-06,
8661
+ "loss": 1.0842,
8662
+ "step": 1235
8663
+ },
8664
+ {
8665
+ "epoch": 1.5676190476190475,
8666
+ "grad_norm": 0.98828125,
8667
+ "learning_rate": 4.862687035750137e-06,
8668
+ "loss": 1.1449,
8669
+ "step": 1236
8670
+ },
8671
+ {
8672
+ "epoch": 1.568888888888889,
8673
+ "grad_norm": 0.96484375,
8674
+ "learning_rate": 4.859363490108657e-06,
8675
+ "loss": 1.1102,
8676
+ "step": 1237
8677
+ },
8678
+ {
8679
+ "epoch": 1.57015873015873,
8680
+ "grad_norm": 0.921875,
8681
+ "learning_rate": 4.856038500340194e-06,
8682
+ "loss": 1.0849,
8683
+ "step": 1238
8684
+ },
8685
+ {
8686
+ "epoch": 1.5714285714285714,
8687
+ "grad_norm": 1.0078125,
8688
+ "learning_rate": 4.852712069977067e-06,
8689
+ "loss": 1.1458,
8690
+ "step": 1239
8691
+ },
8692
+ {
8693
+ "epoch": 1.5726984126984127,
8694
+ "grad_norm": 1.0390625,
8695
+ "learning_rate": 4.849384202553127e-06,
8696
+ "loss": 1.1222,
8697
+ "step": 1240
8698
+ },
8699
+ {
8700
+ "epoch": 1.573968253968254,
8701
+ "grad_norm": 1.015625,
8702
+ "learning_rate": 4.84605490160375e-06,
8703
+ "loss": 1.123,
8704
+ "step": 1241
8705
+ },
8706
+ {
8707
+ "epoch": 1.5752380952380953,
8708
+ "grad_norm": 1.125,
8709
+ "learning_rate": 4.8427241706658395e-06,
8710
+ "loss": 1.1793,
8711
+ "step": 1242
8712
+ },
8713
+ {
8714
+ "epoch": 1.5765079365079364,
8715
+ "grad_norm": 0.95703125,
8716
+ "learning_rate": 4.8393920132778144e-06,
8717
+ "loss": 1.0034,
8718
+ "step": 1243
8719
+ },
8720
+ {
8721
+ "epoch": 1.5777777777777777,
8722
+ "grad_norm": 0.92578125,
8723
+ "learning_rate": 4.836058432979608e-06,
8724
+ "loss": 1.1062,
8725
+ "step": 1244
8726
+ },
8727
+ {
8728
+ "epoch": 1.579047619047619,
8729
+ "grad_norm": 0.96484375,
8730
+ "learning_rate": 4.83272343331267e-06,
8731
+ "loss": 1.045,
8732
+ "step": 1245
8733
+ },
8734
+ {
8735
+ "epoch": 1.5803174603174603,
8736
+ "grad_norm": 0.984375,
8737
+ "learning_rate": 4.829387017819951e-06,
8738
+ "loss": 1.1662,
8739
+ "step": 1246
8740
+ },
8741
+ {
8742
+ "epoch": 1.5815873015873017,
8743
+ "grad_norm": 1.03125,
8744
+ "learning_rate": 4.826049190045912e-06,
8745
+ "loss": 1.1569,
8746
+ "step": 1247
8747
+ },
8748
+ {
8749
+ "epoch": 1.5828571428571427,
8750
+ "grad_norm": 1.046875,
8751
+ "learning_rate": 4.822709953536511e-06,
8752
+ "loss": 1.1727,
8753
+ "step": 1248
8754
+ },
8755
+ {
8756
+ "epoch": 1.5841269841269843,
8757
+ "grad_norm": 1.015625,
8758
+ "learning_rate": 4.819369311839206e-06,
8759
+ "loss": 1.0916,
8760
+ "step": 1249
8761
+ },
8762
+ {
8763
+ "epoch": 1.5853968253968254,
8764
+ "grad_norm": 1.03125,
8765
+ "learning_rate": 4.8160272685029414e-06,
8766
+ "loss": 1.0817,
8767
+ "step": 1250
8768
+ },
8769
+ {
8770
+ "epoch": 1.5866666666666667,
8771
+ "grad_norm": 1.0234375,
8772
+ "learning_rate": 4.812683827078157e-06,
8773
+ "loss": 1.1218,
8774
+ "step": 1251
8775
+ },
8776
+ {
8777
+ "epoch": 1.587936507936508,
8778
+ "grad_norm": 1.0625,
8779
+ "learning_rate": 4.8093389911167766e-06,
8780
+ "loss": 1.1506,
8781
+ "step": 1252
8782
+ },
8783
+ {
8784
+ "epoch": 1.589206349206349,
8785
+ "grad_norm": 1.03125,
8786
+ "learning_rate": 4.805992764172202e-06,
8787
+ "loss": 1.1086,
8788
+ "step": 1253
8789
+ },
8790
+ {
8791
+ "epoch": 1.5904761904761906,
8792
+ "grad_norm": 1.046875,
8793
+ "learning_rate": 4.802645149799315e-06,
8794
+ "loss": 1.1163,
8795
+ "step": 1254
8796
+ },
8797
+ {
8798
+ "epoch": 1.5917460317460317,
8799
+ "grad_norm": 1.1328125,
8800
+ "learning_rate": 4.799296151554472e-06,
8801
+ "loss": 1.1357,
8802
+ "step": 1255
8803
+ },
8804
+ {
8805
+ "epoch": 1.593015873015873,
8806
+ "grad_norm": 1.03125,
8807
+ "learning_rate": 4.795945772995502e-06,
8808
+ "loss": 1.0616,
8809
+ "step": 1256
8810
+ },
8811
+ {
8812
+ "epoch": 1.5942857142857143,
8813
+ "grad_norm": 1.0,
8814
+ "learning_rate": 4.792594017681692e-06,
8815
+ "loss": 1.1926,
8816
+ "step": 1257
8817
+ },
8818
+ {
8819
+ "epoch": 1.5955555555555554,
8820
+ "grad_norm": 1.0390625,
8821
+ "learning_rate": 4.789240889173801e-06,
8822
+ "loss": 1.1069,
8823
+ "step": 1258
8824
+ },
8825
+ {
8826
+ "epoch": 1.596825396825397,
8827
+ "grad_norm": 1.0390625,
8828
+ "learning_rate": 4.785886391034041e-06,
8829
+ "loss": 1.1115,
8830
+ "step": 1259
8831
+ },
8832
+ {
8833
+ "epoch": 1.598095238095238,
8834
+ "grad_norm": 0.99609375,
8835
+ "learning_rate": 4.78253052682608e-06,
8836
+ "loss": 1.1455,
8837
+ "step": 1260
8838
+ },
8839
+ {
8840
+ "epoch": 1.5993650793650793,
8841
+ "grad_norm": 0.9765625,
8842
+ "learning_rate": 4.7791733001150415e-06,
8843
+ "loss": 1.0381,
8844
+ "step": 1261
8845
+ },
8846
+ {
8847
+ "epoch": 1.6006349206349206,
8848
+ "grad_norm": 1.0390625,
8849
+ "learning_rate": 4.775814714467489e-06,
8850
+ "loss": 1.1659,
8851
+ "step": 1262
8852
+ },
8853
+ {
8854
+ "epoch": 1.601904761904762,
8855
+ "grad_norm": 1.046875,
8856
+ "learning_rate": 4.772454773451437e-06,
8857
+ "loss": 1.0763,
8858
+ "step": 1263
8859
+ },
8860
+ {
8861
+ "epoch": 1.6031746031746033,
8862
+ "grad_norm": 1.0703125,
8863
+ "learning_rate": 4.769093480636334e-06,
8864
+ "loss": 1.1287,
8865
+ "step": 1264
8866
+ },
8867
+ {
8868
+ "epoch": 1.6044444444444443,
8869
+ "grad_norm": 0.93359375,
8870
+ "learning_rate": 4.7657308395930685e-06,
8871
+ "loss": 1.0678,
8872
+ "step": 1265
8873
+ },
8874
+ {
8875
+ "epoch": 1.6057142857142859,
8876
+ "grad_norm": 1.0234375,
8877
+ "learning_rate": 4.7623668538939605e-06,
8878
+ "loss": 1.1395,
8879
+ "step": 1266
8880
+ },
8881
+ {
8882
+ "epoch": 1.606984126984127,
8883
+ "grad_norm": 1.140625,
8884
+ "learning_rate": 4.759001527112757e-06,
8885
+ "loss": 1.1187,
8886
+ "step": 1267
8887
+ },
8888
+ {
8889
+ "epoch": 1.6082539682539683,
8890
+ "grad_norm": 1.0703125,
8891
+ "learning_rate": 4.75563486282463e-06,
8892
+ "loss": 1.058,
8893
+ "step": 1268
8894
+ },
8895
+ {
8896
+ "epoch": 1.6095238095238096,
8897
+ "grad_norm": 0.9609375,
8898
+ "learning_rate": 4.752266864606174e-06,
8899
+ "loss": 1.1288,
8900
+ "step": 1269
8901
+ },
8902
+ {
8903
+ "epoch": 1.6107936507936507,
8904
+ "grad_norm": 0.92578125,
8905
+ "learning_rate": 4.748897536035402e-06,
8906
+ "loss": 1.0998,
8907
+ "step": 1270
8908
+ },
8909
+ {
8910
+ "epoch": 1.6120634920634922,
8911
+ "grad_norm": 1.0625,
8912
+ "learning_rate": 4.745526880691734e-06,
8913
+ "loss": 1.0686,
8914
+ "step": 1271
8915
+ },
8916
+ {
8917
+ "epoch": 1.6133333333333333,
8918
+ "grad_norm": 1.0390625,
8919
+ "learning_rate": 4.742154902156005e-06,
8920
+ "loss": 1.0893,
8921
+ "step": 1272
8922
+ },
8923
+ {
8924
+ "epoch": 1.6146031746031746,
8925
+ "grad_norm": 0.9765625,
8926
+ "learning_rate": 4.738781604010454e-06,
8927
+ "loss": 1.1056,
8928
+ "step": 1273
8929
+ },
8930
+ {
8931
+ "epoch": 1.615873015873016,
8932
+ "grad_norm": 0.88671875,
8933
+ "learning_rate": 4.735406989838723e-06,
8934
+ "loss": 1.0968,
8935
+ "step": 1274
8936
+ },
8937
+ {
8938
+ "epoch": 1.617142857142857,
8939
+ "grad_norm": 0.97265625,
8940
+ "learning_rate": 4.7320310632258515e-06,
8941
+ "loss": 1.0764,
8942
+ "step": 1275
8943
+ },
8944
+ {
8945
+ "epoch": 1.6184126984126985,
8946
+ "grad_norm": 1.0546875,
8947
+ "learning_rate": 4.728653827758271e-06,
8948
+ "loss": 1.0824,
8949
+ "step": 1276
8950
+ },
8951
+ {
8952
+ "epoch": 1.6196825396825396,
8953
+ "grad_norm": 1.0078125,
8954
+ "learning_rate": 4.725275287023808e-06,
8955
+ "loss": 1.0422,
8956
+ "step": 1277
8957
+ },
8958
+ {
8959
+ "epoch": 1.620952380952381,
8960
+ "grad_norm": 0.92578125,
8961
+ "learning_rate": 4.721895444611671e-06,
8962
+ "loss": 1.1258,
8963
+ "step": 1278
8964
+ },
8965
+ {
8966
+ "epoch": 1.6222222222222222,
8967
+ "grad_norm": 1.0625,
8968
+ "learning_rate": 4.718514304112455e-06,
8969
+ "loss": 1.1382,
8970
+ "step": 1279
8971
+ },
8972
+ {
8973
+ "epoch": 1.6234920634920635,
8974
+ "grad_norm": 0.9296875,
8975
+ "learning_rate": 4.71513186911813e-06,
8976
+ "loss": 1.1232,
8977
+ "step": 1280
8978
+ },
8979
+ {
8980
+ "epoch": 1.6247619047619049,
8981
+ "grad_norm": 1.0078125,
8982
+ "learning_rate": 4.711748143222045e-06,
8983
+ "loss": 1.0685,
8984
+ "step": 1281
8985
+ },
8986
+ {
8987
+ "epoch": 1.626031746031746,
8988
+ "grad_norm": 1.015625,
8989
+ "learning_rate": 4.708363130018921e-06,
8990
+ "loss": 1.1688,
8991
+ "step": 1282
8992
+ },
8993
+ {
8994
+ "epoch": 1.6273015873015872,
8995
+ "grad_norm": 1.0,
8996
+ "learning_rate": 4.704976833104843e-06,
8997
+ "loss": 1.1588,
8998
+ "step": 1283
8999
+ },
9000
+ {
9001
+ "epoch": 1.6285714285714286,
9002
+ "grad_norm": 0.94140625,
9003
+ "learning_rate": 4.701589256077261e-06,
9004
+ "loss": 1.1249,
9005
+ "step": 1284
9006
+ },
9007
+ {
9008
+ "epoch": 1.6298412698412699,
9009
+ "grad_norm": 0.95703125,
9010
+ "learning_rate": 4.698200402534986e-06,
9011
+ "loss": 1.1255,
9012
+ "step": 1285
9013
+ },
9014
+ {
9015
+ "epoch": 1.6311111111111112,
9016
+ "grad_norm": 0.95703125,
9017
+ "learning_rate": 4.694810276078184e-06,
9018
+ "loss": 1.1134,
9019
+ "step": 1286
9020
+ },
9021
+ {
9022
+ "epoch": 1.6323809523809523,
9023
+ "grad_norm": 1.0078125,
9024
+ "learning_rate": 4.691418880308375e-06,
9025
+ "loss": 1.087,
9026
+ "step": 1287
9027
+ },
9028
+ {
9029
+ "epoch": 1.6336507936507938,
9030
+ "grad_norm": 0.953125,
9031
+ "learning_rate": 4.6880262188284235e-06,
9032
+ "loss": 1.1309,
9033
+ "step": 1288
9034
+ },
9035
+ {
9036
+ "epoch": 1.6349206349206349,
9037
+ "grad_norm": 0.94921875,
9038
+ "learning_rate": 4.684632295242544e-06,
9039
+ "loss": 1.1354,
9040
+ "step": 1289
9041
+ },
9042
+ {
9043
+ "epoch": 1.6361904761904762,
9044
+ "grad_norm": 0.98046875,
9045
+ "learning_rate": 4.681237113156287e-06,
9046
+ "loss": 1.0666,
9047
+ "step": 1290
9048
+ },
9049
+ {
9050
+ "epoch": 1.6374603174603175,
9051
+ "grad_norm": 0.890625,
9052
+ "learning_rate": 4.677840676176545e-06,
9053
+ "loss": 1.0729,
9054
+ "step": 1291
9055
+ },
9056
+ {
9057
+ "epoch": 1.6387301587301586,
9058
+ "grad_norm": 0.9921875,
9059
+ "learning_rate": 4.674442987911539e-06,
9060
+ "loss": 1.0809,
9061
+ "step": 1292
9062
+ },
9063
+ {
9064
+ "epoch": 1.6400000000000001,
9065
+ "grad_norm": 1.0,
9066
+ "learning_rate": 4.6710440519708205e-06,
9067
+ "loss": 1.1709,
9068
+ "step": 1293
9069
+ },
9070
+ {
9071
+ "epoch": 1.6412698412698412,
9072
+ "grad_norm": 0.99609375,
9073
+ "learning_rate": 4.667643871965267e-06,
9074
+ "loss": 1.1142,
9075
+ "step": 1294
9076
+ },
9077
+ {
9078
+ "epoch": 1.6425396825396825,
9079
+ "grad_norm": 0.953125,
9080
+ "learning_rate": 4.66424245150708e-06,
9081
+ "loss": 1.0243,
9082
+ "step": 1295
9083
+ },
9084
+ {
9085
+ "epoch": 1.6438095238095238,
9086
+ "grad_norm": 1.015625,
9087
+ "learning_rate": 4.660839794209774e-06,
9088
+ "loss": 1.0941,
9089
+ "step": 1296
9090
+ },
9091
+ {
9092
+ "epoch": 1.645079365079365,
9093
+ "grad_norm": 0.97265625,
9094
+ "learning_rate": 4.657435903688182e-06,
9095
+ "loss": 1.1224,
9096
+ "step": 1297
9097
+ },
9098
+ {
9099
+ "epoch": 1.6463492063492065,
9100
+ "grad_norm": 0.98828125,
9101
+ "learning_rate": 4.654030783558442e-06,
9102
+ "loss": 1.2249,
9103
+ "step": 1298
9104
+ },
9105
+ {
9106
+ "epoch": 1.6476190476190475,
9107
+ "grad_norm": 0.984375,
9108
+ "learning_rate": 4.650624437438005e-06,
9109
+ "loss": 1.1019,
9110
+ "step": 1299
9111
+ },
9112
+ {
9113
+ "epoch": 1.6488888888888888,
9114
+ "grad_norm": 1.015625,
9115
+ "learning_rate": 4.647216868945618e-06,
9116
+ "loss": 1.0937,
9117
+ "step": 1300
9118
+ },
9119
+ {
9120
+ "epoch": 1.6501587301587302,
9121
+ "grad_norm": 0.97265625,
9122
+ "learning_rate": 4.643808081701332e-06,
9123
+ "loss": 1.1725,
9124
+ "step": 1301
9125
+ },
9126
+ {
9127
+ "epoch": 1.6514285714285715,
9128
+ "grad_norm": 0.953125,
9129
+ "learning_rate": 4.640398079326487e-06,
9130
+ "loss": 1.0583,
9131
+ "step": 1302
9132
+ },
9133
+ {
9134
+ "epoch": 1.6526984126984128,
9135
+ "grad_norm": 0.921875,
9136
+ "learning_rate": 4.636986865443719e-06,
9137
+ "loss": 1.1474,
9138
+ "step": 1303
9139
+ },
9140
+ {
9141
+ "epoch": 1.6539682539682539,
9142
+ "grad_norm": 1.03125,
9143
+ "learning_rate": 4.63357444367695e-06,
9144
+ "loss": 1.1133,
9145
+ "step": 1304
9146
+ },
9147
+ {
9148
+ "epoch": 1.6552380952380954,
9149
+ "grad_norm": 0.96875,
9150
+ "learning_rate": 4.6301608176513825e-06,
9151
+ "loss": 1.0726,
9152
+ "step": 1305
9153
+ },
9154
+ {
9155
+ "epoch": 1.6565079365079365,
9156
+ "grad_norm": 0.95703125,
9157
+ "learning_rate": 4.6267459909935e-06,
9158
+ "loss": 1.1477,
9159
+ "step": 1306
9160
+ },
9161
+ {
9162
+ "epoch": 1.6577777777777778,
9163
+ "grad_norm": 0.95703125,
9164
+ "learning_rate": 4.623329967331062e-06,
9165
+ "loss": 1.0958,
9166
+ "step": 1307
9167
+ },
9168
+ {
9169
+ "epoch": 1.659047619047619,
9170
+ "grad_norm": 0.90625,
9171
+ "learning_rate": 4.6199127502931e-06,
9172
+ "loss": 1.0743,
9173
+ "step": 1308
9174
+ },
9175
+ {
9176
+ "epoch": 1.6603174603174602,
9177
+ "grad_norm": 0.90234375,
9178
+ "learning_rate": 4.616494343509912e-06,
9179
+ "loss": 1.1027,
9180
+ "step": 1309
9181
+ },
9182
+ {
9183
+ "epoch": 1.6615873015873017,
9184
+ "grad_norm": 0.90234375,
9185
+ "learning_rate": 4.613074750613062e-06,
9186
+ "loss": 1.0481,
9187
+ "step": 1310
9188
+ },
9189
+ {
9190
+ "epoch": 1.6628571428571428,
9191
+ "grad_norm": 1.046875,
9192
+ "learning_rate": 4.60965397523537e-06,
9193
+ "loss": 1.1293,
9194
+ "step": 1311
9195
+ },
9196
+ {
9197
+ "epoch": 1.6641269841269841,
9198
+ "grad_norm": 0.99609375,
9199
+ "learning_rate": 4.606232021010916e-06,
9200
+ "loss": 1.132,
9201
+ "step": 1312
9202
+ },
9203
+ {
9204
+ "epoch": 1.6653968253968254,
9205
+ "grad_norm": 0.9609375,
9206
+ "learning_rate": 4.6028088915750316e-06,
9207
+ "loss": 1.1219,
9208
+ "step": 1313
9209
+ },
9210
+ {
9211
+ "epoch": 1.6666666666666665,
9212
+ "grad_norm": 0.98828125,
9213
+ "learning_rate": 4.5993845905642965e-06,
9214
+ "loss": 1.1903,
9215
+ "step": 1314
9216
+ },
9217
+ {
9218
+ "epoch": 1.667936507936508,
9219
+ "grad_norm": 0.98046875,
9220
+ "learning_rate": 4.595959121616532e-06,
9221
+ "loss": 1.0881,
9222
+ "step": 1315
9223
+ },
9224
+ {
9225
+ "epoch": 1.6692063492063491,
9226
+ "grad_norm": 0.96484375,
9227
+ "learning_rate": 4.592532488370808e-06,
9228
+ "loss": 1.1348,
9229
+ "step": 1316
9230
+ },
9231
+ {
9232
+ "epoch": 1.6704761904761904,
9233
+ "grad_norm": 0.94140625,
9234
+ "learning_rate": 4.589104694467424e-06,
9235
+ "loss": 1.0883,
9236
+ "step": 1317
9237
+ },
9238
+ {
9239
+ "epoch": 1.6717460317460318,
9240
+ "grad_norm": 0.97265625,
9241
+ "learning_rate": 4.585675743547915e-06,
9242
+ "loss": 1.1143,
9243
+ "step": 1318
9244
+ },
9245
+ {
9246
+ "epoch": 1.673015873015873,
9247
+ "grad_norm": 0.98828125,
9248
+ "learning_rate": 4.582245639255044e-06,
9249
+ "loss": 1.1538,
9250
+ "step": 1319
9251
+ },
9252
+ {
9253
+ "epoch": 1.6742857142857144,
9254
+ "grad_norm": 0.91015625,
9255
+ "learning_rate": 4.578814385232802e-06,
9256
+ "loss": 1.096,
9257
+ "step": 1320
9258
+ },
9259
+ {
9260
+ "epoch": 1.6755555555555555,
9261
+ "grad_norm": 1.0703125,
9262
+ "learning_rate": 4.5753819851264e-06,
9263
+ "loss": 1.1107,
9264
+ "step": 1321
9265
+ },
9266
+ {
9267
+ "epoch": 1.6768253968253968,
9268
+ "grad_norm": 1.0234375,
9269
+ "learning_rate": 4.571948442582265e-06,
9270
+ "loss": 1.1652,
9271
+ "step": 1322
9272
+ },
9273
+ {
9274
+ "epoch": 1.678095238095238,
9275
+ "grad_norm": 1.0234375,
9276
+ "learning_rate": 4.56851376124804e-06,
9277
+ "loss": 1.076,
9278
+ "step": 1323
9279
+ },
9280
+ {
9281
+ "epoch": 1.6793650793650794,
9282
+ "grad_norm": 1.1328125,
9283
+ "learning_rate": 4.565077944772576e-06,
9284
+ "loss": 1.1744,
9285
+ "step": 1324
9286
+ },
9287
+ {
9288
+ "epoch": 1.6806349206349207,
9289
+ "grad_norm": 0.921875,
9290
+ "learning_rate": 4.561640996805933e-06,
9291
+ "loss": 1.1625,
9292
+ "step": 1325
9293
+ },
9294
+ {
9295
+ "epoch": 1.6819047619047618,
9296
+ "grad_norm": 1.0078125,
9297
+ "learning_rate": 4.558202920999368e-06,
9298
+ "loss": 1.137,
9299
+ "step": 1326
9300
+ },
9301
+ {
9302
+ "epoch": 1.6831746031746033,
9303
+ "grad_norm": 0.9453125,
9304
+ "learning_rate": 4.5547637210053405e-06,
9305
+ "loss": 1.0616,
9306
+ "step": 1327
9307
+ },
9308
+ {
9309
+ "epoch": 1.6844444444444444,
9310
+ "grad_norm": 0.9375,
9311
+ "learning_rate": 4.551323400477504e-06,
9312
+ "loss": 1.1175,
9313
+ "step": 1328
9314
+ },
9315
+ {
9316
+ "epoch": 1.6857142857142857,
9317
+ "grad_norm": 0.984375,
9318
+ "learning_rate": 4.547881963070698e-06,
9319
+ "loss": 1.0922,
9320
+ "step": 1329
9321
+ },
9322
+ {
9323
+ "epoch": 1.686984126984127,
9324
+ "grad_norm": 1.0,
9325
+ "learning_rate": 4.544439412440954e-06,
9326
+ "loss": 1.0534,
9327
+ "step": 1330
9328
+ },
9329
+ {
9330
+ "epoch": 1.6882539682539681,
9331
+ "grad_norm": 0.9609375,
9332
+ "learning_rate": 4.540995752245483e-06,
9333
+ "loss": 1.1033,
9334
+ "step": 1331
9335
+ },
9336
+ {
9337
+ "epoch": 1.6895238095238096,
9338
+ "grad_norm": 0.97265625,
9339
+ "learning_rate": 4.537550986142676e-06,
9340
+ "loss": 1.067,
9341
+ "step": 1332
9342
+ },
9343
+ {
9344
+ "epoch": 1.6907936507936507,
9345
+ "grad_norm": 0.89453125,
9346
+ "learning_rate": 4.534105117792098e-06,
9347
+ "loss": 1.1344,
9348
+ "step": 1333
9349
+ },
9350
+ {
9351
+ "epoch": 1.692063492063492,
9352
+ "grad_norm": 1.1015625,
9353
+ "learning_rate": 4.5306581508544865e-06,
9354
+ "loss": 1.1352,
9355
+ "step": 1334
9356
+ },
9357
+ {
9358
+ "epoch": 1.6933333333333334,
9359
+ "grad_norm": 0.890625,
9360
+ "learning_rate": 4.527210088991744e-06,
9361
+ "loss": 1.0163,
9362
+ "step": 1335
9363
+ },
9364
+ {
9365
+ "epoch": 1.6946031746031744,
9366
+ "grad_norm": 1.015625,
9367
+ "learning_rate": 4.523760935866939e-06,
9368
+ "loss": 1.0919,
9369
+ "step": 1336
9370
+ },
9371
+ {
9372
+ "epoch": 1.695873015873016,
9373
+ "grad_norm": 1.0390625,
9374
+ "learning_rate": 4.520310695144294e-06,
9375
+ "loss": 1.097,
9376
+ "step": 1337
9377
+ },
9378
+ {
9379
+ "epoch": 1.697142857142857,
9380
+ "grad_norm": 0.97265625,
9381
+ "learning_rate": 4.5168593704891926e-06,
9382
+ "loss": 1.1038,
9383
+ "step": 1338
9384
+ },
9385
+ {
9386
+ "epoch": 1.6984126984126984,
9387
+ "grad_norm": 0.98828125,
9388
+ "learning_rate": 4.513406965568169e-06,
9389
+ "loss": 1.1644,
9390
+ "step": 1339
9391
+ },
9392
+ {
9393
+ "epoch": 1.6996825396825397,
9394
+ "grad_norm": 0.8984375,
9395
+ "learning_rate": 4.509953484048903e-06,
9396
+ "loss": 1.0151,
9397
+ "step": 1340
9398
+ },
9399
+ {
9400
+ "epoch": 1.700952380952381,
9401
+ "grad_norm": 0.9453125,
9402
+ "learning_rate": 4.506498929600217e-06,
9403
+ "loss": 1.146,
9404
+ "step": 1341
9405
+ },
9406
+ {
9407
+ "epoch": 1.7022222222222223,
9408
+ "grad_norm": 0.94921875,
9409
+ "learning_rate": 4.503043305892077e-06,
9410
+ "loss": 1.0788,
9411
+ "step": 1342
9412
+ },
9413
+ {
9414
+ "epoch": 1.7034920634920634,
9415
+ "grad_norm": 0.96484375,
9416
+ "learning_rate": 4.499586616595583e-06,
9417
+ "loss": 1.0936,
9418
+ "step": 1343
9419
+ },
9420
+ {
9421
+ "epoch": 1.704761904761905,
9422
+ "grad_norm": 1.0234375,
9423
+ "learning_rate": 4.4961288653829665e-06,
9424
+ "loss": 1.1669,
9425
+ "step": 1344
9426
+ },
9427
+ {
9428
+ "epoch": 1.706031746031746,
9429
+ "grad_norm": 0.984375,
9430
+ "learning_rate": 4.492670055927589e-06,
9431
+ "loss": 1.0815,
9432
+ "step": 1345
9433
+ },
9434
+ {
9435
+ "epoch": 1.7073015873015873,
9436
+ "grad_norm": 0.98046875,
9437
+ "learning_rate": 4.489210191903933e-06,
9438
+ "loss": 1.1458,
9439
+ "step": 1346
9440
+ },
9441
+ {
9442
+ "epoch": 1.7085714285714286,
9443
+ "grad_norm": 1.0703125,
9444
+ "learning_rate": 4.4857492769876045e-06,
9445
+ "loss": 1.1193,
9446
+ "step": 1347
9447
+ },
9448
+ {
9449
+ "epoch": 1.7098412698412697,
9450
+ "grad_norm": 0.92578125,
9451
+ "learning_rate": 4.482287314855326e-06,
9452
+ "loss": 1.0507,
9453
+ "step": 1348
9454
+ },
9455
+ {
9456
+ "epoch": 1.7111111111111112,
9457
+ "grad_norm": 0.9375,
9458
+ "learning_rate": 4.4788243091849295e-06,
9459
+ "loss": 1.201,
9460
+ "step": 1349
9461
+ },
9462
+ {
9463
+ "epoch": 1.7123809523809523,
9464
+ "grad_norm": 0.91796875,
9465
+ "learning_rate": 4.475360263655357e-06,
9466
+ "loss": 1.0748,
9467
+ "step": 1350
9468
+ },
9469
+ {
9470
+ "epoch": 1.7136507936507936,
9471
+ "grad_norm": 1.0390625,
9472
+ "learning_rate": 4.471895181946656e-06,
9473
+ "loss": 1.1482,
9474
+ "step": 1351
9475
+ },
9476
+ {
9477
+ "epoch": 1.714920634920635,
9478
+ "grad_norm": 0.98828125,
9479
+ "learning_rate": 4.468429067739976e-06,
9480
+ "loss": 1.098,
9481
+ "step": 1352
9482
+ },
9483
+ {
9484
+ "epoch": 1.716190476190476,
9485
+ "grad_norm": 0.91015625,
9486
+ "learning_rate": 4.4649619247175605e-06,
9487
+ "loss": 1.135,
9488
+ "step": 1353
9489
+ },
9490
+ {
9491
+ "epoch": 1.7174603174603176,
9492
+ "grad_norm": 0.89453125,
9493
+ "learning_rate": 4.461493756562748e-06,
9494
+ "loss": 1.0311,
9495
+ "step": 1354
9496
+ },
9497
+ {
9498
+ "epoch": 1.7187301587301587,
9499
+ "grad_norm": 0.97265625,
9500
+ "learning_rate": 4.458024566959962e-06,
9501
+ "loss": 1.1186,
9502
+ "step": 1355
9503
+ },
9504
+ {
9505
+ "epoch": 1.72,
9506
+ "grad_norm": 0.9609375,
9507
+ "learning_rate": 4.454554359594718e-06,
9508
+ "loss": 1.096,
9509
+ "step": 1356
9510
+ },
9511
+ {
9512
+ "epoch": 1.7212698412698413,
9513
+ "grad_norm": 0.9609375,
9514
+ "learning_rate": 4.451083138153609e-06,
9515
+ "loss": 1.0987,
9516
+ "step": 1357
9517
+ },
9518
+ {
9519
+ "epoch": 1.7225396825396826,
9520
+ "grad_norm": 1.0234375,
9521
+ "learning_rate": 4.447610906324303e-06,
9522
+ "loss": 1.0812,
9523
+ "step": 1358
9524
+ },
9525
+ {
9526
+ "epoch": 1.723809523809524,
9527
+ "grad_norm": 1.0390625,
9528
+ "learning_rate": 4.444137667795546e-06,
9529
+ "loss": 1.1388,
9530
+ "step": 1359
9531
+ },
9532
+ {
9533
+ "epoch": 1.725079365079365,
9534
+ "grad_norm": 1.0078125,
9535
+ "learning_rate": 4.44066342625715e-06,
9536
+ "loss": 1.1375,
9537
+ "step": 1360
9538
+ },
9539
+ {
9540
+ "epoch": 1.7263492063492063,
9541
+ "grad_norm": 1.0,
9542
+ "learning_rate": 4.437188185399994e-06,
9543
+ "loss": 1.1185,
9544
+ "step": 1361
9545
+ },
9546
+ {
9547
+ "epoch": 1.7276190476190476,
9548
+ "grad_norm": 0.9765625,
9549
+ "learning_rate": 4.43371194891602e-06,
9550
+ "loss": 1.1783,
9551
+ "step": 1362
9552
+ },
9553
+ {
9554
+ "epoch": 1.728888888888889,
9555
+ "grad_norm": 0.88671875,
9556
+ "learning_rate": 4.430234720498224e-06,
9557
+ "loss": 1.0944,
9558
+ "step": 1363
9559
+ },
9560
+ {
9561
+ "epoch": 1.7301587301587302,
9562
+ "grad_norm": 1.0078125,
9563
+ "learning_rate": 4.426756503840659e-06,
9564
+ "loss": 1.1701,
9565
+ "step": 1364
9566
+ },
9567
+ {
9568
+ "epoch": 1.7314285714285713,
9569
+ "grad_norm": 1.015625,
9570
+ "learning_rate": 4.423277302638428e-06,
9571
+ "loss": 1.1493,
9572
+ "step": 1365
9573
+ },
9574
+ {
9575
+ "epoch": 1.7326984126984128,
9576
+ "grad_norm": 1.015625,
9577
+ "learning_rate": 4.4197971205876775e-06,
9578
+ "loss": 1.1577,
9579
+ "step": 1366
9580
+ },
9581
+ {
9582
+ "epoch": 1.733968253968254,
9583
+ "grad_norm": 1.0078125,
9584
+ "learning_rate": 4.416315961385597e-06,
9585
+ "loss": 1.1811,
9586
+ "step": 1367
9587
+ },
9588
+ {
9589
+ "epoch": 1.7352380952380952,
9590
+ "grad_norm": 0.97265625,
9591
+ "learning_rate": 4.412833828730414e-06,
9592
+ "loss": 1.115,
9593
+ "step": 1368
9594
+ },
9595
+ {
9596
+ "epoch": 1.7365079365079366,
9597
+ "grad_norm": 0.8984375,
9598
+ "learning_rate": 4.409350726321392e-06,
9599
+ "loss": 1.1033,
9600
+ "step": 1369
9601
+ },
9602
+ {
9603
+ "epoch": 1.7377777777777776,
9604
+ "grad_norm": 0.92578125,
9605
+ "learning_rate": 4.405866657858823e-06,
9606
+ "loss": 1.1589,
9607
+ "step": 1370
9608
+ },
9609
+ {
9610
+ "epoch": 1.7390476190476192,
9611
+ "grad_norm": 0.921875,
9612
+ "learning_rate": 4.4023816270440245e-06,
9613
+ "loss": 1.0999,
9614
+ "step": 1371
9615
+ },
9616
+ {
9617
+ "epoch": 1.7403174603174603,
9618
+ "grad_norm": 0.9375,
9619
+ "learning_rate": 4.398895637579338e-06,
9620
+ "loss": 1.0698,
9621
+ "step": 1372
9622
+ },
9623
+ {
9624
+ "epoch": 1.7415873015873016,
9625
+ "grad_norm": 1.0234375,
9626
+ "learning_rate": 4.395408693168123e-06,
9627
+ "loss": 1.1485,
9628
+ "step": 1373
9629
+ },
9630
+ {
9631
+ "epoch": 1.7428571428571429,
9632
+ "grad_norm": 0.96484375,
9633
+ "learning_rate": 4.391920797514753e-06,
9634
+ "loss": 1.0692,
9635
+ "step": 1374
9636
+ },
9637
+ {
9638
+ "epoch": 1.744126984126984,
9639
+ "grad_norm": 0.9296875,
9640
+ "learning_rate": 4.3884319543246125e-06,
9641
+ "loss": 1.1225,
9642
+ "step": 1375
9643
+ },
9644
+ {
9645
+ "epoch": 1.7453968253968255,
9646
+ "grad_norm": 0.94140625,
9647
+ "learning_rate": 4.384942167304093e-06,
9648
+ "loss": 1.1042,
9649
+ "step": 1376
9650
+ },
9651
+ {
9652
+ "epoch": 1.7466666666666666,
9653
+ "grad_norm": 0.98046875,
9654
+ "learning_rate": 4.381451440160587e-06,
9655
+ "loss": 1.1989,
9656
+ "step": 1377
9657
+ },
9658
+ {
9659
+ "epoch": 1.747936507936508,
9660
+ "grad_norm": 1.0078125,
9661
+ "learning_rate": 4.377959776602488e-06,
9662
+ "loss": 1.1128,
9663
+ "step": 1378
9664
+ },
9665
+ {
9666
+ "epoch": 1.7492063492063492,
9667
+ "grad_norm": 0.87890625,
9668
+ "learning_rate": 4.374467180339182e-06,
9669
+ "loss": 0.9888,
9670
+ "step": 1379
9671
+ },
9672
+ {
9673
+ "epoch": 1.7504761904761905,
9674
+ "grad_norm": 1.0625,
9675
+ "learning_rate": 4.370973655081048e-06,
9676
+ "loss": 1.1188,
9677
+ "step": 1380
9678
+ },
9679
+ {
9680
+ "epoch": 1.7517460317460318,
9681
+ "grad_norm": 0.96875,
9682
+ "learning_rate": 4.367479204539452e-06,
9683
+ "loss": 1.1025,
9684
+ "step": 1381
9685
+ },
9686
+ {
9687
+ "epoch": 1.753015873015873,
9688
+ "grad_norm": 0.9765625,
9689
+ "learning_rate": 4.363983832426739e-06,
9690
+ "loss": 1.1934,
9691
+ "step": 1382
9692
+ },
9693
+ {
9694
+ "epoch": 1.7542857142857144,
9695
+ "grad_norm": 0.9296875,
9696
+ "learning_rate": 4.36048754245624e-06,
9697
+ "loss": 0.9798,
9698
+ "step": 1383
9699
+ },
9700
+ {
9701
+ "epoch": 1.7555555555555555,
9702
+ "grad_norm": 0.984375,
9703
+ "learning_rate": 4.356990338342255e-06,
9704
+ "loss": 1.0822,
9705
+ "step": 1384
9706
+ },
9707
+ {
9708
+ "epoch": 1.7568253968253968,
9709
+ "grad_norm": 0.9453125,
9710
+ "learning_rate": 4.353492223800056e-06,
9711
+ "loss": 1.069,
9712
+ "step": 1385
9713
+ },
9714
+ {
9715
+ "epoch": 1.7580952380952382,
9716
+ "grad_norm": 0.96875,
9717
+ "learning_rate": 4.349993202545884e-06,
9718
+ "loss": 1.1006,
9719
+ "step": 1386
9720
+ },
9721
+ {
9722
+ "epoch": 1.7593650793650792,
9723
+ "grad_norm": 0.9453125,
9724
+ "learning_rate": 4.346493278296945e-06,
9725
+ "loss": 1.1396,
9726
+ "step": 1387
9727
+ },
9728
+ {
9729
+ "epoch": 1.7606349206349208,
9730
+ "grad_norm": 0.921875,
9731
+ "learning_rate": 4.342992454771401e-06,
9732
+ "loss": 1.0967,
9733
+ "step": 1388
9734
+ },
9735
+ {
9736
+ "epoch": 1.7619047619047619,
9737
+ "grad_norm": 1.0078125,
9738
+ "learning_rate": 4.33949073568837e-06,
9739
+ "loss": 1.172,
9740
+ "step": 1389
9741
+ },
9742
+ {
9743
+ "epoch": 1.7631746031746032,
9744
+ "grad_norm": 0.95703125,
9745
+ "learning_rate": 4.335988124767919e-06,
9746
+ "loss": 1.1301,
9747
+ "step": 1390
9748
+ },
9749
+ {
9750
+ "epoch": 1.7644444444444445,
9751
+ "grad_norm": 0.90625,
9752
+ "learning_rate": 4.332484625731069e-06,
9753
+ "loss": 1.1052,
9754
+ "step": 1391
9755
+ },
9756
+ {
9757
+ "epoch": 1.7657142857142856,
9758
+ "grad_norm": 0.96875,
9759
+ "learning_rate": 4.328980242299781e-06,
9760
+ "loss": 1.1134,
9761
+ "step": 1392
9762
+ },
9763
+ {
9764
+ "epoch": 1.766984126984127,
9765
+ "grad_norm": 1.015625,
9766
+ "learning_rate": 4.325474978196952e-06,
9767
+ "loss": 1.1061,
9768
+ "step": 1393
9769
+ },
9770
+ {
9771
+ "epoch": 1.7682539682539682,
9772
+ "grad_norm": 1.0,
9773
+ "learning_rate": 4.321968837146421e-06,
9774
+ "loss": 1.0766,
9775
+ "step": 1394
9776
+ },
9777
+ {
9778
+ "epoch": 1.7695238095238095,
9779
+ "grad_norm": 0.99609375,
9780
+ "learning_rate": 4.318461822872954e-06,
9781
+ "loss": 1.1707,
9782
+ "step": 1395
9783
+ },
9784
+ {
9785
+ "epoch": 1.7707936507936508,
9786
+ "grad_norm": 0.94921875,
9787
+ "learning_rate": 4.314953939102245e-06,
9788
+ "loss": 1.0879,
9789
+ "step": 1396
9790
+ },
9791
+ {
9792
+ "epoch": 1.7720634920634921,
9793
+ "grad_norm": 0.984375,
9794
+ "learning_rate": 4.311445189560915e-06,
9795
+ "loss": 1.0676,
9796
+ "step": 1397
9797
+ },
9798
+ {
9799
+ "epoch": 1.7733333333333334,
9800
+ "grad_norm": 0.953125,
9801
+ "learning_rate": 4.307935577976502e-06,
9802
+ "loss": 1.1716,
9803
+ "step": 1398
9804
+ },
9805
+ {
9806
+ "epoch": 1.7746031746031745,
9807
+ "grad_norm": 0.9296875,
9808
+ "learning_rate": 4.3044251080774585e-06,
9809
+ "loss": 1.0704,
9810
+ "step": 1399
9811
+ },
9812
+ {
9813
+ "epoch": 1.7758730158730158,
9814
+ "grad_norm": 0.98046875,
9815
+ "learning_rate": 4.300913783593154e-06,
9816
+ "loss": 1.1177,
9817
+ "step": 1400
9818
+ },
9819
+ {
9820
+ "epoch": 1.7771428571428571,
9821
+ "grad_norm": 0.9765625,
9822
+ "learning_rate": 4.2974016082538605e-06,
9823
+ "loss": 1.1566,
9824
+ "step": 1401
9825
+ },
9826
+ {
9827
+ "epoch": 1.7784126984126984,
9828
+ "grad_norm": 0.95703125,
9829
+ "learning_rate": 4.293888585790755e-06,
9830
+ "loss": 1.1727,
9831
+ "step": 1402
9832
+ },
9833
+ {
9834
+ "epoch": 1.7796825396825398,
9835
+ "grad_norm": 0.91796875,
9836
+ "learning_rate": 4.290374719935918e-06,
9837
+ "loss": 1.102,
9838
+ "step": 1403
9839
+ },
9840
+ {
9841
+ "epoch": 1.7809523809523808,
9842
+ "grad_norm": 0.93359375,
9843
+ "learning_rate": 4.286860014422323e-06,
9844
+ "loss": 1.0966,
9845
+ "step": 1404
9846
+ },
9847
+ {
9848
+ "epoch": 1.7822222222222224,
9849
+ "grad_norm": 1.015625,
9850
+ "learning_rate": 4.283344472983835e-06,
9851
+ "loss": 1.1441,
9852
+ "step": 1405
9853
+ },
9854
+ {
9855
+ "epoch": 1.7834920634920635,
9856
+ "grad_norm": 0.91015625,
9857
+ "learning_rate": 4.279828099355209e-06,
9858
+ "loss": 1.1356,
9859
+ "step": 1406
9860
+ },
9861
+ {
9862
+ "epoch": 1.7847619047619048,
9863
+ "grad_norm": 0.94921875,
9864
+ "learning_rate": 4.2763108972720815e-06,
9865
+ "loss": 1.0482,
9866
+ "step": 1407
9867
+ },
9868
+ {
9869
+ "epoch": 1.786031746031746,
9870
+ "grad_norm": 0.8828125,
9871
+ "learning_rate": 4.272792870470971e-06,
9872
+ "loss": 1.0668,
9873
+ "step": 1408
9874
+ },
9875
+ {
9876
+ "epoch": 1.7873015873015872,
9877
+ "grad_norm": 0.9296875,
9878
+ "learning_rate": 4.269274022689275e-06,
9879
+ "loss": 1.0832,
9880
+ "step": 1409
9881
+ },
9882
+ {
9883
+ "epoch": 1.7885714285714287,
9884
+ "grad_norm": 0.8828125,
9885
+ "learning_rate": 4.265754357665256e-06,
9886
+ "loss": 1.0726,
9887
+ "step": 1410
9888
+ },
9889
+ {
9890
+ "epoch": 1.7898412698412698,
9891
+ "grad_norm": 0.984375,
9892
+ "learning_rate": 4.26223387913805e-06,
9893
+ "loss": 1.106,
9894
+ "step": 1411
9895
+ },
9896
+ {
9897
+ "epoch": 1.791111111111111,
9898
+ "grad_norm": 1.0859375,
9899
+ "learning_rate": 4.258712590847656e-06,
9900
+ "loss": 1.0797,
9901
+ "step": 1412
9902
+ },
9903
+ {
9904
+ "epoch": 1.7923809523809524,
9905
+ "grad_norm": 0.96875,
9906
+ "learning_rate": 4.255190496534934e-06,
9907
+ "loss": 1.173,
9908
+ "step": 1413
9909
+ },
9910
+ {
9911
+ "epoch": 1.7936507936507935,
9912
+ "grad_norm": 0.93359375,
9913
+ "learning_rate": 4.251667599941599e-06,
9914
+ "loss": 1.1476,
9915
+ "step": 1414
9916
+ },
9917
+ {
9918
+ "epoch": 1.794920634920635,
9919
+ "grad_norm": 1.0390625,
9920
+ "learning_rate": 4.248143904810219e-06,
9921
+ "loss": 1.0581,
9922
+ "step": 1415
9923
+ },
9924
+ {
9925
+ "epoch": 1.7961904761904761,
9926
+ "grad_norm": 1.015625,
9927
+ "learning_rate": 4.2446194148842095e-06,
9928
+ "loss": 1.142,
9929
+ "step": 1416
9930
+ },
9931
+ {
9932
+ "epoch": 1.7974603174603174,
9933
+ "grad_norm": 0.99609375,
9934
+ "learning_rate": 4.241094133907832e-06,
9935
+ "loss": 1.1658,
9936
+ "step": 1417
9937
+ },
9938
+ {
9939
+ "epoch": 1.7987301587301587,
9940
+ "grad_norm": 0.953125,
9941
+ "learning_rate": 4.2375680656261864e-06,
9942
+ "loss": 1.0855,
9943
+ "step": 1418
9944
+ },
9945
+ {
9946
+ "epoch": 1.8,
9947
+ "grad_norm": 0.99609375,
9948
+ "learning_rate": 4.23404121378521e-06,
9949
+ "loss": 1.0656,
9950
+ "step": 1419
9951
+ },
9952
+ {
9953
+ "epoch": 1.8012698412698414,
9954
+ "grad_norm": 0.9453125,
9955
+ "learning_rate": 4.230513582131674e-06,
9956
+ "loss": 1.1448,
9957
+ "step": 1420
9958
+ },
9959
+ {
9960
+ "epoch": 1.8025396825396824,
9961
+ "grad_norm": 0.9609375,
9962
+ "learning_rate": 4.2269851744131735e-06,
9963
+ "loss": 1.1289,
9964
+ "step": 1421
9965
+ },
9966
+ {
9967
+ "epoch": 1.803809523809524,
9968
+ "grad_norm": 0.99609375,
9969
+ "learning_rate": 4.223455994378133e-06,
9970
+ "loss": 1.1863,
9971
+ "step": 1422
9972
+ },
9973
+ {
9974
+ "epoch": 1.805079365079365,
9975
+ "grad_norm": 1.015625,
9976
+ "learning_rate": 4.219926045775797e-06,
9977
+ "loss": 1.0682,
9978
+ "step": 1423
9979
+ },
9980
+ {
9981
+ "epoch": 1.8063492063492064,
9982
+ "grad_norm": 1.0,
9983
+ "learning_rate": 4.216395332356223e-06,
9984
+ "loss": 1.1456,
9985
+ "step": 1424
9986
+ },
9987
+ {
9988
+ "epoch": 1.8076190476190477,
9989
+ "grad_norm": 1.0234375,
9990
+ "learning_rate": 4.212863857870283e-06,
9991
+ "loss": 1.0884,
9992
+ "step": 1425
9993
+ },
9994
+ {
9995
+ "epoch": 1.8088888888888888,
9996
+ "grad_norm": 0.98828125,
9997
+ "learning_rate": 4.209331626069658e-06,
9998
+ "loss": 1.2046,
9999
+ "step": 1426
10000
+ },
10001
+ {
10002
+ "epoch": 1.8101587301587303,
10003
+ "grad_norm": 0.8984375,
10004
+ "learning_rate": 4.2057986407068335e-06,
10005
+ "loss": 1.113,
10006
+ "step": 1427
10007
+ },
10008
+ {
10009
+ "epoch": 1.8114285714285714,
10010
+ "grad_norm": 1.046875,
10011
+ "learning_rate": 4.202264905535095e-06,
10012
+ "loss": 1.0876,
10013
+ "step": 1428
10014
+ },
10015
+ {
10016
+ "epoch": 1.8126984126984127,
10017
+ "grad_norm": 0.9609375,
10018
+ "learning_rate": 4.198730424308525e-06,
10019
+ "loss": 1.0892,
10020
+ "step": 1429
10021
+ },
10022
+ {
10023
+ "epoch": 1.813968253968254,
10024
+ "grad_norm": 1.03125,
10025
+ "learning_rate": 4.195195200781997e-06,
10026
+ "loss": 1.1297,
10027
+ "step": 1430
10028
+ },
10029
+ {
10030
+ "epoch": 1.815238095238095,
10031
+ "grad_norm": 0.9453125,
10032
+ "learning_rate": 4.191659238711176e-06,
10033
+ "loss": 1.0367,
10034
+ "step": 1431
10035
+ },
10036
+ {
10037
+ "epoch": 1.8165079365079366,
10038
+ "grad_norm": 0.9296875,
10039
+ "learning_rate": 4.18812254185251e-06,
10040
+ "loss": 1.0728,
10041
+ "step": 1432
10042
+ },
10043
+ {
10044
+ "epoch": 1.8177777777777777,
10045
+ "grad_norm": 0.98046875,
10046
+ "learning_rate": 4.184585113963227e-06,
10047
+ "loss": 1.0955,
10048
+ "step": 1433
10049
+ },
10050
+ {
10051
+ "epoch": 1.819047619047619,
10052
+ "grad_norm": 0.9609375,
10053
+ "learning_rate": 4.181046958801329e-06,
10054
+ "loss": 1.0745,
10055
+ "step": 1434
10056
+ },
10057
+ {
10058
+ "epoch": 1.8203174603174603,
10059
+ "grad_norm": 0.98828125,
10060
+ "learning_rate": 4.1775080801256005e-06,
10061
+ "loss": 1.107,
10062
+ "step": 1435
10063
+ },
10064
+ {
10065
+ "epoch": 1.8215873015873014,
10066
+ "grad_norm": 0.99609375,
10067
+ "learning_rate": 4.173968481695583e-06,
10068
+ "loss": 1.1076,
10069
+ "step": 1436
10070
+ },
10071
+ {
10072
+ "epoch": 1.822857142857143,
10073
+ "grad_norm": 0.99609375,
10074
+ "learning_rate": 4.1704281672715885e-06,
10075
+ "loss": 1.0636,
10076
+ "step": 1437
10077
+ },
10078
+ {
10079
+ "epoch": 1.824126984126984,
10080
+ "grad_norm": 0.9375,
10081
+ "learning_rate": 4.1668871406146895e-06,
10082
+ "loss": 1.1531,
10083
+ "step": 1438
10084
+ },
10085
+ {
10086
+ "epoch": 1.8253968253968254,
10087
+ "grad_norm": 1.0,
10088
+ "learning_rate": 4.163345405486714e-06,
10089
+ "loss": 1.0968,
10090
+ "step": 1439
10091
+ },
10092
+ {
10093
+ "epoch": 1.8266666666666667,
10094
+ "grad_norm": 0.94140625,
10095
+ "learning_rate": 4.1598029656502435e-06,
10096
+ "loss": 1.1005,
10097
+ "step": 1440
10098
+ },
10099
+ {
10100
+ "epoch": 1.827936507936508,
10101
+ "grad_norm": 1.0,
10102
+ "learning_rate": 4.156259824868607e-06,
10103
+ "loss": 1.1411,
10104
+ "step": 1441
10105
+ },
10106
+ {
10107
+ "epoch": 1.8292063492063493,
10108
+ "grad_norm": 1.015625,
10109
+ "learning_rate": 4.15271598690588e-06,
10110
+ "loss": 1.1068,
10111
+ "step": 1442
10112
+ },
10113
+ {
10114
+ "epoch": 1.8304761904761904,
10115
+ "grad_norm": 0.96484375,
10116
+ "learning_rate": 4.149171455526874e-06,
10117
+ "loss": 1.1175,
10118
+ "step": 1443
10119
+ },
10120
+ {
10121
+ "epoch": 1.831746031746032,
10122
+ "grad_norm": 1.0,
10123
+ "learning_rate": 4.1456262344971455e-06,
10124
+ "loss": 1.102,
10125
+ "step": 1444
10126
+ },
10127
+ {
10128
+ "epoch": 1.833015873015873,
10129
+ "grad_norm": 1.046875,
10130
+ "learning_rate": 4.142080327582976e-06,
10131
+ "loss": 1.2087,
10132
+ "step": 1445
10133
+ },
10134
+ {
10135
+ "epoch": 1.8342857142857143,
10136
+ "grad_norm": 0.99609375,
10137
+ "learning_rate": 4.138533738551379e-06,
10138
+ "loss": 1.1595,
10139
+ "step": 1446
10140
+ },
10141
+ {
10142
+ "epoch": 1.8355555555555556,
10143
+ "grad_norm": 0.94140625,
10144
+ "learning_rate": 4.134986471170092e-06,
10145
+ "loss": 1.0973,
10146
+ "step": 1447
10147
+ },
10148
+ {
10149
+ "epoch": 1.8368253968253967,
10150
+ "grad_norm": 0.93359375,
10151
+ "learning_rate": 4.1314385292075725e-06,
10152
+ "loss": 1.0418,
10153
+ "step": 1448
10154
+ },
10155
+ {
10156
+ "epoch": 1.8380952380952382,
10157
+ "grad_norm": 1.0234375,
10158
+ "learning_rate": 4.127889916432997e-06,
10159
+ "loss": 1.1054,
10160
+ "step": 1449
10161
+ },
10162
+ {
10163
+ "epoch": 1.8393650793650793,
10164
+ "grad_norm": 0.9765625,
10165
+ "learning_rate": 4.124340636616252e-06,
10166
+ "loss": 1.0538,
10167
+ "step": 1450
10168
+ },
10169
+ {
10170
+ "epoch": 1.8406349206349206,
10171
+ "grad_norm": 0.98046875,
10172
+ "learning_rate": 4.120790693527933e-06,
10173
+ "loss": 1.1456,
10174
+ "step": 1451
10175
+ },
10176
+ {
10177
+ "epoch": 1.841904761904762,
10178
+ "grad_norm": 0.9921875,
10179
+ "learning_rate": 4.1172400909393414e-06,
10180
+ "loss": 1.1267,
10181
+ "step": 1452
10182
+ },
10183
+ {
10184
+ "epoch": 1.843174603174603,
10185
+ "grad_norm": 0.94921875,
10186
+ "learning_rate": 4.1136888326224805e-06,
10187
+ "loss": 1.1251,
10188
+ "step": 1453
10189
+ },
10190
+ {
10191
+ "epoch": 1.8444444444444446,
10192
+ "grad_norm": 0.98828125,
10193
+ "learning_rate": 4.110136922350045e-06,
10194
+ "loss": 1.1643,
10195
+ "step": 1454
10196
+ },
10197
+ {
10198
+ "epoch": 1.8457142857142856,
10199
+ "grad_norm": 1.046875,
10200
+ "learning_rate": 4.106584363895429e-06,
10201
+ "loss": 1.0467,
10202
+ "step": 1455
10203
+ },
10204
+ {
10205
+ "epoch": 1.846984126984127,
10206
+ "grad_norm": 1.109375,
10207
+ "learning_rate": 4.103031161032708e-06,
10208
+ "loss": 1.0191,
10209
+ "step": 1456
10210
+ },
10211
+ {
10212
+ "epoch": 1.8482539682539683,
10213
+ "grad_norm": 1.046875,
10214
+ "learning_rate": 4.099477317536649e-06,
10215
+ "loss": 1.1017,
10216
+ "step": 1457
10217
+ },
10218
+ {
10219
+ "epoch": 1.8495238095238096,
10220
+ "grad_norm": 0.96875,
10221
+ "learning_rate": 4.0959228371826955e-06,
10222
+ "loss": 1.1175,
10223
+ "step": 1458
10224
+ },
10225
+ {
10226
+ "epoch": 1.8507936507936509,
10227
+ "grad_norm": 0.91796875,
10228
+ "learning_rate": 4.092367723746968e-06,
10229
+ "loss": 1.0939,
10230
+ "step": 1459
10231
+ },
10232
+ {
10233
+ "epoch": 1.852063492063492,
10234
+ "grad_norm": 0.97265625,
10235
+ "learning_rate": 4.0888119810062594e-06,
10236
+ "loss": 1.1079,
10237
+ "step": 1460
10238
+ },
10239
+ {
10240
+ "epoch": 1.8533333333333335,
10241
+ "grad_norm": 1.03125,
10242
+ "learning_rate": 4.085255612738032e-06,
10243
+ "loss": 1.1314,
10244
+ "step": 1461
10245
+ },
10246
+ {
10247
+ "epoch": 1.8546031746031746,
10248
+ "grad_norm": 1.046875,
10249
+ "learning_rate": 4.081698622720414e-06,
10250
+ "loss": 1.0679,
10251
+ "step": 1462
10252
+ },
10253
+ {
10254
+ "epoch": 1.855873015873016,
10255
+ "grad_norm": 0.91015625,
10256
+ "learning_rate": 4.078141014732191e-06,
10257
+ "loss": 1.0438,
10258
+ "step": 1463
10259
+ },
10260
+ {
10261
+ "epoch": 1.8571428571428572,
10262
+ "grad_norm": 1.0234375,
10263
+ "learning_rate": 4.074582792552808e-06,
10264
+ "loss": 1.0791,
10265
+ "step": 1464
10266
+ },
10267
+ {
10268
+ "epoch": 1.8584126984126983,
10269
+ "grad_norm": 1.046875,
10270
+ "learning_rate": 4.0710239599623606e-06,
10271
+ "loss": 1.0715,
10272
+ "step": 1465
10273
+ },
10274
+ {
10275
+ "epoch": 1.8596825396825398,
10276
+ "grad_norm": 0.97265625,
10277
+ "learning_rate": 4.067464520741591e-06,
10278
+ "loss": 1.1739,
10279
+ "step": 1466
10280
+ },
10281
+ {
10282
+ "epoch": 1.860952380952381,
10283
+ "grad_norm": 0.92578125,
10284
+ "learning_rate": 4.0639044786718925e-06,
10285
+ "loss": 1.0591,
10286
+ "step": 1467
10287
+ },
10288
+ {
10289
+ "epoch": 1.8622222222222222,
10290
+ "grad_norm": 0.96875,
10291
+ "learning_rate": 4.060343837535292e-06,
10292
+ "loss": 1.1822,
10293
+ "step": 1468
10294
+ },
10295
+ {
10296
+ "epoch": 1.8634920634920635,
10297
+ "grad_norm": 0.953125,
10298
+ "learning_rate": 4.056782601114454e-06,
10299
+ "loss": 1.1192,
10300
+ "step": 1469
10301
+ },
10302
+ {
10303
+ "epoch": 1.8647619047619046,
10304
+ "grad_norm": 1.0,
10305
+ "learning_rate": 4.053220773192681e-06,
10306
+ "loss": 1.1677,
10307
+ "step": 1470
10308
+ },
10309
+ {
10310
+ "epoch": 1.8660317460317462,
10311
+ "grad_norm": 1.046875,
10312
+ "learning_rate": 4.049658357553897e-06,
10313
+ "loss": 1.0656,
10314
+ "step": 1471
10315
+ },
10316
+ {
10317
+ "epoch": 1.8673015873015872,
10318
+ "grad_norm": 0.93359375,
10319
+ "learning_rate": 4.046095357982652e-06,
10320
+ "loss": 1.0669,
10321
+ "step": 1472
10322
+ },
10323
+ {
10324
+ "epoch": 1.8685714285714285,
10325
+ "grad_norm": 0.9921875,
10326
+ "learning_rate": 4.042531778264121e-06,
10327
+ "loss": 1.1329,
10328
+ "step": 1473
10329
+ },
10330
+ {
10331
+ "epoch": 1.8698412698412699,
10332
+ "grad_norm": 0.8984375,
10333
+ "learning_rate": 4.038967622184088e-06,
10334
+ "loss": 1.0856,
10335
+ "step": 1474
10336
+ },
10337
+ {
10338
+ "epoch": 1.871111111111111,
10339
+ "grad_norm": 0.9453125,
10340
+ "learning_rate": 4.035402893528955e-06,
10341
+ "loss": 1.1338,
10342
+ "step": 1475
10343
+ },
10344
+ {
10345
+ "epoch": 1.8723809523809525,
10346
+ "grad_norm": 0.99609375,
10347
+ "learning_rate": 4.03183759608573e-06,
10348
+ "loss": 1.0468,
10349
+ "step": 1476
10350
+ },
10351
+ {
10352
+ "epoch": 1.8736507936507936,
10353
+ "grad_norm": 1.03125,
10354
+ "learning_rate": 4.0282717336420254e-06,
10355
+ "loss": 1.1713,
10356
+ "step": 1477
10357
+ },
10358
+ {
10359
+ "epoch": 1.8749206349206349,
10360
+ "grad_norm": 0.9765625,
10361
+ "learning_rate": 4.024705309986054e-06,
10362
+ "loss": 1.1247,
10363
+ "step": 1478
10364
+ },
10365
+ {
10366
+ "epoch": 1.8761904761904762,
10367
+ "grad_norm": 1.03125,
10368
+ "learning_rate": 4.021138328906626e-06,
10369
+ "loss": 1.0776,
10370
+ "step": 1479
10371
+ },
10372
+ {
10373
+ "epoch": 1.8774603174603175,
10374
+ "grad_norm": 0.98828125,
10375
+ "learning_rate": 4.017570794193141e-06,
10376
+ "loss": 1.0879,
10377
+ "step": 1480
10378
+ },
10379
+ {
10380
+ "epoch": 1.8787301587301588,
10381
+ "grad_norm": 0.9765625,
10382
+ "learning_rate": 4.014002709635589e-06,
10383
+ "loss": 1.13,
10384
+ "step": 1481
10385
+ },
10386
+ {
10387
+ "epoch": 1.88,
10388
+ "grad_norm": 1.0234375,
10389
+ "learning_rate": 4.010434079024543e-06,
10390
+ "loss": 1.1174,
10391
+ "step": 1482
10392
+ },
10393
+ {
10394
+ "epoch": 1.8812698412698414,
10395
+ "grad_norm": 0.953125,
10396
+ "learning_rate": 4.006864906151157e-06,
10397
+ "loss": 1.1313,
10398
+ "step": 1483
10399
+ },
10400
+ {
10401
+ "epoch": 1.8825396825396825,
10402
+ "grad_norm": 1.0,
10403
+ "learning_rate": 4.003295194807162e-06,
10404
+ "loss": 1.1686,
10405
+ "step": 1484
10406
+ },
10407
+ {
10408
+ "epoch": 1.8838095238095238,
10409
+ "grad_norm": 1.0234375,
10410
+ "learning_rate": 3.999724948784857e-06,
10411
+ "loss": 1.0579,
10412
+ "step": 1485
10413
+ },
10414
+ {
10415
+ "epoch": 1.8850793650793651,
10416
+ "grad_norm": 1.046875,
10417
+ "learning_rate": 3.996154171877113e-06,
10418
+ "loss": 1.1215,
10419
+ "step": 1486
10420
+ },
10421
+ {
10422
+ "epoch": 1.8863492063492062,
10423
+ "grad_norm": 1.0078125,
10424
+ "learning_rate": 3.992582867877363e-06,
10425
+ "loss": 1.1345,
10426
+ "step": 1487
10427
+ },
10428
+ {
10429
+ "epoch": 1.8876190476190478,
10430
+ "grad_norm": 0.95703125,
10431
+ "learning_rate": 3.989011040579602e-06,
10432
+ "loss": 1.0882,
10433
+ "step": 1488
10434
+ },
10435
+ {
10436
+ "epoch": 1.8888888888888888,
10437
+ "grad_norm": 1.1953125,
10438
+ "learning_rate": 3.98543869377838e-06,
10439
+ "loss": 1.1399,
10440
+ "step": 1489
10441
+ },
10442
+ {
10443
+ "epoch": 1.8901587301587301,
10444
+ "grad_norm": 1.0703125,
10445
+ "learning_rate": 3.981865831268797e-06,
10446
+ "loss": 1.1774,
10447
+ "step": 1490
10448
+ },
10449
+ {
10450
+ "epoch": 1.8914285714285715,
10451
+ "grad_norm": 0.97265625,
10452
+ "learning_rate": 3.978292456846502e-06,
10453
+ "loss": 1.1639,
10454
+ "step": 1491
10455
+ },
10456
+ {
10457
+ "epoch": 1.8926984126984125,
10458
+ "grad_norm": 0.99609375,
10459
+ "learning_rate": 3.974718574307689e-06,
10460
+ "loss": 1.1198,
10461
+ "step": 1492
10462
+ },
10463
+ {
10464
+ "epoch": 1.893968253968254,
10465
+ "grad_norm": 1.1171875,
10466
+ "learning_rate": 3.971144187449093e-06,
10467
+ "loss": 1.0223,
10468
+ "step": 1493
10469
+ },
10470
+ {
10471
+ "epoch": 1.8952380952380952,
10472
+ "grad_norm": 1.203125,
10473
+ "learning_rate": 3.967569300067979e-06,
10474
+ "loss": 1.1347,
10475
+ "step": 1494
10476
+ },
10477
+ {
10478
+ "epoch": 1.8965079365079365,
10479
+ "grad_norm": 1.1953125,
10480
+ "learning_rate": 3.96399391596215e-06,
10481
+ "loss": 1.1409,
10482
+ "step": 1495
10483
+ },
10484
+ {
10485
+ "epoch": 1.8977777777777778,
10486
+ "grad_norm": 0.9453125,
10487
+ "learning_rate": 3.960418038929933e-06,
10488
+ "loss": 1.0625,
10489
+ "step": 1496
10490
+ },
10491
+ {
10492
+ "epoch": 1.899047619047619,
10493
+ "grad_norm": 0.98828125,
10494
+ "learning_rate": 3.956841672770181e-06,
10495
+ "loss": 1.0833,
10496
+ "step": 1497
10497
+ },
10498
+ {
10499
+ "epoch": 1.9003174603174604,
10500
+ "grad_norm": 1.1015625,
10501
+ "learning_rate": 3.953264821282264e-06,
10502
+ "loss": 1.182,
10503
+ "step": 1498
10504
+ },
10505
+ {
10506
+ "epoch": 1.9015873015873015,
10507
+ "grad_norm": 1.0390625,
10508
+ "learning_rate": 3.949687488266071e-06,
10509
+ "loss": 1.1809,
10510
+ "step": 1499
10511
+ },
10512
+ {
10513
+ "epoch": 1.9028571428571428,
10514
+ "grad_norm": 1.1640625,
10515
+ "learning_rate": 3.946109677521999e-06,
10516
+ "loss": 1.2017,
10517
+ "step": 1500
10518
+ },
10519
+ {
10520
+ "epoch": 1.9041269841269841,
10521
+ "grad_norm": 1.0234375,
10522
+ "learning_rate": 3.942531392850953e-06,
10523
+ "loss": 1.1001,
10524
+ "step": 1501
10525
+ },
10526
+ {
10527
+ "epoch": 1.9053968253968254,
10528
+ "grad_norm": 0.9921875,
10529
+ "learning_rate": 3.938952638054347e-06,
10530
+ "loss": 1.1442,
10531
+ "step": 1502
10532
+ },
10533
+ {
10534
+ "epoch": 1.9066666666666667,
10535
+ "grad_norm": 0.9609375,
10536
+ "learning_rate": 3.935373416934086e-06,
10537
+ "loss": 1.1296,
10538
+ "step": 1503
10539
+ },
10540
+ {
10541
+ "epoch": 1.9079365079365078,
10542
+ "grad_norm": 1.15625,
10543
+ "learning_rate": 3.931793733292575e-06,
10544
+ "loss": 1.1029,
10545
+ "step": 1504
10546
+ },
10547
+ {
10548
+ "epoch": 1.9092063492063494,
10549
+ "grad_norm": 1.0859375,
10550
+ "learning_rate": 3.928213590932712e-06,
10551
+ "loss": 1.1349,
10552
+ "step": 1505
10553
+ },
10554
+ {
10555
+ "epoch": 1.9104761904761904,
10556
+ "grad_norm": 1.0234375,
10557
+ "learning_rate": 3.924632993657879e-06,
10558
+ "loss": 1.0712,
10559
+ "step": 1506
10560
+ },
10561
+ {
10562
+ "epoch": 1.9117460317460317,
10563
+ "grad_norm": 0.94921875,
10564
+ "learning_rate": 3.921051945271941e-06,
10565
+ "loss": 1.074,
10566
+ "step": 1507
10567
+ },
10568
+ {
10569
+ "epoch": 1.913015873015873,
10570
+ "grad_norm": 1.0546875,
10571
+ "learning_rate": 3.917470449579244e-06,
10572
+ "loss": 1.1432,
10573
+ "step": 1508
10574
+ },
10575
+ {
10576
+ "epoch": 1.9142857142857141,
10577
+ "grad_norm": 1.1640625,
10578
+ "learning_rate": 3.913888510384612e-06,
10579
+ "loss": 1.1314,
10580
+ "step": 1509
10581
+ },
10582
+ {
10583
+ "epoch": 1.9155555555555557,
10584
+ "grad_norm": 1.25,
10585
+ "learning_rate": 3.910306131493335e-06,
10586
+ "loss": 1.0772,
10587
+ "step": 1510
10588
+ },
10589
+ {
10590
+ "epoch": 1.9168253968253968,
10591
+ "grad_norm": 1.0859375,
10592
+ "learning_rate": 3.90672331671117e-06,
10593
+ "loss": 1.1526,
10594
+ "step": 1511
10595
+ },
10596
+ {
10597
+ "epoch": 1.918095238095238,
10598
+ "grad_norm": 0.9296875,
10599
+ "learning_rate": 3.9031400698443414e-06,
10600
+ "loss": 1.0993,
10601
+ "step": 1512
10602
+ },
10603
+ {
10604
+ "epoch": 1.9193650793650794,
10605
+ "grad_norm": 1.0703125,
10606
+ "learning_rate": 3.8995563946995305e-06,
10607
+ "loss": 1.0668,
10608
+ "step": 1513
10609
+ },
10610
+ {
10611
+ "epoch": 1.9206349206349205,
10612
+ "grad_norm": 1.296875,
10613
+ "learning_rate": 3.8959722950838745e-06,
10614
+ "loss": 1.1875,
10615
+ "step": 1514
10616
+ },
10617
+ {
10618
+ "epoch": 1.921904761904762,
10619
+ "grad_norm": 1.25,
10620
+ "learning_rate": 3.8923877748049575e-06,
10621
+ "loss": 1.1899,
10622
+ "step": 1515
10623
+ },
10624
+ {
10625
+ "epoch": 1.923174603174603,
10626
+ "grad_norm": 0.93359375,
10627
+ "learning_rate": 3.888802837670816e-06,
10628
+ "loss": 1.1052,
10629
+ "step": 1516
10630
+ },
10631
+ {
10632
+ "epoch": 1.9244444444444444,
10633
+ "grad_norm": 0.890625,
10634
+ "learning_rate": 3.885217487489926e-06,
10635
+ "loss": 1.0402,
10636
+ "step": 1517
10637
+ },
10638
+ {
10639
+ "epoch": 1.9257142857142857,
10640
+ "grad_norm": 1.0078125,
10641
+ "learning_rate": 3.8816317280712026e-06,
10642
+ "loss": 1.0479,
10643
+ "step": 1518
10644
+ },
10645
+ {
10646
+ "epoch": 1.926984126984127,
10647
+ "grad_norm": 1.0078125,
10648
+ "learning_rate": 3.878045563223999e-06,
10649
+ "loss": 1.1563,
10650
+ "step": 1519
10651
+ },
10652
+ {
10653
+ "epoch": 1.9282539682539683,
10654
+ "grad_norm": 1.078125,
10655
+ "learning_rate": 3.8744589967580935e-06,
10656
+ "loss": 1.1338,
10657
+ "step": 1520
10658
+ },
10659
+ {
10660
+ "epoch": 1.9295238095238094,
10661
+ "grad_norm": 0.95703125,
10662
+ "learning_rate": 3.870872032483695e-06,
10663
+ "loss": 1.0558,
10664
+ "step": 1521
10665
+ },
10666
+ {
10667
+ "epoch": 1.930793650793651,
10668
+ "grad_norm": 1.0390625,
10669
+ "learning_rate": 3.8672846742114325e-06,
10670
+ "loss": 1.0867,
10671
+ "step": 1522
10672
+ },
10673
+ {
10674
+ "epoch": 1.932063492063492,
10675
+ "grad_norm": 0.90625,
10676
+ "learning_rate": 3.863696925752357e-06,
10677
+ "loss": 1.1178,
10678
+ "step": 1523
10679
+ },
10680
+ {
10681
+ "epoch": 1.9333333333333333,
10682
+ "grad_norm": 1.078125,
10683
+ "learning_rate": 3.860108790917931e-06,
10684
+ "loss": 1.1162,
10685
+ "step": 1524
10686
+ },
10687
+ {
10688
+ "epoch": 1.9346031746031747,
10689
+ "grad_norm": 1.0234375,
10690
+ "learning_rate": 3.85652027352003e-06,
10691
+ "loss": 1.1278,
10692
+ "step": 1525
10693
+ },
10694
+ {
10695
+ "epoch": 1.9358730158730157,
10696
+ "grad_norm": 0.98046875,
10697
+ "learning_rate": 3.8529313773709324e-06,
10698
+ "loss": 1.0379,
10699
+ "step": 1526
10700
+ },
10701
+ {
10702
+ "epoch": 1.9371428571428573,
10703
+ "grad_norm": 0.9921875,
10704
+ "learning_rate": 3.849342106283322e-06,
10705
+ "loss": 1.0832,
10706
+ "step": 1527
10707
+ },
10708
+ {
10709
+ "epoch": 1.9384126984126984,
10710
+ "grad_norm": 0.97265625,
10711
+ "learning_rate": 3.84575246407028e-06,
10712
+ "loss": 1.153,
10713
+ "step": 1528
10714
+ },
10715
+ {
10716
+ "epoch": 1.9396825396825397,
10717
+ "grad_norm": 1.0078125,
10718
+ "learning_rate": 3.8421624545452815e-06,
10719
+ "loss": 1.1135,
10720
+ "step": 1529
10721
+ },
10722
+ {
10723
+ "epoch": 1.940952380952381,
10724
+ "grad_norm": 0.984375,
10725
+ "learning_rate": 3.838572081522191e-06,
10726
+ "loss": 1.029,
10727
+ "step": 1530
10728
+ },
10729
+ {
10730
+ "epoch": 1.942222222222222,
10731
+ "grad_norm": 1.0625,
10732
+ "learning_rate": 3.834981348815262e-06,
10733
+ "loss": 1.0614,
10734
+ "step": 1531
10735
+ },
10736
+ {
10737
+ "epoch": 1.9434920634920636,
10738
+ "grad_norm": 1.140625,
10739
+ "learning_rate": 3.831390260239128e-06,
10740
+ "loss": 1.1094,
10741
+ "step": 1532
10742
+ },
10743
+ {
10744
+ "epoch": 1.9447619047619047,
10745
+ "grad_norm": 0.9375,
10746
+ "learning_rate": 3.8277988196088e-06,
10747
+ "loss": 1.0785,
10748
+ "step": 1533
10749
+ },
10750
+ {
10751
+ "epoch": 1.946031746031746,
10752
+ "grad_norm": 0.95703125,
10753
+ "learning_rate": 3.824207030739665e-06,
10754
+ "loss": 1.0686,
10755
+ "step": 1534
10756
+ },
10757
+ {
10758
+ "epoch": 1.9473015873015873,
10759
+ "grad_norm": 1.0390625,
10760
+ "learning_rate": 3.820614897447478e-06,
10761
+ "loss": 1.065,
10762
+ "step": 1535
10763
+ },
10764
+ {
10765
+ "epoch": 1.9485714285714286,
10766
+ "grad_norm": 0.95703125,
10767
+ "learning_rate": 3.81702242354836e-06,
10768
+ "loss": 1.0723,
10769
+ "step": 1536
10770
+ },
10771
+ {
10772
+ "epoch": 1.94984126984127,
10773
+ "grad_norm": 1.0,
10774
+ "learning_rate": 3.813429612858798e-06,
10775
+ "loss": 1.1189,
10776
+ "step": 1537
10777
+ },
10778
+ {
10779
+ "epoch": 1.951111111111111,
10780
+ "grad_norm": 0.96484375,
10781
+ "learning_rate": 3.809836469195631e-06,
10782
+ "loss": 1.0674,
10783
+ "step": 1538
10784
+ },
10785
+ {
10786
+ "epoch": 1.9523809523809523,
10787
+ "grad_norm": 0.9375,
10788
+ "learning_rate": 3.806242996376052e-06,
10789
+ "loss": 1.0869,
10790
+ "step": 1539
10791
+ },
10792
+ {
10793
+ "epoch": 1.9536507936507936,
10794
+ "grad_norm": 1.0,
10795
+ "learning_rate": 3.8026491982176097e-06,
10796
+ "loss": 1.1377,
10797
+ "step": 1540
10798
+ },
10799
+ {
10800
+ "epoch": 1.954920634920635,
10801
+ "grad_norm": 1.03125,
10802
+ "learning_rate": 3.799055078538194e-06,
10803
+ "loss": 1.1337,
10804
+ "step": 1541
10805
+ },
10806
+ {
10807
+ "epoch": 1.9561904761904763,
10808
+ "grad_norm": 0.98828125,
10809
+ "learning_rate": 3.7954606411560347e-06,
10810
+ "loss": 1.1662,
10811
+ "step": 1542
10812
+ },
10813
+ {
10814
+ "epoch": 1.9574603174603173,
10815
+ "grad_norm": 0.9375,
10816
+ "learning_rate": 3.791865889889702e-06,
10817
+ "loss": 1.0977,
10818
+ "step": 1543
10819
+ },
10820
+ {
10821
+ "epoch": 1.9587301587301589,
10822
+ "grad_norm": 0.9375,
10823
+ "learning_rate": 3.788270828558101e-06,
10824
+ "loss": 1.0802,
10825
+ "step": 1544
10826
+ },
10827
+ {
10828
+ "epoch": 1.96,
10829
+ "grad_norm": 0.953125,
10830
+ "learning_rate": 3.784675460980462e-06,
10831
+ "loss": 1.0882,
10832
+ "step": 1545
10833
+ },
10834
+ {
10835
+ "epoch": 1.9612698412698413,
10836
+ "grad_norm": 1.0,
10837
+ "learning_rate": 3.781079790976344e-06,
10838
+ "loss": 1.0936,
10839
+ "step": 1546
10840
+ },
10841
+ {
10842
+ "epoch": 1.9625396825396826,
10843
+ "grad_norm": 0.9609375,
10844
+ "learning_rate": 3.777483822365624e-06,
10845
+ "loss": 1.0968,
10846
+ "step": 1547
10847
+ },
10848
+ {
10849
+ "epoch": 1.9638095238095237,
10850
+ "grad_norm": 0.97265625,
10851
+ "learning_rate": 3.7738875589685004e-06,
10852
+ "loss": 1.1422,
10853
+ "step": 1548
10854
+ },
10855
+ {
10856
+ "epoch": 1.9650793650793652,
10857
+ "grad_norm": 1.0078125,
10858
+ "learning_rate": 3.7702910046054817e-06,
10859
+ "loss": 1.0776,
10860
+ "step": 1549
10861
+ },
10862
+ {
10863
+ "epoch": 1.9663492063492063,
10864
+ "grad_norm": 0.96875,
10865
+ "learning_rate": 3.766694163097386e-06,
10866
+ "loss": 1.1129,
10867
+ "step": 1550
10868
+ },
10869
+ {
10870
+ "epoch": 1.9676190476190476,
10871
+ "grad_norm": 0.98828125,
10872
+ "learning_rate": 3.7630970382653382e-06,
10873
+ "loss": 1.1185,
10874
+ "step": 1551
10875
+ },
10876
+ {
10877
+ "epoch": 1.968888888888889,
10878
+ "grad_norm": 1.0546875,
10879
+ "learning_rate": 3.7594996339307617e-06,
10880
+ "loss": 1.1754,
10881
+ "step": 1552
10882
+ },
10883
+ {
10884
+ "epoch": 1.97015873015873,
10885
+ "grad_norm": 0.921875,
10886
+ "learning_rate": 3.7559019539153776e-06,
10887
+ "loss": 1.1038,
10888
+ "step": 1553
10889
+ },
10890
+ {
10891
+ "epoch": 1.9714285714285715,
10892
+ "grad_norm": 1.0,
10893
+ "learning_rate": 3.752304002041203e-06,
10894
+ "loss": 1.103,
10895
+ "step": 1554
10896
+ },
10897
+ {
10898
+ "epoch": 1.9726984126984126,
10899
+ "grad_norm": 0.94140625,
10900
+ "learning_rate": 3.748705782130538e-06,
10901
+ "loss": 1.0537,
10902
+ "step": 1555
10903
+ },
10904
+ {
10905
+ "epoch": 1.973968253968254,
10906
+ "grad_norm": 0.92578125,
10907
+ "learning_rate": 3.7451072980059715e-06,
10908
+ "loss": 1.1092,
10909
+ "step": 1556
10910
+ },
10911
+ {
10912
+ "epoch": 1.9752380952380952,
10913
+ "grad_norm": 0.91796875,
10914
+ "learning_rate": 3.7415085534903725e-06,
10915
+ "loss": 1.0675,
10916
+ "step": 1557
10917
+ },
10918
+ {
10919
+ "epoch": 1.9765079365079365,
10920
+ "grad_norm": 1.0546875,
10921
+ "learning_rate": 3.737909552406886e-06,
10922
+ "loss": 1.0737,
10923
+ "step": 1558
10924
+ },
10925
+ {
10926
+ "epoch": 1.9777777777777779,
10927
+ "grad_norm": 0.89453125,
10928
+ "learning_rate": 3.73431029857893e-06,
10929
+ "loss": 1.1477,
10930
+ "step": 1559
10931
+ },
10932
+ {
10933
+ "epoch": 1.979047619047619,
10934
+ "grad_norm": 1.015625,
10935
+ "learning_rate": 3.7307107958301905e-06,
10936
+ "loss": 1.1316,
10937
+ "step": 1560
10938
+ },
10939
+ {
10940
+ "epoch": 1.9803174603174605,
10941
+ "grad_norm": 0.98046875,
10942
+ "learning_rate": 3.727111047984618e-06,
10943
+ "loss": 1.1262,
10944
+ "step": 1561
10945
+ },
10946
+ {
10947
+ "epoch": 1.9815873015873016,
10948
+ "grad_norm": 1.078125,
10949
+ "learning_rate": 3.723511058866424e-06,
10950
+ "loss": 1.14,
10951
+ "step": 1562
10952
+ },
10953
+ {
10954
+ "epoch": 1.9828571428571429,
10955
+ "grad_norm": 1.0625,
10956
+ "learning_rate": 3.7199108323000767e-06,
10957
+ "loss": 1.1392,
10958
+ "step": 1563
10959
+ },
10960
+ {
10961
+ "epoch": 1.9841269841269842,
10962
+ "grad_norm": 0.984375,
10963
+ "learning_rate": 3.716310372110295e-06,
10964
+ "loss": 1.096,
10965
+ "step": 1564
10966
+ },
10967
+ {
10968
+ "epoch": 1.9853968253968253,
10969
+ "grad_norm": 0.96875,
10970
+ "learning_rate": 3.7127096821220467e-06,
10971
+ "loss": 1.0792,
10972
+ "step": 1565
10973
+ },
10974
+ {
10975
+ "epoch": 1.9866666666666668,
10976
+ "grad_norm": 1.0,
10977
+ "learning_rate": 3.7091087661605437e-06,
10978
+ "loss": 1.1489,
10979
+ "step": 1566
10980
+ },
10981
+ {
10982
+ "epoch": 1.987936507936508,
10983
+ "grad_norm": 0.9921875,
10984
+ "learning_rate": 3.7055076280512384e-06,
10985
+ "loss": 1.14,
10986
+ "step": 1567
10987
+ },
10988
+ {
10989
+ "epoch": 1.9892063492063492,
10990
+ "grad_norm": 1.0390625,
10991
+ "learning_rate": 3.701906271619819e-06,
10992
+ "loss": 1.1288,
10993
+ "step": 1568
10994
+ },
10995
+ {
10996
+ "epoch": 1.9904761904761905,
10997
+ "grad_norm": 0.98828125,
10998
+ "learning_rate": 3.6983047006922063e-06,
10999
+ "loss": 1.0907,
11000
+ "step": 1569
11001
+ },
11002
+ {
11003
+ "epoch": 1.9917460317460316,
11004
+ "grad_norm": 0.91015625,
11005
+ "learning_rate": 3.694702919094546e-06,
11006
+ "loss": 1.1328,
11007
+ "step": 1570
11008
+ },
11009
+ {
11010
+ "epoch": 1.9930158730158731,
11011
+ "grad_norm": 0.9765625,
11012
+ "learning_rate": 3.691100930653212e-06,
11013
+ "loss": 1.1367,
11014
+ "step": 1571
11015
+ },
11016
+ {
11017
+ "epoch": 1.9942857142857142,
11018
+ "grad_norm": 1.0859375,
11019
+ "learning_rate": 3.6874987391947947e-06,
11020
+ "loss": 1.043,
11021
+ "step": 1572
11022
+ },
11023
+ {
11024
+ "epoch": 1.9955555555555555,
11025
+ "grad_norm": 1.015625,
11026
+ "learning_rate": 3.683896348546102e-06,
11027
+ "loss": 1.1243,
11028
+ "step": 1573
11029
+ },
11030
+ {
11031
+ "epoch": 1.9968253968253968,
11032
+ "grad_norm": 1.0234375,
11033
+ "learning_rate": 3.6802937625341506e-06,
11034
+ "loss": 1.1258,
11035
+ "step": 1574
11036
+ },
11037
+ {
11038
+ "epoch": 1.9980952380952381,
11039
+ "grad_norm": 0.97265625,
11040
+ "learning_rate": 3.676690984986169e-06,
11041
+ "loss": 1.164,
11042
+ "step": 1575
11043
+ },
11044
+ {
11045
+ "epoch": 1.9993650793650795,
11046
+ "grad_norm": 1.0390625,
11047
+ "learning_rate": 3.673088019729587e-06,
11048
+ "loss": 1.1386,
11049
+ "step": 1576
11050
  }
11051
  ],
11052
  "logging_steps": 1,
 
11066
  "attributes": {}
11067
  }
11068
  },
11069
+ "total_flos": 3.491386209651917e+18,
11070
  "train_batch_size": 2,
11071
  "trial_name": null,
11072
  "trial_params": null