Vivaan21 commited on
Commit
659cc96
1 Parent(s): bc20a0b

Training in progress, step 50, checkpoint

Browse files
last-checkpoint/README.md CHANGED
@@ -1,6 +1,6 @@
1
  ---
2
  library_name: peft
3
- base_model: alexsherstinsky/Mistral-7B-v0.1-sharded
4
  ---
5
 
6
  # Model Card for Model ID
 
1
  ---
2
  library_name: peft
3
+ base_model: filipealmeida/Mistral-7B-Instruct-v0.1-sharded
4
  ---
5
 
6
  # Model Card for Model ID
last-checkpoint/adapter_config.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "alpha_pattern": {},
3
  "auto_mapping": null,
4
- "base_model_name_or_path": "alexsherstinsky/Mistral-7B-v0.1-sharded",
5
  "bias": "none",
6
  "fan_in_fan_out": false,
7
  "inference_mode": true,
@@ -20,13 +20,13 @@
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
- "q_proj",
24
- "gate_proj",
25
- "up_proj",
26
- "o_proj",
27
- "down_proj",
28
  "k_proj",
29
- "v_proj"
 
 
 
 
 
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
 
1
  {
2
  "alpha_pattern": {},
3
  "auto_mapping": null,
4
+ "base_model_name_or_path": "filipealmeida/Mistral-7B-Instruct-v0.1-sharded",
5
  "bias": "none",
6
  "fan_in_fan_out": false,
7
  "inference_mode": true,
 
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
 
 
 
 
 
23
  "k_proj",
24
+ "o_proj",
25
+ "v_proj",
26
+ "up_proj",
27
+ "gate_proj",
28
+ "q_proj",
29
+ "down_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1fc6f53f78bd8b43d4fdd6203eea228b89312ea173c3cf9af66924ac322c2a18
3
  size 42002584
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d8fe614289c2412531512505e9404e1f7106803e1f25f49ca7e30bea94f296c
3
  size 42002584
last-checkpoint/global_step50/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:72f56582a1543996046e5f08a23017fc4cf300f72ec2f806e0e9187834c04390
3
  size 251710672
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b537c664f1a19df5c54f3852872cf2763950b7509ab9a2a796418fda9cd8370
3
  size 251710672
last-checkpoint/global_step50/mp_rank_00_model_states.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1a0f522ad56a8fd99f7087ab3d4067072ddcf9bee87a31166e48f08109c5d86
3
- size 153726841
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e120851d4c12110d7b6685111d290a3eca213db7bff0520d75a1aac3f16d814
3
+ size 153726649
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step100
 
1
+ global_step50
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6083b63ed272d04027047a9757474c4ad6a6a0c32cfe99d060023e5a6ec919c9
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b5815cfe0a312f88454f2cd698ee65c6bbb0eadab8665cc149e714a36be932a
3
  size 14244
last-checkpoint/trainer_state.json CHANGED
@@ -1,712 +1,362 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.6116207951070336,
5
  "eval_steps": 1000,
6
- "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.0061162079510703364,
13
- "grad_norm": 14.838244438171387,
14
  "learning_rate": 0.0,
15
- "loss": 3.3874,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.012232415902140673,
20
- "grad_norm": 9.148641586303711,
21
  "learning_rate": 8.613531161467861e-05,
22
- "loss": 3.3261,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.01834862385321101,
27
- "grad_norm": 11.121794700622559,
28
  "learning_rate": 0.00013652123889719707,
29
- "loss": 3.5395,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.024464831804281346,
34
- "grad_norm": 15.398090362548828,
35
  "learning_rate": 0.00017227062322935723,
36
- "loss": 2.7237,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.03058103975535168,
41
- "grad_norm": 12.812384605407715,
42
  "learning_rate": 0.0002,
43
- "loss": 2.5766,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.03669724770642202,
48
- "grad_norm": 13.770212173461914,
49
  "learning_rate": 0.0002,
50
- "loss": 2.9812,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.04281345565749235,
55
- "grad_norm": 9.31240177154541,
56
  "learning_rate": 0.0001979166666666667,
57
- "loss": 2.2007,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.04892966360856269,
62
- "grad_norm": 8.453168869018555,
63
  "learning_rate": 0.00019583333333333334,
64
- "loss": 3.0672,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.05504587155963303,
69
- "grad_norm": 6.629086971282959,
70
  "learning_rate": 0.00019375000000000002,
71
- "loss": 2.3837,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.06116207951070336,
76
- "grad_norm": 8.609308242797852,
77
  "learning_rate": 0.00019166666666666667,
78
- "loss": 2.8275,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.0672782874617737,
83
- "grad_norm": 8.45747184753418,
84
  "learning_rate": 0.00018958333333333332,
85
- "loss": 2.7901,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.07339449541284404,
90
- "grad_norm": 7.778749942779541,
91
  "learning_rate": 0.0001875,
92
- "loss": 2.1263,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.07951070336391437,
97
- "grad_norm": 9.23363208770752,
98
  "learning_rate": 0.00018541666666666668,
99
- "loss": 2.7385,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.0856269113149847,
104
- "grad_norm": 10.394725799560547,
105
  "learning_rate": 0.00018333333333333334,
106
- "loss": 1.9376,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.09174311926605505,
111
- "grad_norm": 8.084063529968262,
112
  "learning_rate": 0.00018125000000000001,
113
- "loss": 2.5122,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.09785932721712538,
118
- "grad_norm": 7.217422008514404,
119
  "learning_rate": 0.0001791666666666667,
120
- "loss": 1.8823,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.10397553516819572,
125
- "grad_norm": 10.879976272583008,
126
  "learning_rate": 0.00017708333333333335,
127
- "loss": 2.3302,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.11009174311926606,
132
- "grad_norm": 9.06281566619873,
133
  "learning_rate": 0.000175,
134
- "loss": 2.0973,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.1162079510703364,
139
- "grad_norm": 9.083320617675781,
140
  "learning_rate": 0.00017291666666666668,
141
- "loss": 2.5653,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.12232415902140673,
146
- "grad_norm": 12.028092384338379,
147
  "learning_rate": 0.00017083333333333333,
148
- "loss": 2.1673,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.12844036697247707,
153
- "grad_norm": 8.217774391174316,
154
  "learning_rate": 0.00016875,
155
- "loss": 2.9435,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.1345565749235474,
160
- "grad_norm": 7.708691596984863,
161
  "learning_rate": 0.0001666666666666667,
162
- "loss": 2.5439,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.14067278287461774,
167
- "grad_norm": 9.682010650634766,
168
  "learning_rate": 0.00016458333333333334,
169
- "loss": 2.5956,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.14678899082568808,
174
- "grad_norm": 8.222599029541016,
175
  "learning_rate": 0.00016250000000000002,
176
- "loss": 1.9396,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.1529051987767584,
181
- "grad_norm": 5.596776008605957,
182
  "learning_rate": 0.00016041666666666667,
183
- "loss": 1.6316,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.15902140672782875,
188
- "grad_norm": 7.1853766441345215,
189
  "learning_rate": 0.00015833333333333332,
190
- "loss": 2.2344,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.1651376146788991,
195
- "grad_norm": 8.985827445983887,
196
  "learning_rate": 0.00015625,
197
- "loss": 1.8781,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.1712538226299694,
202
- "grad_norm": 7.93477201461792,
203
  "learning_rate": 0.00015416666666666668,
204
- "loss": 2.6036,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.17737003058103976,
209
- "grad_norm": 6.477381229400635,
210
  "learning_rate": 0.00015208333333333333,
211
- "loss": 2.4767,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.1834862385321101,
216
- "grad_norm": 6.518289566040039,
217
  "learning_rate": 0.00015000000000000001,
218
- "loss": 2.4941,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.18960244648318042,
223
- "grad_norm": 5.40209436416626,
224
  "learning_rate": 0.0001479166666666667,
225
- "loss": 0.7781,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.19571865443425077,
230
- "grad_norm": 10.794727325439453,
231
  "learning_rate": 0.00014583333333333335,
232
- "loss": 1.9824,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.2018348623853211,
237
- "grad_norm": 7.486544609069824,
238
  "learning_rate": 0.00014375,
239
- "loss": 2.679,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.20795107033639143,
244
- "grad_norm": 6.3984832763671875,
245
  "learning_rate": 0.00014166666666666668,
246
- "loss": 1.1488,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.21406727828746178,
251
- "grad_norm": 4.752143859863281,
252
  "learning_rate": 0.00013958333333333333,
253
- "loss": 0.2673,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.22018348623853212,
258
- "grad_norm": 7.158022403717041,
259
  "learning_rate": 0.0001375,
260
- "loss": 2.448,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.22629969418960244,
265
- "grad_norm": 8.356815338134766,
266
  "learning_rate": 0.0001354166666666667,
267
- "loss": 2.293,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.2324159021406728,
272
- "grad_norm": 6.427772521972656,
273
  "learning_rate": 0.00013333333333333334,
274
- "loss": 2.0871,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.23853211009174313,
279
- "grad_norm": 8.426436424255371,
280
  "learning_rate": 0.00013125000000000002,
281
- "loss": 2.6529,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.24464831804281345,
286
- "grad_norm": 6.148336887359619,
287
  "learning_rate": 0.00012916666666666667,
288
- "loss": 1.0728,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.25076452599388377,
293
- "grad_norm": 7.108105182647705,
294
  "learning_rate": 0.00012708333333333332,
295
- "loss": 2.3828,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.25688073394495414,
300
- "grad_norm": 7.101551055908203,
301
  "learning_rate": 0.000125,
302
- "loss": 1.5256,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.26299694189602446,
307
- "grad_norm": 5.024567127227783,
308
  "learning_rate": 0.00012291666666666668,
309
- "loss": 1.165,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.2691131498470948,
314
- "grad_norm": 5.79965877532959,
315
  "learning_rate": 0.00012083333333333333,
316
- "loss": 2.6776,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.27522935779816515,
321
- "grad_norm": 14.309733390808105,
322
  "learning_rate": 0.00011875,
323
- "loss": 2.7559,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.28134556574923547,
328
- "grad_norm": 10.46374797821045,
329
  "learning_rate": 0.00011666666666666668,
330
- "loss": 2.9232,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.2874617737003058,
335
- "grad_norm": 3.6996495723724365,
336
  "learning_rate": 0.00011458333333333333,
337
- "loss": 0.654,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.29357798165137616,
342
- "grad_norm": 5.34403657913208,
343
  "learning_rate": 0.00011250000000000001,
344
- "loss": 1.4462,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.2996941896024465,
349
- "grad_norm": 5.660646438598633,
350
  "learning_rate": 0.00011041666666666668,
351
- "loss": 2.1049,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.3058103975535168,
356
- "grad_norm": 5.277816295623779,
357
  "learning_rate": 0.00010833333333333333,
358
- "loss": 1.859,
359
  "step": 50
360
- },
361
- {
362
- "epoch": 0.3119266055045872,
363
- "grad_norm": 12.085375785827637,
364
- "learning_rate": 0.00010625000000000001,
365
- "loss": 2.4971,
366
- "step": 51
367
- },
368
- {
369
- "epoch": 0.3180428134556575,
370
- "grad_norm": 36.70216369628906,
371
- "learning_rate": 0.00010416666666666667,
372
- "loss": 1.453,
373
- "step": 52
374
- },
375
- {
376
- "epoch": 0.3241590214067278,
377
- "grad_norm": 9.104554176330566,
378
- "learning_rate": 0.00010208333333333333,
379
- "loss": 1.2099,
380
- "step": 53
381
- },
382
- {
383
- "epoch": 0.3302752293577982,
384
- "grad_norm": 3.353121519088745,
385
- "learning_rate": 0.0001,
386
- "loss": 1.1208,
387
- "step": 54
388
- },
389
- {
390
- "epoch": 0.3363914373088685,
391
- "grad_norm": 4.4271321296691895,
392
- "learning_rate": 9.791666666666667e-05,
393
- "loss": 1.6242,
394
- "step": 55
395
- },
396
- {
397
- "epoch": 0.3425076452599388,
398
- "grad_norm": 4.316502094268799,
399
- "learning_rate": 9.583333333333334e-05,
400
- "loss": 1.1728,
401
- "step": 56
402
- },
403
- {
404
- "epoch": 0.3486238532110092,
405
- "grad_norm": 5.144441604614258,
406
- "learning_rate": 9.375e-05,
407
- "loss": 1.5162,
408
- "step": 57
409
- },
410
- {
411
- "epoch": 0.3547400611620795,
412
- "grad_norm": 5.84799861907959,
413
- "learning_rate": 9.166666666666667e-05,
414
- "loss": 1.2519,
415
- "step": 58
416
- },
417
- {
418
- "epoch": 0.36085626911314983,
419
- "grad_norm": 3.7365472316741943,
420
- "learning_rate": 8.958333333333335e-05,
421
- "loss": 1.4019,
422
- "step": 59
423
- },
424
- {
425
- "epoch": 0.3669724770642202,
426
- "grad_norm": 6.954157829284668,
427
- "learning_rate": 8.75e-05,
428
- "loss": 1.5813,
429
- "step": 60
430
- },
431
- {
432
- "epoch": 0.3730886850152905,
433
- "grad_norm": 5.947561740875244,
434
- "learning_rate": 8.541666666666666e-05,
435
- "loss": 1.6671,
436
- "step": 61
437
- },
438
- {
439
- "epoch": 0.37920489296636084,
440
- "grad_norm": 6.023102760314941,
441
- "learning_rate": 8.333333333333334e-05,
442
- "loss": 2.037,
443
- "step": 62
444
- },
445
- {
446
- "epoch": 0.3853211009174312,
447
- "grad_norm": 7.492596626281738,
448
- "learning_rate": 8.125000000000001e-05,
449
- "loss": 2.2622,
450
- "step": 63
451
- },
452
- {
453
- "epoch": 0.39143730886850153,
454
- "grad_norm": 11.097272872924805,
455
- "learning_rate": 7.916666666666666e-05,
456
- "loss": 2.3523,
457
- "step": 64
458
- },
459
- {
460
- "epoch": 0.39755351681957185,
461
- "grad_norm": 2.4827420711517334,
462
- "learning_rate": 7.708333333333334e-05,
463
- "loss": 0.1638,
464
- "step": 65
465
- },
466
- {
467
- "epoch": 0.4036697247706422,
468
- "grad_norm": 5.089619159698486,
469
- "learning_rate": 7.500000000000001e-05,
470
- "loss": 1.1545,
471
- "step": 66
472
- },
473
- {
474
- "epoch": 0.40978593272171254,
475
- "grad_norm": 6.669894695281982,
476
- "learning_rate": 7.291666666666667e-05,
477
- "loss": 2.2006,
478
- "step": 67
479
- },
480
- {
481
- "epoch": 0.41590214067278286,
482
- "grad_norm": 5.763303756713867,
483
- "learning_rate": 7.083333333333334e-05,
484
- "loss": 1.9015,
485
- "step": 68
486
- },
487
- {
488
- "epoch": 0.42201834862385323,
489
- "grad_norm": 9.203344345092773,
490
- "learning_rate": 6.875e-05,
491
- "loss": 1.6318,
492
- "step": 69
493
- },
494
- {
495
- "epoch": 0.42813455657492355,
496
- "grad_norm": 6.153674125671387,
497
- "learning_rate": 6.666666666666667e-05,
498
- "loss": 1.7112,
499
- "step": 70
500
- },
501
- {
502
- "epoch": 0.43425076452599387,
503
- "grad_norm": 5.289427280426025,
504
- "learning_rate": 6.458333333333334e-05,
505
- "loss": 1.0532,
506
- "step": 71
507
- },
508
- {
509
- "epoch": 0.44036697247706424,
510
- "grad_norm": 6.576167106628418,
511
- "learning_rate": 6.25e-05,
512
- "loss": 2.1147,
513
- "step": 72
514
- },
515
- {
516
- "epoch": 0.44648318042813456,
517
- "grad_norm": 4.89756441116333,
518
- "learning_rate": 6.041666666666667e-05,
519
- "loss": 1.7952,
520
- "step": 73
521
- },
522
- {
523
- "epoch": 0.4525993883792049,
524
- "grad_norm": 7.197701930999756,
525
- "learning_rate": 5.833333333333334e-05,
526
- "loss": 2.5495,
527
- "step": 74
528
- },
529
- {
530
- "epoch": 0.45871559633027525,
531
- "grad_norm": 2.697310447692871,
532
- "learning_rate": 5.6250000000000005e-05,
533
- "loss": 0.5726,
534
- "step": 75
535
- },
536
- {
537
- "epoch": 0.4648318042813456,
538
- "grad_norm": 3.392221689224243,
539
- "learning_rate": 5.4166666666666664e-05,
540
- "loss": 0.3004,
541
- "step": 76
542
- },
543
- {
544
- "epoch": 0.4709480122324159,
545
- "grad_norm": 4.9025654792785645,
546
- "learning_rate": 5.208333333333334e-05,
547
- "loss": 2.062,
548
- "step": 77
549
- },
550
- {
551
- "epoch": 0.47706422018348627,
552
- "grad_norm": 8.18167781829834,
553
- "learning_rate": 5e-05,
554
- "loss": 2.3658,
555
- "step": 78
556
- },
557
- {
558
- "epoch": 0.4831804281345566,
559
- "grad_norm": 5.826730251312256,
560
- "learning_rate": 4.791666666666667e-05,
561
- "loss": 2.4463,
562
- "step": 79
563
- },
564
- {
565
- "epoch": 0.4892966360856269,
566
- "grad_norm": 5.785229206085205,
567
- "learning_rate": 4.5833333333333334e-05,
568
- "loss": 2.244,
569
- "step": 80
570
- },
571
- {
572
- "epoch": 0.4954128440366973,
573
- "grad_norm": 5.607297420501709,
574
- "learning_rate": 4.375e-05,
575
- "loss": 1.8766,
576
- "step": 81
577
- },
578
- {
579
- "epoch": 0.5015290519877675,
580
- "grad_norm": 6.283894062042236,
581
- "learning_rate": 4.166666666666667e-05,
582
- "loss": 2.2676,
583
- "step": 82
584
- },
585
- {
586
- "epoch": 0.5076452599388379,
587
- "grad_norm": 6.15252685546875,
588
- "learning_rate": 3.958333333333333e-05,
589
- "loss": 1.6141,
590
- "step": 83
591
- },
592
- {
593
- "epoch": 0.5137614678899083,
594
- "grad_norm": 3.592761993408203,
595
- "learning_rate": 3.7500000000000003e-05,
596
- "loss": 0.8462,
597
- "step": 84
598
- },
599
- {
600
- "epoch": 0.5198776758409785,
601
- "grad_norm": 5.9615583419799805,
602
- "learning_rate": 3.541666666666667e-05,
603
- "loss": 2.168,
604
- "step": 85
605
- },
606
- {
607
- "epoch": 0.5259938837920489,
608
- "grad_norm": 4.592804431915283,
609
- "learning_rate": 3.3333333333333335e-05,
610
- "loss": 1.2064,
611
- "step": 86
612
- },
613
- {
614
- "epoch": 0.5321100917431193,
615
- "grad_norm": 5.6012187004089355,
616
- "learning_rate": 3.125e-05,
617
- "loss": 1.5237,
618
- "step": 87
619
- },
620
- {
621
- "epoch": 0.5382262996941896,
622
- "grad_norm": 6.5024895668029785,
623
- "learning_rate": 2.916666666666667e-05,
624
- "loss": 2.4125,
625
- "step": 88
626
- },
627
- {
628
- "epoch": 0.5443425076452599,
629
- "grad_norm": 3.219243049621582,
630
- "learning_rate": 2.7083333333333332e-05,
631
- "loss": 0.7604,
632
- "step": 89
633
- },
634
- {
635
- "epoch": 0.5504587155963303,
636
- "grad_norm": 4.511606693267822,
637
- "learning_rate": 2.5e-05,
638
- "loss": 1.375,
639
- "step": 90
640
- },
641
- {
642
- "epoch": 0.5565749235474006,
643
- "grad_norm": 5.208837032318115,
644
- "learning_rate": 2.2916666666666667e-05,
645
- "loss": 2.4887,
646
- "step": 91
647
- },
648
- {
649
- "epoch": 0.5626911314984709,
650
- "grad_norm": 4.148858070373535,
651
- "learning_rate": 2.0833333333333336e-05,
652
- "loss": 1.4911,
653
- "step": 92
654
- },
655
- {
656
- "epoch": 0.5688073394495413,
657
- "grad_norm": 6.978875637054443,
658
- "learning_rate": 1.8750000000000002e-05,
659
- "loss": 2.8134,
660
- "step": 93
661
- },
662
- {
663
- "epoch": 0.5749235474006116,
664
- "grad_norm": 5.458982467651367,
665
- "learning_rate": 1.6666666666666667e-05,
666
- "loss": 1.6874,
667
- "step": 94
668
- },
669
- {
670
- "epoch": 0.581039755351682,
671
- "grad_norm": 7.296456813812256,
672
- "learning_rate": 1.4583333333333335e-05,
673
- "loss": 2.7046,
674
- "step": 95
675
- },
676
- {
677
- "epoch": 0.5871559633027523,
678
- "grad_norm": 7.519389629364014,
679
- "learning_rate": 1.25e-05,
680
- "loss": 1.9551,
681
- "step": 96
682
- },
683
- {
684
- "epoch": 0.5932721712538226,
685
- "grad_norm": 4.4563727378845215,
686
- "learning_rate": 1.0416666666666668e-05,
687
- "loss": 1.5145,
688
- "step": 97
689
- },
690
- {
691
- "epoch": 0.599388379204893,
692
- "grad_norm": 5.324405193328857,
693
- "learning_rate": 8.333333333333334e-06,
694
- "loss": 2.3218,
695
- "step": 98
696
- },
697
- {
698
- "epoch": 0.6055045871559633,
699
- "grad_norm": 4.699754238128662,
700
- "learning_rate": 6.25e-06,
701
- "loss": 1.0038,
702
- "step": 99
703
- },
704
- {
705
- "epoch": 0.6116207951070336,
706
- "grad_norm": 5.080688953399658,
707
- "learning_rate": 4.166666666666667e-06,
708
- "loss": 1.7079,
709
- "step": 100
710
  }
711
  ],
712
  "logging_steps": 1,
@@ -726,7 +376,7 @@
726
  "attributes": {}
727
  }
728
  },
729
- "total_flos": 1052971141431296.0,
730
  "train_batch_size": 2,
731
  "trial_name": null,
732
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.3058103975535168,
5
  "eval_steps": 1000,
6
+ "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.0061162079510703364,
13
+ "grad_norm": 8.660808563232422,
14
  "learning_rate": 0.0,
15
+ "loss": 3.5673,
16
  "step": 1
17
  },
18
  {
19
  "epoch": 0.012232415902140673,
20
+ "grad_norm": 7.207181930541992,
21
  "learning_rate": 8.613531161467861e-05,
22
+ "loss": 3.7385,
23
  "step": 2
24
  },
25
  {
26
  "epoch": 0.01834862385321101,
27
+ "grad_norm": 7.629356384277344,
28
  "learning_rate": 0.00013652123889719707,
29
+ "loss": 3.9868,
30
  "step": 3
31
  },
32
  {
33
  "epoch": 0.024464831804281346,
34
+ "grad_norm": 6.810473442077637,
35
  "learning_rate": 0.00017227062322935723,
36
+ "loss": 3.3019,
37
  "step": 4
38
  },
39
  {
40
  "epoch": 0.03058103975535168,
41
+ "grad_norm": 6.724853992462158,
42
  "learning_rate": 0.0002,
43
+ "loss": 2.8308,
44
  "step": 5
45
  },
46
  {
47
  "epoch": 0.03669724770642202,
48
+ "grad_norm": 9.132241249084473,
49
  "learning_rate": 0.0002,
50
+ "loss": 3.3305,
51
  "step": 6
52
  },
53
  {
54
  "epoch": 0.04281345565749235,
55
+ "grad_norm": 7.261807918548584,
56
  "learning_rate": 0.0001979166666666667,
57
+ "loss": 2.4643,
58
  "step": 7
59
  },
60
  {
61
  "epoch": 0.04892966360856269,
62
+ "grad_norm": 6.900296211242676,
63
  "learning_rate": 0.00019583333333333334,
64
+ "loss": 3.4016,
65
  "step": 8
66
  },
67
  {
68
  "epoch": 0.05504587155963303,
69
+ "grad_norm": 6.751162052154541,
70
  "learning_rate": 0.00019375000000000002,
71
+ "loss": 2.5572,
72
  "step": 9
73
  },
74
  {
75
  "epoch": 0.06116207951070336,
76
+ "grad_norm": 203.9573974609375,
77
  "learning_rate": 0.00019166666666666667,
78
+ "loss": 3.0486,
79
  "step": 10
80
  },
81
  {
82
  "epoch": 0.0672782874617737,
83
+ "grad_norm": 10.501636505126953,
84
  "learning_rate": 0.00018958333333333332,
85
+ "loss": 3.0324,
86
  "step": 11
87
  },
88
  {
89
  "epoch": 0.07339449541284404,
90
+ "grad_norm": 11.122443199157715,
91
  "learning_rate": 0.0001875,
92
+ "loss": 1.9763,
93
  "step": 12
94
  },
95
  {
96
  "epoch": 0.07951070336391437,
97
+ "grad_norm": 12.943284034729004,
98
  "learning_rate": 0.00018541666666666668,
99
+ "loss": 2.694,
100
  "step": 13
101
  },
102
  {
103
  "epoch": 0.0856269113149847,
104
+ "grad_norm": 11.015685081481934,
105
  "learning_rate": 0.00018333333333333334,
106
+ "loss": 1.7901,
107
  "step": 14
108
  },
109
  {
110
  "epoch": 0.09174311926605505,
111
+ "grad_norm": 6.8550286293029785,
112
  "learning_rate": 0.00018125000000000001,
113
+ "loss": 2.3794,
114
  "step": 15
115
  },
116
  {
117
  "epoch": 0.09785932721712538,
118
+ "grad_norm": 6.181105136871338,
119
  "learning_rate": 0.0001791666666666667,
120
+ "loss": 1.872,
121
  "step": 16
122
  },
123
  {
124
  "epoch": 0.10397553516819572,
125
+ "grad_norm": 9.568614959716797,
126
  "learning_rate": 0.00017708333333333335,
127
+ "loss": 2.3598,
128
  "step": 17
129
  },
130
  {
131
  "epoch": 0.11009174311926606,
132
+ "grad_norm": 7.587527275085449,
133
  "learning_rate": 0.000175,
134
+ "loss": 2.0065,
135
  "step": 18
136
  },
137
  {
138
  "epoch": 0.1162079510703364,
139
+ "grad_norm": 6.390735626220703,
140
  "learning_rate": 0.00017291666666666668,
141
+ "loss": 2.4806,
142
  "step": 19
143
  },
144
  {
145
  "epoch": 0.12232415902140673,
146
+ "grad_norm": 7.028254508972168,
147
  "learning_rate": 0.00017083333333333333,
148
+ "loss": 2.0022,
149
  "step": 20
150
  },
151
  {
152
  "epoch": 0.12844036697247707,
153
+ "grad_norm": 6.614259719848633,
154
  "learning_rate": 0.00016875,
155
+ "loss": 3.0237,
156
  "step": 21
157
  },
158
  {
159
  "epoch": 0.1345565749235474,
160
+ "grad_norm": 5.891978740692139,
161
  "learning_rate": 0.0001666666666666667,
162
+ "loss": 2.5397,
163
  "step": 22
164
  },
165
  {
166
  "epoch": 0.14067278287461774,
167
+ "grad_norm": 6.716469764709473,
168
  "learning_rate": 0.00016458333333333334,
169
+ "loss": 2.5222,
170
  "step": 23
171
  },
172
  {
173
  "epoch": 0.14678899082568808,
174
+ "grad_norm": 7.006270408630371,
175
  "learning_rate": 0.00016250000000000002,
176
+ "loss": 2.0647,
177
  "step": 24
178
  },
179
  {
180
  "epoch": 0.1529051987767584,
181
+ "grad_norm": 4.018204212188721,
182
  "learning_rate": 0.00016041666666666667,
183
+ "loss": 1.6351,
184
  "step": 25
185
  },
186
  {
187
  "epoch": 0.15902140672782875,
188
+ "grad_norm": 6.046674728393555,
189
  "learning_rate": 0.00015833333333333332,
190
+ "loss": 2.2371,
191
  "step": 26
192
  },
193
  {
194
  "epoch": 0.1651376146788991,
195
+ "grad_norm": 7.204468727111816,
196
  "learning_rate": 0.00015625,
197
+ "loss": 1.8776,
198
  "step": 27
199
  },
200
  {
201
  "epoch": 0.1712538226299694,
202
+ "grad_norm": 6.357034206390381,
203
  "learning_rate": 0.00015416666666666668,
204
+ "loss": 2.6891,
205
  "step": 28
206
  },
207
  {
208
  "epoch": 0.17737003058103976,
209
+ "grad_norm": 5.36763858795166,
210
  "learning_rate": 0.00015208333333333333,
211
+ "loss": 2.6209,
212
  "step": 29
213
  },
214
  {
215
  "epoch": 0.1834862385321101,
216
+ "grad_norm": 5.305397987365723,
217
  "learning_rate": 0.00015000000000000001,
218
+ "loss": 2.6514,
219
  "step": 30
220
  },
221
  {
222
  "epoch": 0.18960244648318042,
223
+ "grad_norm": 5.0404486656188965,
224
  "learning_rate": 0.0001479166666666667,
225
+ "loss": 0.8163,
226
  "step": 31
227
  },
228
  {
229
  "epoch": 0.19571865443425077,
230
+ "grad_norm": 8.426904678344727,
231
  "learning_rate": 0.00014583333333333335,
232
+ "loss": 2.091,
233
  "step": 32
234
  },
235
  {
236
  "epoch": 0.2018348623853211,
237
+ "grad_norm": 6.798487186431885,
238
  "learning_rate": 0.00014375,
239
+ "loss": 2.8367,
240
  "step": 33
241
  },
242
  {
243
  "epoch": 0.20795107033639143,
244
+ "grad_norm": 5.3157877922058105,
245
  "learning_rate": 0.00014166666666666668,
246
+ "loss": 1.1625,
247
  "step": 34
248
  },
249
  {
250
  "epoch": 0.21406727828746178,
251
+ "grad_norm": 2.3767905235290527,
252
  "learning_rate": 0.00013958333333333333,
253
+ "loss": 0.2477,
254
  "step": 35
255
  },
256
  {
257
  "epoch": 0.22018348623853212,
258
+ "grad_norm": 6.006268501281738,
259
  "learning_rate": 0.0001375,
260
+ "loss": 2.4461,
261
  "step": 36
262
  },
263
  {
264
  "epoch": 0.22629969418960244,
265
+ "grad_norm": 5.757986068725586,
266
  "learning_rate": 0.0001354166666666667,
267
+ "loss": 2.4528,
268
  "step": 37
269
  },
270
  {
271
  "epoch": 0.2324159021406728,
272
+ "grad_norm": 6.553782939910889,
273
  "learning_rate": 0.00013333333333333334,
274
+ "loss": 2.1956,
275
  "step": 38
276
  },
277
  {
278
  "epoch": 0.23853211009174313,
279
+ "grad_norm": 8.149529457092285,
280
  "learning_rate": 0.00013125000000000002,
281
+ "loss": 2.7447,
282
  "step": 39
283
  },
284
  {
285
  "epoch": 0.24464831804281345,
286
+ "grad_norm": 4.950877666473389,
287
  "learning_rate": 0.00012916666666666667,
288
+ "loss": 1.0586,
289
  "step": 40
290
  },
291
  {
292
  "epoch": 0.25076452599388377,
293
+ "grad_norm": 4.919243335723877,
294
  "learning_rate": 0.00012708333333333332,
295
+ "loss": 2.4817,
296
  "step": 41
297
  },
298
  {
299
  "epoch": 0.25688073394495414,
300
+ "grad_norm": 5.983517169952393,
301
  "learning_rate": 0.000125,
302
+ "loss": 1.6353,
303
  "step": 42
304
  },
305
  {
306
  "epoch": 0.26299694189602446,
307
+ "grad_norm": 5.014638900756836,
308
  "learning_rate": 0.00012291666666666668,
309
+ "loss": 1.1878,
310
  "step": 43
311
  },
312
  {
313
  "epoch": 0.2691131498470948,
314
+ "grad_norm": 5.887791633605957,
315
  "learning_rate": 0.00012083333333333333,
316
+ "loss": 2.9079,
317
  "step": 44
318
  },
319
  {
320
  "epoch": 0.27522935779816515,
321
+ "grad_norm": 6.899966716766357,
322
  "learning_rate": 0.00011875,
323
+ "loss": 2.9588,
324
  "step": 45
325
  },
326
  {
327
  "epoch": 0.28134556574923547,
328
+ "grad_norm": 5.717799663543701,
329
  "learning_rate": 0.00011666666666666668,
330
+ "loss": 2.8656,
331
  "step": 46
332
  },
333
  {
334
  "epoch": 0.2874617737003058,
335
+ "grad_norm": 3.8744447231292725,
336
  "learning_rate": 0.00011458333333333333,
337
+ "loss": 0.7523,
338
  "step": 47
339
  },
340
  {
341
  "epoch": 0.29357798165137616,
342
+ "grad_norm": 5.142226696014404,
343
  "learning_rate": 0.00011250000000000001,
344
+ "loss": 1.5366,
345
  "step": 48
346
  },
347
  {
348
  "epoch": 0.2996941896024465,
349
+ "grad_norm": 4.917407512664795,
350
  "learning_rate": 0.00011041666666666668,
351
+ "loss": 2.3343,
352
  "step": 49
353
  },
354
  {
355
  "epoch": 0.3058103975535168,
356
+ "grad_norm": 3.830994129180908,
357
  "learning_rate": 0.00010833333333333333,
358
+ "loss": 1.843,
359
  "step": 50
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
360
  }
361
  ],
362
  "logging_steps": 1,
 
376
  "attributes": {}
377
  }
378
  },
379
+ "total_flos": 537183016976384.0,
380
  "train_batch_size": 2,
381
  "trial_name": null,
382
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:700e2ffca061353ef9e5698b2619b2dcba0c46609c85e640fbe8ae9cd993bfaa
3
  size 6904
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0990a8975d3cbb48347c0356c8a82077a643c97b32fdc1a40adcf389b954848
3
  size 6904