ZakToday commited on
Commit
edda93e
1 Parent(s): a9138b1

Training in progress, step 100, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:456659bd791b3bb36d56c16ff5af42299adfcfd04be7b51c61f750b987e874fb
3
  size 42002136
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4b3c8a0c8eec9372a2a20bfefbc493802889647c7f7adc2a6c3c936841dadab
3
  size 42002136
last-checkpoint/global_step100/mp_rank_00_model_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f2d62ad5eaea9604a0284ff630db37ab5e519c2d7d854507c9c2524eb0cae9d4
3
+ size 8182935351
last-checkpoint/global_step100/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d68fa488308469d4bcda542506a7d5309c25a14bb3d0f332f6eb972ea706be1d
3
+ size 251710893
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step50
 
1
+ global_step100
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:95108ce3daae0de505fcc447f4742cf96275124742d94331b4e3e1cbe5b3334d
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21e76ce417a2453046e6a33726c8f3832834739201b50fea30214604b61d7e69
3
  size 14244
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.0012437810945273632,
5
  "eval_steps": 1000,
6
- "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -307,13 +307,313 @@
307
  "learning_rate": 0.00011250000000000001,
308
  "loss": 1.3767,
309
  "step": 50
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
310
  }
311
  ],
312
  "logging_steps": 1,
313
  "max_steps": 101,
314
  "num_train_epochs": 1,
315
  "save_steps": 50,
316
- "total_flos": 3065802843488256.0,
317
  "trial_name": null,
318
  "trial_params": null
319
  }
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.0024875621890547263,
5
  "eval_steps": 1000,
6
+ "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
307
  "learning_rate": 0.00011250000000000001,
308
  "loss": 1.3767,
309
  "step": 50
310
+ },
311
+ {
312
+ "epoch": 0.0,
313
+ "learning_rate": 0.00011041666666666668,
314
+ "loss": 1.7195,
315
+ "step": 51
316
+ },
317
+ {
318
+ "epoch": 0.0,
319
+ "learning_rate": 0.00010833333333333333,
320
+ "loss": 1.6413,
321
+ "step": 52
322
+ },
323
+ {
324
+ "epoch": 0.0,
325
+ "learning_rate": 0.00010625000000000001,
326
+ "loss": 1.6367,
327
+ "step": 53
328
+ },
329
+ {
330
+ "epoch": 0.0,
331
+ "learning_rate": 0.00010416666666666667,
332
+ "loss": 1.4327,
333
+ "step": 54
334
+ },
335
+ {
336
+ "epoch": 0.0,
337
+ "learning_rate": 0.00010208333333333333,
338
+ "loss": 1.631,
339
+ "step": 55
340
+ },
341
+ {
342
+ "epoch": 0.0,
343
+ "learning_rate": 0.0001,
344
+ "loss": 1.5181,
345
+ "step": 56
346
+ },
347
+ {
348
+ "epoch": 0.0,
349
+ "learning_rate": 9.791666666666667e-05,
350
+ "loss": 1.8171,
351
+ "step": 57
352
+ },
353
+ {
354
+ "epoch": 0.0,
355
+ "learning_rate": 9.583333333333334e-05,
356
+ "loss": 1.4735,
357
+ "step": 58
358
+ },
359
+ {
360
+ "epoch": 0.0,
361
+ "learning_rate": 9.375e-05,
362
+ "loss": 1.5766,
363
+ "step": 59
364
+ },
365
+ {
366
+ "epoch": 0.0,
367
+ "learning_rate": 9.166666666666667e-05,
368
+ "loss": 1.9341,
369
+ "step": 60
370
+ },
371
+ {
372
+ "epoch": 0.0,
373
+ "learning_rate": 8.958333333333335e-05,
374
+ "loss": 1.5104,
375
+ "step": 61
376
+ },
377
+ {
378
+ "epoch": 0.0,
379
+ "learning_rate": 8.75e-05,
380
+ "loss": 1.714,
381
+ "step": 62
382
+ },
383
+ {
384
+ "epoch": 0.0,
385
+ "learning_rate": 8.541666666666666e-05,
386
+ "loss": 1.3207,
387
+ "step": 63
388
+ },
389
+ {
390
+ "epoch": 0.0,
391
+ "learning_rate": 8.333333333333334e-05,
392
+ "loss": 1.7229,
393
+ "step": 64
394
+ },
395
+ {
396
+ "epoch": 0.0,
397
+ "learning_rate": 8.125000000000001e-05,
398
+ "loss": 1.6023,
399
+ "step": 65
400
+ },
401
+ {
402
+ "epoch": 0.0,
403
+ "learning_rate": 7.916666666666666e-05,
404
+ "loss": 1.3084,
405
+ "step": 66
406
+ },
407
+ {
408
+ "epoch": 0.0,
409
+ "learning_rate": 7.708333333333334e-05,
410
+ "loss": 1.5988,
411
+ "step": 67
412
+ },
413
+ {
414
+ "epoch": 0.0,
415
+ "learning_rate": 7.500000000000001e-05,
416
+ "loss": 1.5514,
417
+ "step": 68
418
+ },
419
+ {
420
+ "epoch": 0.0,
421
+ "learning_rate": 7.291666666666667e-05,
422
+ "loss": 1.7091,
423
+ "step": 69
424
+ },
425
+ {
426
+ "epoch": 0.0,
427
+ "learning_rate": 7.083333333333334e-05,
428
+ "loss": 1.8106,
429
+ "step": 70
430
+ },
431
+ {
432
+ "epoch": 0.0,
433
+ "learning_rate": 6.875e-05,
434
+ "loss": 1.8169,
435
+ "step": 71
436
+ },
437
+ {
438
+ "epoch": 0.0,
439
+ "learning_rate": 6.666666666666667e-05,
440
+ "loss": 1.7487,
441
+ "step": 72
442
+ },
443
+ {
444
+ "epoch": 0.0,
445
+ "learning_rate": 6.458333333333334e-05,
446
+ "loss": 1.1579,
447
+ "step": 73
448
+ },
449
+ {
450
+ "epoch": 0.0,
451
+ "learning_rate": 6.25e-05,
452
+ "loss": 1.6615,
453
+ "step": 74
454
+ },
455
+ {
456
+ "epoch": 0.0,
457
+ "learning_rate": 6.041666666666667e-05,
458
+ "loss": 1.6043,
459
+ "step": 75
460
+ },
461
+ {
462
+ "epoch": 0.0,
463
+ "learning_rate": 5.833333333333334e-05,
464
+ "loss": 1.6514,
465
+ "step": 76
466
+ },
467
+ {
468
+ "epoch": 0.0,
469
+ "learning_rate": 5.6250000000000005e-05,
470
+ "loss": 1.6672,
471
+ "step": 77
472
+ },
473
+ {
474
+ "epoch": 0.0,
475
+ "learning_rate": 5.4166666666666664e-05,
476
+ "loss": 1.4914,
477
+ "step": 78
478
+ },
479
+ {
480
+ "epoch": 0.0,
481
+ "learning_rate": 5.208333333333334e-05,
482
+ "loss": 1.7884,
483
+ "step": 79
484
+ },
485
+ {
486
+ "epoch": 0.0,
487
+ "learning_rate": 5e-05,
488
+ "loss": 1.5897,
489
+ "step": 80
490
+ },
491
+ {
492
+ "epoch": 0.0,
493
+ "learning_rate": 4.791666666666667e-05,
494
+ "loss": 1.7673,
495
+ "step": 81
496
+ },
497
+ {
498
+ "epoch": 0.0,
499
+ "learning_rate": 4.5833333333333334e-05,
500
+ "loss": 1.3304,
501
+ "step": 82
502
+ },
503
+ {
504
+ "epoch": 0.0,
505
+ "learning_rate": 4.375e-05,
506
+ "loss": 1.7114,
507
+ "step": 83
508
+ },
509
+ {
510
+ "epoch": 0.0,
511
+ "learning_rate": 4.166666666666667e-05,
512
+ "loss": 1.3571,
513
+ "step": 84
514
+ },
515
+ {
516
+ "epoch": 0.0,
517
+ "learning_rate": 3.958333333333333e-05,
518
+ "loss": 1.1445,
519
+ "step": 85
520
+ },
521
+ {
522
+ "epoch": 0.0,
523
+ "learning_rate": 3.7500000000000003e-05,
524
+ "loss": 1.7399,
525
+ "step": 86
526
+ },
527
+ {
528
+ "epoch": 0.0,
529
+ "learning_rate": 3.541666666666667e-05,
530
+ "loss": 1.4818,
531
+ "step": 87
532
+ },
533
+ {
534
+ "epoch": 0.0,
535
+ "learning_rate": 3.3333333333333335e-05,
536
+ "loss": 1.6,
537
+ "step": 88
538
+ },
539
+ {
540
+ "epoch": 0.0,
541
+ "learning_rate": 3.125e-05,
542
+ "loss": 1.5971,
543
+ "step": 89
544
+ },
545
+ {
546
+ "epoch": 0.0,
547
+ "learning_rate": 2.916666666666667e-05,
548
+ "loss": 1.8175,
549
+ "step": 90
550
+ },
551
+ {
552
+ "epoch": 0.0,
553
+ "learning_rate": 2.7083333333333332e-05,
554
+ "loss": 1.5264,
555
+ "step": 91
556
+ },
557
+ {
558
+ "epoch": 0.0,
559
+ "learning_rate": 2.5e-05,
560
+ "loss": 1.3731,
561
+ "step": 92
562
+ },
563
+ {
564
+ "epoch": 0.0,
565
+ "learning_rate": 2.2916666666666667e-05,
566
+ "loss": 1.3831,
567
+ "step": 93
568
+ },
569
+ {
570
+ "epoch": 0.0,
571
+ "learning_rate": 2.0833333333333336e-05,
572
+ "loss": 1.6149,
573
+ "step": 94
574
+ },
575
+ {
576
+ "epoch": 0.0,
577
+ "learning_rate": 1.8750000000000002e-05,
578
+ "loss": 1.7824,
579
+ "step": 95
580
+ },
581
+ {
582
+ "epoch": 0.0,
583
+ "learning_rate": 1.6666666666666667e-05,
584
+ "loss": 1.5808,
585
+ "step": 96
586
+ },
587
+ {
588
+ "epoch": 0.0,
589
+ "learning_rate": 1.4583333333333335e-05,
590
+ "loss": 1.6656,
591
+ "step": 97
592
+ },
593
+ {
594
+ "epoch": 0.0,
595
+ "learning_rate": 1.25e-05,
596
+ "loss": 1.48,
597
+ "step": 98
598
+ },
599
+ {
600
+ "epoch": 0.0,
601
+ "learning_rate": 1.0416666666666668e-05,
602
+ "loss": 1.5118,
603
+ "step": 99
604
+ },
605
+ {
606
+ "epoch": 0.0,
607
+ "learning_rate": 8.333333333333334e-06,
608
+ "loss": 1.8386,
609
+ "step": 100
610
  }
611
  ],
612
  "logging_steps": 1,
613
  "max_steps": 101,
614
  "num_train_epochs": 1,
615
  "save_steps": 50,
616
+ "total_flos": 6150946682830848.0,
617
  "trial_name": null,
618
  "trial_params": null
619
  }