Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoint-31974/model.safetensors +1 -1
checkpoint-31974/optimizer.pt +1 -1
checkpoint-31974/scheduler.pt +1 -1
checkpoint-31974/trainer_state.json +226 -226
checkpoint-31974/training_args.bin +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

checkpoint-31974/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4434bb1c21783caa0078e23ee6f1962484398526b4d9b38ba912fb4305c8921d
 size 343387012

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f264162406cd17fcf0599f6f7c0ad35e95c7d2759c1a4c22c1c88689bb6fea6
 size 343387012

checkpoint-31974/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d09992be6f219f1b52b97f7b474c809b08afdec896bd4e66ef0b1ff2c5b686
 size 686894469

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac87579cac35eebed50d1dde6502cefc1af83f7d4d7e492ea24913c02bac8bb
 size 686894469

checkpoint-31974/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1abc14e7ba11e17402625b7b339fefea2dcce1e00bf11864da3caa4b97d7d60a
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea9c551fd44ddc8ddfa398002e02443e4ff95bea8a77387c173af1507fc08e78
 size 627

checkpoint-31974/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 2.573267698287964,
   "best_model_checkpoint": "car_brands_image_detection/checkpoint-31974",
   "epoch": 6.0,
   "eval_steps": 500,
@@ -10,503 +10,503 @@
   "log_history": [
     {
       "epoch": 0.09382623381497467,
-      "grad_norm": 1.1010551452636719,
-      "learning_rate": 1.9718080441047486e-06,
-      "loss": 4.0,
       "step": 500
     },
     {
       "epoch": 0.18765246762994933,
-      "grad_norm": 1.328322410583496,
-      "learning_rate": 1.9404836486655806e-06,
-      "loss": 3.9571,
       "step": 1000
     },
     {
       "epoch": 0.281478701444924,
-      "grad_norm": 1.4056262969970703,
-      "learning_rate": 1.9091592532264125e-06,
-      "loss": 3.9054,
       "step": 1500
     },
     {
       "epoch": 0.37530493525989866,
-      "grad_norm": 1.557868480682373,
-      "learning_rate": 1.8778348577872447e-06,
-      "loss": 3.8497,
       "step": 2000
     },
     {
       "epoch": 0.46913116907487334,
-      "grad_norm": 1.532055377960205,
-      "learning_rate": 1.8465104623480764e-06,
-      "loss": 3.7942,
       "step": 2500
     },
     {
       "epoch": 0.562957402889848,
-      "grad_norm": 1.6487107276916504,
-      "learning_rate": 1.8151860669089086e-06,
-      "loss": 3.7438,
       "step": 3000
     },
     {
       "epoch": 0.6567836367048226,
-      "grad_norm": 1.6391078233718872,
-      "learning_rate": 1.7838616714697405e-06,
-      "loss": 3.6947,
       "step": 3500
     },
     {
       "epoch": 0.7506098705197973,
-      "grad_norm": 1.8407845497131348,
-      "learning_rate": 1.7525372760305725e-06,
-      "loss": 3.6408,
       "step": 4000
     },
     {
       "epoch": 0.844436104334772,
-      "grad_norm": 1.6594038009643555,
-      "learning_rate": 1.7212128805914046e-06,
-      "loss": 3.5885,
       "step": 4500
     },
     {
       "epoch": 0.9382623381497467,
-      "grad_norm": 1.889947772026062,
-      "learning_rate": 1.6898884851522366e-06,
-      "loss": 3.5404,
       "step": 5000
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.28911624469975544,
-      "eval_loss": 3.5254716873168945,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1133.5642,
-      "eval_samples_per_second": 100.28,
-      "eval_steps_per_second": 12.536,
       "step": 5329
     },
     {
       "epoch": 1.0320885719647213,
-      "grad_norm": 2.195939540863037,
-      "learning_rate": 1.6585640897130683e-06,
-      "loss": 3.4895,
       "step": 5500
     },
     {
       "epoch": 1.125914805779696,
-      "grad_norm": 2.153141736984253,
-      "learning_rate": 1.6272396942739004e-06,
-      "loss": 3.4444,
       "step": 6000
     },
     {
       "epoch": 1.2197410395946706,
-      "grad_norm": 1.90287446975708,
-      "learning_rate": 1.5959152988347324e-06,
-      "loss": 3.4021,
       "step": 6500
     },
     {
       "epoch": 1.3135672734096453,
-      "grad_norm": 2.318300247192383,
-      "learning_rate": 1.5645909033955643e-06,
-      "loss": 3.3694,
       "step": 7000
     },
     {
       "epoch": 1.40739350722462,
-      "grad_norm": 2.0277891159057617,
-      "learning_rate": 1.5332665079563965e-06,
-      "loss": 3.335,
       "step": 7500
     },
     {
       "epoch": 1.5012197410395947,
-      "grad_norm": 2.453045606613159,
-      "learning_rate": 1.5019421125172282e-06,
-      "loss": 3.2886,
       "step": 8000
     },
     {
       "epoch": 1.5950459748545693,
-      "grad_norm": 2.8956668376922607,
-      "learning_rate": 1.4706177170780602e-06,
-      "loss": 3.2617,
       "step": 8500
     },
     {
       "epoch": 1.688872208669544,
-      "grad_norm": 2.398240804672241,
-      "learning_rate": 1.4392933216388923e-06,
-      "loss": 3.2273,
       "step": 9000
     },
     {
       "epoch": 1.7826984424845187,
-      "grad_norm": 3.2654738426208496,
-      "learning_rate": 1.4079689261997243e-06,
-      "loss": 3.1976,
       "step": 9500
     },
     {
       "epoch": 1.8765246762994934,
-      "grad_norm": 2.843698263168335,
-      "learning_rate": 1.3766445307605562e-06,
-      "loss": 3.1636,
       "step": 10000
     },
     {
       "epoch": 1.970350910114468,
-      "grad_norm": 3.392847776412964,
-      "learning_rate": 1.3453201353213884e-06,
-      "loss": 3.1312,
       "step": 10500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3840104157503035,
-      "eval_loss": 3.157210350036621,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1120.185,
-      "eval_samples_per_second": 101.478,
-      "eval_steps_per_second": 12.685,
       "step": 10658
     },
     {
       "epoch": 2.0641771439294425,
-      "grad_norm": 2.8789336681365967,
-      "learning_rate": 1.3139957398822201e-06,
-      "loss": 3.1001,
       "step": 11000
     },
     {
       "epoch": 2.1580033777444174,
-      "grad_norm": 3.523937225341797,
-      "learning_rate": 1.282671344443052e-06,
-      "loss": 3.065,
       "step": 11500
     },
     {
       "epoch": 2.251829611559392,
-      "grad_norm": 3.3203866481781006,
-      "learning_rate": 1.2513469490038842e-06,
-      "loss": 3.0418,
       "step": 12000
     },
     {
       "epoch": 2.3456558453743668,
-      "grad_norm": 2.9499928951263428,
-      "learning_rate": 1.2200225535647162e-06,
-      "loss": 3.0185,
       "step": 12500
     },
     {
       "epoch": 2.4394820791893412,
-      "grad_norm": 3.711545705795288,
-      "learning_rate": 1.1886981581255481e-06,
-      "loss": 2.9926,
       "step": 13000
     },
     {
       "epoch": 2.533308313004316,
-      "grad_norm": 3.0691421031951904,
-      "learning_rate": 1.1573737626863803e-06,
-      "loss": 2.9589,
       "step": 13500
     },
     {
       "epoch": 2.6271345468192906,
-      "grad_norm": 2.8521406650543213,
-      "learning_rate": 1.126049367247212e-06,
-      "loss": 2.9496,
       "step": 14000
     },
     {
       "epoch": 2.7209607806342655,
-      "grad_norm": 3.645907402038574,
-      "learning_rate": 1.094724971808044e-06,
-      "loss": 2.9115,
       "step": 14500
     },
     {
       "epoch": 2.81478701444924,
-      "grad_norm": 2.6633188724517822,
-      "learning_rate": 1.063400576368876e-06,
-      "loss": 2.8923,
       "step": 15000
     },
     {
       "epoch": 2.9086132482642144,
-      "grad_norm": 3.053062915802002,
-      "learning_rate": 1.032076180929708e-06,
-      "loss": 2.8703,
       "step": 15500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.43637067403276036,
-      "eval_loss": 2.8984599113464355,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1123.7967,
-      "eval_samples_per_second": 101.152,
-      "eval_steps_per_second": 12.645,
       "step": 15987
     },
     {
       "epoch": 3.0024394820791893,
-      "grad_norm": 2.9147167205810547,
-      "learning_rate": 1.00075178549054e-06,
-      "loss": 2.8419,
       "step": 16000
     },
     {
       "epoch": 3.096265715894164,
-      "grad_norm": 3.5354490280151367,
-      "learning_rate": 9.69427390051372e-07,
-      "loss": 2.8221,
       "step": 16500
     },
     {
       "epoch": 3.1900919497091387,
-      "grad_norm": 3.0408437252044678,
-      "learning_rate": 9.38102994612204e-07,
-      "loss": 2.7963,
       "step": 17000
     },
     {
       "epoch": 3.283918183524113,
-      "grad_norm": 4.841484069824219,
-      "learning_rate": 9.067785991730359e-07,
-      "loss": 2.7837,
       "step": 17500
     },
     {
       "epoch": 3.377744417339088,
-      "grad_norm": 3.432560682296753,
-      "learning_rate": 8.754542037338679e-07,
-      "loss": 2.7699,
       "step": 18000
     },
     {
       "epoch": 3.4715706511540625,
-      "grad_norm": 4.054901123046875,
-      "learning_rate": 8.441298082946998e-07,
-      "loss": 2.7518,
       "step": 18500
     },
     {
       "epoch": 3.5653968849690374,
-      "grad_norm": 4.113468647003174,
-      "learning_rate": 8.128054128555319e-07,
-      "loss": 2.73,
       "step": 19000
     },
     {
       "epoch": 3.659223118784012,
-      "grad_norm": 3.7899582386016846,
-      "learning_rate": 7.814810174163638e-07,
-      "loss": 2.6995,
       "step": 19500
     },
     {
       "epoch": 3.7530493525989868,
-      "grad_norm": 3.954853057861328,
-      "learning_rate": 7.501566219771958e-07,
-      "loss": 2.6955,
       "step": 20000
     },
     {
       "epoch": 3.846875586413961,
-      "grad_norm": 3.6600358486175537,
-      "learning_rate": 7.188322265380278e-07,
-      "loss": 2.6632,
       "step": 20500
     },
     {
       "epoch": 3.940701820228936,
-      "grad_norm": 5.025015830993652,
-      "learning_rate": 6.875078310988598e-07,
-      "loss": 2.6537,
       "step": 21000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.47423333391980577,
-      "eval_loss": 2.717848300933838,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1116.9833,
-      "eval_samples_per_second": 101.769,
-      "eval_steps_per_second": 12.722,
       "step": 21316
     },
     {
       "epoch": 4.034528054043911,
-      "grad_norm": 3.939284324645996,
-      "learning_rate": 6.561834356596917e-07,
-      "loss": 2.6525,
       "step": 21500
     },
     {
       "epoch": 4.128354287858885,
-      "grad_norm": 3.3858115673065186,
-      "learning_rate": 6.248590402205238e-07,
-      "loss": 2.6308,
       "step": 22000
     },
     {
       "epoch": 4.22218052167386,
-      "grad_norm": 3.881986379623413,
-      "learning_rate": 5.935346447813557e-07,
-      "loss": 2.6093,
       "step": 22500
     },
     {
       "epoch": 4.316006755488835,
-      "grad_norm": 3.7069151401519775,
-      "learning_rate": 5.622102493421877e-07,
-      "loss": 2.6153,
       "step": 23000
     },
     {
       "epoch": 4.409832989303809,
-      "grad_norm": 4.156313419342041,
-      "learning_rate": 5.308858539030196e-07,
-      "loss": 2.5988,
       "step": 23500
     },
     {
       "epoch": 4.503659223118784,
-      "grad_norm": 3.6459434032440186,
-      "learning_rate": 4.995614584638517e-07,
-      "loss": 2.5809,
       "step": 24000
     },
     {
       "epoch": 4.597485456933759,
-      "grad_norm": 3.659991502761841,
-      "learning_rate": 4.682370630246836e-07,
-      "loss": 2.57,
       "step": 24500
     },
     {
       "epoch": 4.6913116907487336,
-      "grad_norm": 3.7952539920806885,
-      "learning_rate": 4.369126675855156e-07,
-      "loss": 2.5518,
       "step": 25000
     },
     {
       "epoch": 4.785137924563708,
-      "grad_norm": 4.7407026290893555,
-      "learning_rate": 4.0558827214634755e-07,
-      "loss": 2.5444,
       "step": 25500
     },
     {
       "epoch": 4.8789641583786825,
-      "grad_norm": 2.688025951385498,
-      "learning_rate": 3.742638767071795e-07,
-      "loss": 2.5441,
       "step": 26000
     },
     {
       "epoch": 4.972790392193657,
-      "grad_norm": 4.759518623352051,
-      "learning_rate": 3.4293948126801154e-07,
-      "loss": 2.5364,
       "step": 26500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.49621725284585744,
-      "eval_loss": 2.6088995933532715,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1104.5624,
-      "eval_samples_per_second": 102.913,
-      "eval_steps_per_second": 12.865,
       "step": 26645
     },
     {
       "epoch": 5.066616626008632,
-      "grad_norm": 6.005688190460205,
-      "learning_rate": 3.116150858288435e-07,
-      "loss": 2.5174,
       "step": 27000
     },
     {
       "epoch": 5.160442859823607,
-      "grad_norm": 3.0456652641296387,
-      "learning_rate": 2.8029069038967543e-07,
-      "loss": 2.5143,
       "step": 27500
     },
     {
       "epoch": 5.254269093638581,
-      "grad_norm": 4.690863132476807,
-      "learning_rate": 2.4896629495050743e-07,
-      "loss": 2.5159,
       "step": 28000
     },
     {
       "epoch": 5.348095327453556,
-      "grad_norm": 6.047962665557861,
-      "learning_rate": 2.1764189951133943e-07,
-      "loss": 2.5094,
       "step": 28500
     },
     {
       "epoch": 5.441921561268531,
-      "grad_norm": 4.963265895843506,
-      "learning_rate": 1.863175040721714e-07,
-      "loss": 2.5113,
       "step": 29000
     },
     {
       "epoch": 5.5357477950835055,
-      "grad_norm": 4.23138952255249,
-      "learning_rate": 1.5499310863300338e-07,
-      "loss": 2.4888,
       "step": 29500
     },
     {
       "epoch": 5.62957402889848,
-      "grad_norm": 3.680149793624878,
-      "learning_rate": 1.2366871319383535e-07,
-      "loss": 2.5027,
       "step": 30000
     },
     {
       "epoch": 5.723400262713454,
-      "grad_norm": 3.7554168701171875,
-      "learning_rate": 9.234431775466733e-08,
-      "loss": 2.4941,
       "step": 30500
     },
     {
       "epoch": 5.81722649652843,
-      "grad_norm": 3.9157700538635254,
-      "learning_rate": 6.10199223154993e-08,
-      "loss": 2.4996,
       "step": 31000
     },
     {
       "epoch": 5.911052730343404,
-      "grad_norm": 3.978684902191162,
-      "learning_rate": 2.9695526876331285e-08,
-      "loss": 2.4811,
       "step": 31500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5020937065643859,
-      "eval_loss": 2.573267698287964,
-      "eval_model_preparation_time": 0.0054,
-      "eval_runtime": 1092.2998,
-      "eval_samples_per_second": 104.068,
-      "eval_steps_per_second": 13.009,
       "step": 31974
     }
   ],

 {
+  "best_metric": 1.374941349029541,
   "best_model_checkpoint": "car_brands_image_detection/checkpoint-31974",
   "epoch": 6.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.09382623381497467,
+      "grad_norm": 1.4237160682678223,
+      "learning_rate": 4.929520110261872e-06,
+      "loss": 3.9691,
       "step": 500
     },
     {
       "epoch": 0.18765246762994933,
+      "grad_norm": 1.500626802444458,
+      "learning_rate": 4.8512091216639525e-06,
+      "loss": 3.8449,
       "step": 1000
     },
     {
       "epoch": 0.281478701444924,
+      "grad_norm": 1.6687654256820679,
+      "learning_rate": 4.7728981330660325e-06,
+      "loss": 3.6987,
       "step": 1500
     },
     {
       "epoch": 0.37530493525989866,
+      "grad_norm": 2.551961898803711,
+      "learning_rate": 4.694587144468113e-06,
+      "loss": 3.5622,
       "step": 2000
     },
     {
       "epoch": 0.46913116907487334,
+      "grad_norm": 2.852647542953491,
+      "learning_rate": 4.616276155870192e-06,
+      "loss": 3.4424,
       "step": 2500
     },
     {
       "epoch": 0.562957402889848,
+      "grad_norm": 2.4419143199920654,
+      "learning_rate": 4.537965167272272e-06,
+      "loss": 3.3403,
       "step": 3000
     },
     {
       "epoch": 0.6567836367048226,
+      "grad_norm": 2.429936647415161,
+      "learning_rate": 4.459654178674352e-06,
+      "loss": 3.2402,
       "step": 3500
     },
     {
       "epoch": 0.7506098705197973,
+      "grad_norm": 2.774019956588745,
+      "learning_rate": 4.381343190076432e-06,
+      "loss": 3.1484,
       "step": 4000
     },
     {
       "epoch": 0.844436104334772,
+      "grad_norm": 3.3507306575775146,
+      "learning_rate": 4.303032201478512e-06,
+      "loss": 3.0678,
       "step": 4500
     },
     {
       "epoch": 0.9382623381497467,
+      "grad_norm": 2.8889214992523193,
+      "learning_rate": 4.224721212880592e-06,
+      "loss": 2.9878,
       "step": 5000
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4087302285483048,
+      "eval_loss": 2.9374125003814697,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1096.2596,
+      "eval_samples_per_second": 103.693,
+      "eval_steps_per_second": 12.962,
       "step": 5329
     },
     {
       "epoch": 1.0320885719647213,
+      "grad_norm": 3.342593193054199,
+      "learning_rate": 4.1464102242826715e-06,
+      "loss": 2.9069,
       "step": 5500
     },
     {
       "epoch": 1.125914805779696,
+      "grad_norm": 3.207279920578003,
+      "learning_rate": 4.0680992356847515e-06,
+      "loss": 2.8357,
       "step": 6000
     },
     {
       "epoch": 1.2197410395946706,
+      "grad_norm": 3.5192267894744873,
+      "learning_rate": 3.989788247086832e-06,
+      "loss": 2.7523,
       "step": 6500
     },
     {
       "epoch": 1.3135672734096453,
+      "grad_norm": 4.029764652252197,
+      "learning_rate": 3.911477258488912e-06,
+      "loss": 2.6941,
       "step": 7000
     },
     {
       "epoch": 1.40739350722462,
+      "grad_norm": 4.04934024810791,
+      "learning_rate": 3.833166269890992e-06,
+      "loss": 2.6166,
       "step": 7500
     },
     {
       "epoch": 1.5012197410395947,
+      "grad_norm": 5.199851989746094,
+      "learning_rate": 3.754855281293071e-06,
+      "loss": 2.5469,
       "step": 8000
     },
     {
       "epoch": 1.5950459748545693,
+      "grad_norm": 3.6607906818389893,
+      "learning_rate": 3.676544292695151e-06,
+      "loss": 2.4769,
       "step": 8500
     },
     {
       "epoch": 1.688872208669544,
+      "grad_norm": 4.265751361846924,
+      "learning_rate": 3.598233304097231e-06,
+      "loss": 2.4212,
       "step": 9000
     },
     {
       "epoch": 1.7826984424845187,
+      "grad_norm": 5.644491672515869,
+      "learning_rate": 3.5199223154993112e-06,
+      "loss": 2.3652,
       "step": 9500
     },
     {
       "epoch": 1.8765246762994934,
+      "grad_norm": 5.2569580078125,
+      "learning_rate": 3.4416113269013913e-06,
+      "loss": 2.2909,
       "step": 10000
     },
     {
       "epoch": 1.970350910114468,
+      "grad_norm": 6.754888534545898,
+      "learning_rate": 3.3633003383034714e-06,
+      "loss": 2.2504,
       "step": 10500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5390502665517181,
+      "eval_loss": 2.2533023357391357,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1104.9881,
+      "eval_samples_per_second": 102.874,
+      "eval_steps_per_second": 12.86,
       "step": 10658
     },
     {
       "epoch": 2.0641771439294425,
+      "grad_norm": 6.7972259521484375,
+      "learning_rate": 3.2849893497055506e-06,
+      "loss": 2.1715,
       "step": 11000
     },
     {
       "epoch": 2.1580033777444174,
+      "grad_norm": 3.576768398284912,
+      "learning_rate": 3.2066783611076307e-06,
+      "loss": 2.1279,
       "step": 11500
     },
     {
       "epoch": 2.251829611559392,
+      "grad_norm": 6.923471450805664,
+      "learning_rate": 3.1283673725097108e-06,
+      "loss": 2.0707,
       "step": 12000
     },
     {
       "epoch": 2.3456558453743668,
+      "grad_norm": 4.643533706665039,
+      "learning_rate": 3.050056383911791e-06,
+      "loss": 2.0385,
       "step": 12500
     },
     {
       "epoch": 2.4394820791893412,
+      "grad_norm": 6.029781341552734,
+      "learning_rate": 2.971745395313871e-06,
+      "loss": 1.9869,
       "step": 13000
     },
     {
       "epoch": 2.533308313004316,
+      "grad_norm": 5.756152153015137,
+      "learning_rate": 2.893434406715951e-06,
+      "loss": 1.9542,
       "step": 13500
     },
     {
       "epoch": 2.6271345468192906,
+      "grad_norm": 7.7480244636535645,
+      "learning_rate": 2.8151234181180302e-06,
+      "loss": 1.9093,
       "step": 14000
     },
     {
       "epoch": 2.7209607806342655,
+      "grad_norm": 9.918256759643555,
+      "learning_rate": 2.7368124295201103e-06,
+      "loss": 1.8805,
       "step": 14500
     },
     {
       "epoch": 2.81478701444924,
+      "grad_norm": 6.404055118560791,
+      "learning_rate": 2.6585014409221904e-06,
+      "loss": 1.8297,
       "step": 15000
     },
     {
       "epoch": 2.9086132482642144,
+      "grad_norm": 4.804295063018799,
+      "learning_rate": 2.5801904523242704e-06,
+      "loss": 1.794,
       "step": 15500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6154353678061826,
+      "eval_loss": 1.8137885332107544,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1101.4513,
+      "eval_samples_per_second": 103.204,
+      "eval_steps_per_second": 12.901,
       "step": 15987
     },
     {
       "epoch": 3.0024394820791893,
+      "grad_norm": 7.666245460510254,
+      "learning_rate": 2.5018794637263505e-06,
+      "loss": 1.7543,
       "step": 16000
     },
     {
       "epoch": 3.096265715894164,
+      "grad_norm": 8.590559005737305,
+      "learning_rate": 2.42356847512843e-06,
+      "loss": 1.7155,
       "step": 16500
     },
     {
       "epoch": 3.1900919497091387,
+      "grad_norm": 6.843356132507324,
+      "learning_rate": 2.3452574865305102e-06,
+      "loss": 1.6821,
       "step": 17000
     },
     {
       "epoch": 3.283918183524113,
+      "grad_norm": 10.152677536010742,
+      "learning_rate": 2.26694649793259e-06,
+      "loss": 1.6734,
       "step": 17500
     },
     {
       "epoch": 3.377744417339088,
+      "grad_norm": 7.38956356048584,
+      "learning_rate": 2.18863550933467e-06,
+      "loss": 1.6254,
       "step": 18000
     },
     {
       "epoch": 3.4715706511540625,
+      "grad_norm": 7.098983287811279,
+      "learning_rate": 2.1103245207367496e-06,
+      "loss": 1.6125,
       "step": 18500
     },
     {
       "epoch": 3.5653968849690374,
+      "grad_norm": 8.060213088989258,
+      "learning_rate": 2.0320135321388297e-06,
+      "loss": 1.5813,
       "step": 19000
     },
     {
       "epoch": 3.659223118784012,
+      "grad_norm": 7.161475658416748,
+      "learning_rate": 1.9537025435409098e-06,
+      "loss": 1.5367,
       "step": 19500
     },
     {
       "epoch": 3.7530493525989868,
+      "grad_norm": 14.963991165161133,
+      "learning_rate": 1.8753915549429896e-06,
+      "loss": 1.5131,
       "step": 20000
     },
     {
       "epoch": 3.846875586413961,
+      "grad_norm": 8.202707290649414,
+      "learning_rate": 1.7970805663450697e-06,
+      "loss": 1.5161,
       "step": 20500
     },
     {
       "epoch": 3.940701820228936,
+      "grad_norm": 7.647439002990723,
+      "learning_rate": 1.7187695777471498e-06,
+      "loss": 1.5041,
       "step": 21000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6565089642310467,
+      "eval_loss": 1.5613937377929688,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1094.3529,
+      "eval_samples_per_second": 103.873,
+      "eval_steps_per_second": 12.985,
       "step": 21316
     },
     {
       "epoch": 4.034528054043911,
+      "grad_norm": 6.454436779022217,
+      "learning_rate": 1.6404585891492294e-06,
+      "loss": 1.4779,
       "step": 21500
     },
     {
       "epoch": 4.128354287858885,
+      "grad_norm": 11.403889656066895,
+      "learning_rate": 1.5621476005513095e-06,
+      "loss": 1.4441,
       "step": 22000
     },
     {
       "epoch": 4.22218052167386,
+      "grad_norm": 10.452070236206055,
+      "learning_rate": 1.4838366119533896e-06,
+      "loss": 1.4355,
       "step": 22500
     },
     {
       "epoch": 4.316006755488835,
+      "grad_norm": 7.726356506347656,
+      "learning_rate": 1.4055256233554693e-06,
+      "loss": 1.4132,
       "step": 23000
     },
     {
       "epoch": 4.409832989303809,
+      "grad_norm": 6.455691337585449,
+      "learning_rate": 1.3272146347575493e-06,
+      "loss": 1.3937,
       "step": 23500
     },
     {
       "epoch": 4.503659223118784,
+      "grad_norm": 8.14889907836914,
+      "learning_rate": 1.2489036461596292e-06,
+      "loss": 1.3721,
       "step": 24000
     },
     {
       "epoch": 4.597485456933759,
+      "grad_norm": 8.627324104309082,
+      "learning_rate": 1.170592657561709e-06,
+      "loss": 1.3555,
       "step": 24500
     },
     {
       "epoch": 4.6913116907487336,
+      "grad_norm": 10.486886978149414,
+      "learning_rate": 1.0922816689637891e-06,
+      "loss": 1.377,
       "step": 25000
     },
     {
       "epoch": 4.785137924563708,
+      "grad_norm": 8.634580612182617,
+      "learning_rate": 1.013970680365869e-06,
+      "loss": 1.3634,
       "step": 25500
     },
     {
       "epoch": 4.8789641583786825,
+      "grad_norm": 9.948036193847656,
+      "learning_rate": 9.356596917679489e-07,
+      "loss": 1.3451,
       "step": 26000
     },
     {
       "epoch": 4.972790392193657,
+      "grad_norm": 10.133368492126465,
+      "learning_rate": 8.573487031700289e-07,
+      "loss": 1.3204,
       "step": 26500
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.6835072224079385,
+      "eval_loss": 1.4212292432785034,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1081.7006,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 13.137,
       "step": 26645
     },
     {
       "epoch": 5.066616626008632,
+      "grad_norm": 7.147021293640137,
+      "learning_rate": 7.790377145721088e-07,
+      "loss": 1.3151,
       "step": 27000
     },
     {
       "epoch": 5.160442859823607,
+      "grad_norm": 7.843013763427734,
+      "learning_rate": 7.007267259741888e-07,
+      "loss": 1.2924,
       "step": 27500
     },
     {
       "epoch": 5.254269093638581,
+      "grad_norm": 7.825103282928467,
+      "learning_rate": 6.224157373762686e-07,
+      "loss": 1.2944,
       "step": 28000
     },
     {
       "epoch": 5.348095327453556,
+      "grad_norm": 5.51339864730835,
+      "learning_rate": 5.441047487783486e-07,
+      "loss": 1.2958,
       "step": 28500
     },
     {
       "epoch": 5.441921561268531,
+      "grad_norm": 9.967358589172363,
+      "learning_rate": 4.657937601804285e-07,
+      "loss": 1.2925,
       "step": 29000
     },
     {
       "epoch": 5.5357477950835055,
+      "grad_norm": 7.193011283874512,
+      "learning_rate": 3.874827715825085e-07,
+      "loss": 1.2973,
       "step": 29500
     },
     {
       "epoch": 5.62957402889848,
+      "grad_norm": 7.687045097351074,
+      "learning_rate": 3.091717829845884e-07,
+      "loss": 1.2652,
       "step": 30000
     },
     {
       "epoch": 5.723400262713454,
+      "grad_norm": 12.939030647277832,
+      "learning_rate": 2.3086079438666836e-07,
+      "loss": 1.2808,
       "step": 30500
     },
     {
       "epoch": 5.81722649652843,
+      "grad_norm": 9.08949089050293,
+      "learning_rate": 1.525498057887483e-07,
+      "loss": 1.2643,
       "step": 31000
     },
     {
       "epoch": 5.911052730343404,
+      "grad_norm": 10.904788970947266,
+      "learning_rate": 7.423881719082822e-08,
+      "loss": 1.2828,
       "step": 31500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6924626563682108,
+      "eval_loss": 1.374941349029541,
+      "eval_model_preparation_time": 0.0053,
+      "eval_runtime": 1090.2857,
+      "eval_samples_per_second": 104.261,
+      "eval_steps_per_second": 13.033,
       "step": 31974
     }
   ],

checkpoint-31974/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5be75e60227ec3925963a94a4bd6597f67e127af381ca33e725a64c3425537be
 size 4731

 version https://git-lfs.github.com/spec/v1
+oid sha256:29015c96f2bea471733807d2f0d90a80549b90424dd54e981ee9e627381c13a5
 size 4731

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4434bb1c21783caa0078e23ee6f1962484398526b4d9b38ba912fb4305c8921d
 size 343387012

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f264162406cd17fcf0599f6f7c0ad35e95c7d2759c1a4c22c1c88689bb6fea6
 size 343387012

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5be75e60227ec3925963a94a4bd6597f67e127af381ca33e725a64c3425537be
 size 4731

 version https://git-lfs.github.com/spec/v1
+oid sha256:29015c96f2bea471733807d2f0d90a80549b90424dd54e981ee9e627381c13a5
 size 4731