Training in progress, epoch 1

Browse files

Files changed (11) hide show

all_results.json +5 -5
model.safetensors +1 -1
runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701976934.5dd1a2af6ce4.735.5 +3 -0
runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701978244.5dd1a2af6ce4.735.6 +3 -0
runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701978260.5dd1a2af6ce4.735.7 +3 -0
runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978315.5dd1a2af6ce4.735.8 +3 -0
runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978557.5dd1a2af6ce4.735.9 +3 -0
runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978876.5dd1a2af6ce4.735.10 +3 -0
train_results.json +5 -5
trainer_state.json +152 -152
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "total_flos": 8.923548605812163e+17,
-    "train_loss": 0.08083955053308126,
-    "train_runtime": 1105.8178,
-    "train_samples_per_second": 32.466,
-    "train_steps_per_second": 1.015
 }

 {
     "epoch": 3.0,
+    "total_flos": 8.924294285481738e+17,
+    "train_loss": 0.06514118614095245,
+    "train_runtime": 1099.2319,
+    "train_samples_per_second": 32.663,
+    "train_steps_per_second": 1.021
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0e331043dacae10437200020978f3dd05cb0db5295dff00e800ed7233b5aefb
 size 110342832

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c7ffb3113d1016163932d5b2bf3394d9f249e309e5201d1b81a1682bb1d4208
 size 110342832

runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701976934.5dd1a2af6ce4.735.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a037710cc319f5f08703d3c2c519640277167d9a045a11b1b81a41913798485
+size 4903

runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701978244.5dd1a2af6ce4.735.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d6a441d256038a87f28d16da3bad9aa844a1537c2d6a01237df4ee61a4bf896
+size 4749

runs/Dec07_17-37-42_5dd1a2af6ce4/events.out.tfevents.1701978260.5dd1a2af6ce4.735.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30ec5935832cdff92663edd5c6bdfcfc600accb6b7d58104436d2f6d7a09c0ff
+size 4749

runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978315.5dd1a2af6ce4.735.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51b078566cd93beb933d4f65debc0d145ab219a1df1ef711f34f44a37fdf5550
+size 7647

runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978557.5dd1a2af6ce4.735.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1daea6bd1d87712c834d1928a7c2b9ad86a4321568926226056b733dcbe77e2b
+size 5365

runs/Dec07_19-45-01_5dd1a2af6ce4/events.out.tfevents.1701978876.5dd1a2af6ce4.735.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9299ac12e3186d8cb65c90a0e1fa07c96a323f0e829683db32df502f52cd318
+size 10948

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "total_flos": 8.923548605812163e+17,
-    "train_loss": 0.08083955053308126,
-    "train_runtime": 1105.8178,
-    "train_samples_per_second": 32.466,
-    "train_steps_per_second": 1.015
 }

 {
     "epoch": 3.0,
+    "total_flos": 8.924294285481738e+17,
+    "train_loss": 0.06514118614095245,
+    "train_runtime": 1099.2319,
+    "train_samples_per_second": 32.663,
+    "train_steps_per_second": 1.021
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.9966577540106952,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1122",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1122,
@@ -11,753 +11,753 @@
     {
       "epoch": 0.03,
       "learning_rate": 4.424778761061947e-06,
-      "loss": 0.1447,
       "step": 10
     },
     {
       "epoch": 0.05,
       "learning_rate": 8.849557522123894e-06,
-      "loss": 0.1192,
       "step": 20
     },
     {
       "epoch": 0.08,
       "learning_rate": 1.3274336283185843e-05,
-      "loss": 0.1536,
       "step": 30
     },
     {
       "epoch": 0.11,
       "learning_rate": 1.7699115044247787e-05,
-      "loss": 0.0957,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 2.2123893805309738e-05,
-      "loss": 0.1448,
       "step": 50
     },
     {
       "epoch": 0.16,
       "learning_rate": 2.6548672566371686e-05,
-      "loss": 0.0811,
       "step": 60
     },
     {
       "epoch": 0.19,
       "learning_rate": 3.097345132743363e-05,
-      "loss": 0.0497,
       "step": 70
     },
     {
       "epoch": 0.21,
       "learning_rate": 3.5398230088495574e-05,
-      "loss": 0.0783,
       "step": 80
     },
     {
       "epoch": 0.24,
       "learning_rate": 3.982300884955752e-05,
-      "loss": 0.1392,
       "step": 90
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.4247787610619477e-05,
-      "loss": 0.1055,
       "step": 100
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.867256637168142e-05,
-      "loss": 0.101,
       "step": 110
     },
     {
       "epoch": 0.32,
       "learning_rate": 4.9653121902874134e-05,
-      "loss": 0.1205,
       "step": 120
     },
     {
       "epoch": 0.35,
       "learning_rate": 4.9157581764122896e-05,
-      "loss": 0.1494,
       "step": 130
     },
     {
       "epoch": 0.37,
       "learning_rate": 4.866204162537166e-05,
-      "loss": 0.1028,
       "step": 140
     },
     {
       "epoch": 0.4,
       "learning_rate": 4.816650148662042e-05,
-      "loss": 0.1006,
       "step": 150
     },
     {
       "epoch": 0.43,
       "learning_rate": 4.767096134786918e-05,
-      "loss": 0.0557,
       "step": 160
     },
     {
       "epoch": 0.45,
       "learning_rate": 4.717542120911794e-05,
-      "loss": 0.1063,
       "step": 170
     },
     {
       "epoch": 0.48,
       "learning_rate": 4.66798810703667e-05,
-      "loss": 0.0539,
       "step": 180
     },
     {
       "epoch": 0.51,
       "learning_rate": 4.618434093161546e-05,
-      "loss": 0.0737,
       "step": 190
     },
     {
       "epoch": 0.53,
       "learning_rate": 4.568880079286422e-05,
-      "loss": 0.1475,
       "step": 200
     },
     {
       "epoch": 0.56,
       "learning_rate": 4.5193260654112984e-05,
-      "loss": 0.1555,
       "step": 210
     },
     {
       "epoch": 0.59,
       "learning_rate": 4.4697720515361746e-05,
-      "loss": 0.1615,
       "step": 220
     },
     {
       "epoch": 0.61,
       "learning_rate": 4.420218037661051e-05,
-      "loss": 0.0902,
       "step": 230
     },
     {
       "epoch": 0.64,
       "learning_rate": 4.370664023785927e-05,
-      "loss": 0.1297,
       "step": 240
     },
     {
       "epoch": 0.67,
       "learning_rate": 4.321110009910803e-05,
-      "loss": 0.1006,
       "step": 250
     },
     {
       "epoch": 0.7,
       "learning_rate": 4.27155599603568e-05,
-      "loss": 0.0965,
       "step": 260
     },
     {
       "epoch": 0.72,
       "learning_rate": 4.222001982160555e-05,
-      "loss": 0.0892,
       "step": 270
     },
     {
       "epoch": 0.75,
       "learning_rate": 4.172447968285431e-05,
-      "loss": 0.1013,
       "step": 280
     },
     {
       "epoch": 0.78,
       "learning_rate": 4.122893954410307e-05,
-      "loss": 0.1074,
       "step": 290
     },
     {
       "epoch": 0.8,
       "learning_rate": 4.0733399405351834e-05,
-      "loss": 0.1227,
       "step": 300
     },
     {
       "epoch": 0.83,
       "learning_rate": 4.0237859266600596e-05,
-      "loss": 0.1254,
       "step": 310
     },
     {
       "epoch": 0.86,
       "learning_rate": 3.9742319127849357e-05,
-      "loss": 0.0848,
       "step": 320
     },
     {
       "epoch": 0.88,
       "learning_rate": 3.924677898909812e-05,
-      "loss": 0.0603,
       "step": 330
     },
     {
       "epoch": 0.91,
       "learning_rate": 3.8751238850346886e-05,
-      "loss": 0.0857,
       "step": 340
     },
     {
       "epoch": 0.94,
       "learning_rate": 3.825569871159564e-05,
-      "loss": 0.0647,
       "step": 350
     },
     {
       "epoch": 0.96,
       "learning_rate": 3.77601585728444e-05,
-      "loss": 0.1582,
       "step": 360
     },
     {
       "epoch": 0.99,
       "learning_rate": 3.726461843409316e-05,
-      "loss": 0.0568,
       "step": 370
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9939839572192514,
       "eval_confusion_matrix": [
         [
-          1500,
-          12
         ],
         [
-          6,
-          1474
         ]
       ],
-      "eval_loss": 0.018620800226926804,
-      "eval_precision": 0.9939921617106473,
-      "eval_recall": 0.9939839572192514,
-      "eval_runtime": 72.1884,
-      "eval_samples_per_second": 41.447,
-      "eval_steps_per_second": 5.181,
       "step": 374
     },
     {
       "epoch": 1.02,
       "learning_rate": 3.676907829534192e-05,
-      "loss": 0.0663,
       "step": 380
     },
     {
       "epoch": 1.04,
       "learning_rate": 3.6273538156590684e-05,
-      "loss": 0.0734,
       "step": 390
     },
     {
       "epoch": 1.07,
       "learning_rate": 3.5777998017839445e-05,
-      "loss": 0.0573,
       "step": 400
     },
     {
       "epoch": 1.1,
       "learning_rate": 3.5282457879088207e-05,
-      "loss": 0.0814,
       "step": 410
     },
     {
       "epoch": 1.12,
       "learning_rate": 3.4786917740336974e-05,
-      "loss": 0.1051,
       "step": 420
     },
     {
       "epoch": 1.15,
       "learning_rate": 3.429137760158573e-05,
-      "loss": 0.0577,
       "step": 430
     },
     {
       "epoch": 1.18,
       "learning_rate": 3.379583746283449e-05,
-      "loss": 0.0982,
       "step": 440
     },
     {
       "epoch": 1.2,
       "learning_rate": 3.330029732408325e-05,
-      "loss": 0.0565,
       "step": 450
     },
     {
       "epoch": 1.23,
       "learning_rate": 3.280475718533201e-05,
-      "loss": 0.102,
       "step": 460
     },
     {
       "epoch": 1.26,
       "learning_rate": 3.230921704658077e-05,
-      "loss": 0.0903,
       "step": 470
     },
     {
       "epoch": 1.28,
       "learning_rate": 3.1813676907829534e-05,
-      "loss": 0.0685,
       "step": 480
     },
     {
       "epoch": 1.31,
       "learning_rate": 3.13181367690783e-05,
-      "loss": 0.1463,
       "step": 490
     },
     {
       "epoch": 1.34,
       "learning_rate": 3.0822596630327057e-05,
-      "loss": 0.0471,
       "step": 500
     },
     {
       "epoch": 1.36,
       "learning_rate": 3.0327056491575818e-05,
-      "loss": 0.0769,
       "step": 510
     },
     {
       "epoch": 1.39,
       "learning_rate": 2.983151635282458e-05,
-      "loss": 0.1638,
       "step": 520
     },
     {
       "epoch": 1.42,
       "learning_rate": 2.933597621407334e-05,
-      "loss": 0.1509,
       "step": 530
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.88404360753221e-05,
-      "loss": 0.1363,
       "step": 540
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.8344895936570865e-05,
-      "loss": 0.1368,
       "step": 550
     },
     {
       "epoch": 1.5,
       "learning_rate": 2.7849355797819627e-05,
-      "loss": 0.0966,
       "step": 560
     },
     {
       "epoch": 1.52,
       "learning_rate": 2.7353815659068388e-05,
-      "loss": 0.0519,
       "step": 570
     },
     {
       "epoch": 1.55,
       "learning_rate": 2.6858275520317145e-05,
-      "loss": 0.0844,
       "step": 580
     },
     {
       "epoch": 1.58,
       "learning_rate": 2.6362735381565906e-05,
-      "loss": 0.0657,
       "step": 590
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.5867195242814668e-05,
-      "loss": 0.0832,
       "step": 600
     },
     {
       "epoch": 1.63,
       "learning_rate": 2.537165510406343e-05,
-      "loss": 0.0503,
       "step": 610
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.4876114965312193e-05,
-      "loss": 0.0505,
       "step": 620
     },
     {
       "epoch": 1.68,
       "learning_rate": 2.4380574826560954e-05,
-      "loss": 0.0752,
       "step": 630
     },
     {
       "epoch": 1.71,
       "learning_rate": 2.3885034687809712e-05,
-      "loss": 0.0586,
       "step": 640
     },
     {
       "epoch": 1.74,
       "learning_rate": 2.3389494549058473e-05,
-      "loss": 0.1451,
       "step": 650
     },
     {
       "epoch": 1.76,
       "learning_rate": 2.2893954410307238e-05,
-      "loss": 0.0411,
       "step": 660
     },
     {
       "epoch": 1.79,
       "learning_rate": 2.2398414271556e-05,
-      "loss": 0.065,
       "step": 670
     },
     {
       "epoch": 1.82,
       "learning_rate": 2.1902874132804756e-05,
-      "loss": 0.056,
       "step": 680
     },
     {
       "epoch": 1.84,
       "learning_rate": 2.1407333994053518e-05,
-      "loss": 0.0944,
       "step": 690
     },
     {
       "epoch": 1.87,
       "learning_rate": 2.0911793855302282e-05,
-      "loss": 0.0587,
       "step": 700
     },
     {
       "epoch": 1.9,
       "learning_rate": 2.0416253716551043e-05,
-      "loss": 0.078,
       "step": 710
     },
     {
       "epoch": 1.93,
       "learning_rate": 1.99207135777998e-05,
-      "loss": 0.0977,
       "step": 720
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.9425173439048562e-05,
-      "loss": 0.0824,
       "step": 730
     },
     {
       "epoch": 1.98,
       "learning_rate": 1.8929633300297326e-05,
-      "loss": 0.0516,
       "step": 740
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9959893048128342,
       "eval_confusion_matrix": [
         [
-          1504,
-          8
         ],
         [
-          4,
-          1476
         ]
       ],
-      "eval_loss": 0.019116541370749474,
-      "eval_precision": 0.9959929656626814,
-      "eval_recall": 0.9959893048128342,
-      "eval_runtime": 71.8731,
-      "eval_samples_per_second": 41.629,
-      "eval_steps_per_second": 5.204,
       "step": 748
     },
     {
       "epoch": 2.01,
       "learning_rate": 1.8434093161546088e-05,
-      "loss": 0.0374,
       "step": 750
     },
     {
       "epoch": 2.03,
       "learning_rate": 1.7938553022794845e-05,
-      "loss": 0.0372,
       "step": 760
     },
     {
       "epoch": 2.06,
       "learning_rate": 1.7443012884043606e-05,
-      "loss": 0.0383,
       "step": 770
     },
     {
       "epoch": 2.09,
       "learning_rate": 1.694747274529237e-05,
-      "loss": 0.0681,
       "step": 780
     },
     {
       "epoch": 2.11,
       "learning_rate": 1.6451932606541132e-05,
-      "loss": 0.0671,
       "step": 790
     },
     {
       "epoch": 2.14,
       "learning_rate": 1.595639246778989e-05,
-      "loss": 0.1392,
       "step": 800
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.5460852329038654e-05,
-      "loss": 0.046,
       "step": 810
     },
     {
       "epoch": 2.19,
       "learning_rate": 1.4965312190287414e-05,
-      "loss": 0.0262,
       "step": 820
     },
     {
       "epoch": 2.22,
       "learning_rate": 1.4469772051536176e-05,
-      "loss": 0.0363,
       "step": 830
     },
     {
       "epoch": 2.25,
       "learning_rate": 1.3974231912784936e-05,
-      "loss": 0.0356,
       "step": 840
     },
     {
       "epoch": 2.27,
       "learning_rate": 1.3478691774033697e-05,
-      "loss": 0.0541,
       "step": 850
     },
     {
       "epoch": 2.3,
       "learning_rate": 1.298315163528246e-05,
-      "loss": 0.0817,
       "step": 860
     },
     {
       "epoch": 2.33,
       "learning_rate": 1.2487611496531219e-05,
-      "loss": 0.0901,
       "step": 870
     },
     {
       "epoch": 2.35,
       "learning_rate": 1.1992071357779982e-05,
-      "loss": 0.0903,
       "step": 880
     },
     {
       "epoch": 2.38,
       "learning_rate": 1.1496531219028741e-05,
-      "loss": 0.06,
       "step": 890
     },
     {
       "epoch": 2.41,
       "learning_rate": 1.1000991080277504e-05,
-      "loss": 0.022,
       "step": 900
     },
     {
       "epoch": 2.43,
       "learning_rate": 1.0505450941526264e-05,
-      "loss": 0.0427,
       "step": 910
     },
     {
       "epoch": 2.46,
       "learning_rate": 1.0009910802775026e-05,
-      "loss": 0.0745,
       "step": 920
     },
     {
       "epoch": 2.49,
       "learning_rate": 9.514370664023786e-06,
-      "loss": 0.0923,
       "step": 930
     },
     {
       "epoch": 2.51,
       "learning_rate": 9.018830525272549e-06,
-      "loss": 0.0665,
       "step": 940
     },
     {
       "epoch": 2.54,
       "learning_rate": 8.523290386521308e-06,
-      "loss": 0.0664,
       "step": 950
     },
     {
       "epoch": 2.57,
       "learning_rate": 8.02775024777007e-06,
-      "loss": 0.0656,
       "step": 960
     },
     {
       "epoch": 2.59,
       "learning_rate": 7.532210109018831e-06,
-      "loss": 0.0269,
       "step": 970
     },
     {
       "epoch": 2.62,
       "learning_rate": 7.036669970267593e-06,
-      "loss": 0.0396,
       "step": 980
     },
     {
       "epoch": 2.65,
       "learning_rate": 6.541129831516353e-06,
-      "loss": 0.0346,
       "step": 990
     },
     {
       "epoch": 2.67,
       "learning_rate": 6.045589692765114e-06,
-      "loss": 0.0493,
       "step": 1000
     },
     {
       "epoch": 2.7,
       "learning_rate": 5.5500495540138754e-06,
-      "loss": 0.0877,
       "step": 1010
     },
     {
       "epoch": 2.73,
       "learning_rate": 5.0545094152626366e-06,
-      "loss": 0.0233,
       "step": 1020
     },
     {
       "epoch": 2.75,
       "learning_rate": 4.558969276511398e-06,
-      "loss": 0.0519,
       "step": 1030
     },
     {
       "epoch": 2.78,
       "learning_rate": 4.063429137760159e-06,
-      "loss": 0.0714,
       "step": 1040
     },
     {
       "epoch": 2.81,
       "learning_rate": 3.56788899900892e-06,
-      "loss": 0.0208,
       "step": 1050
     },
     {
       "epoch": 2.83,
       "learning_rate": 3.072348860257681e-06,
-      "loss": 0.0511,
       "step": 1060
     },
     {
       "epoch": 2.86,
       "learning_rate": 2.576808721506442e-06,
-      "loss": 0.068,
       "step": 1070
     },
     {
       "epoch": 2.89,
       "learning_rate": 2.081268582755203e-06,
-      "loss": 0.0374,
       "step": 1080
     },
     {
       "epoch": 2.91,
       "learning_rate": 1.5857284440039643e-06,
-      "loss": 0.016,
       "step": 1090
     },
     {
       "epoch": 2.94,
       "learning_rate": 1.0901883052527254e-06,
-      "loss": 0.0198,
       "step": 1100
     },
     {
       "epoch": 2.97,
       "learning_rate": 5.946481665014866e-07,
-      "loss": 0.0475,
       "step": 1110
     },
     {
       "epoch": 2.99,
       "learning_rate": 9.910802775024777e-08,
-      "loss": 0.0719,
       "step": 1120
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9966577540106952,
       "eval_confusion_matrix": [
         [
           1506,
-          6
         ],
         [
-          4,
-          1476
         ]
       ],
-      "eval_loss": 0.015446790494024754,
-      "eval_precision": 0.9966586895563994,
-      "eval_recall": 0.9966577540106952,
-      "eval_runtime": 71.211,
-      "eval_samples_per_second": 42.016,
-      "eval_steps_per_second": 5.252,
       "step": 1122
     },
     {
       "epoch": 3.0,
       "step": 1122,
-      "total_flos": 8.923548605812163e+17,
-      "train_loss": 0.08083955053308126,
-      "train_runtime": 1105.8178,
-      "train_samples_per_second": 32.466,
-      "train_steps_per_second": 1.015
     }
   ],
   "logging_steps": 10,
   "max_steps": 1122,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 8.923548605812163e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9304580407890337,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-748",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1122,
     {
       "epoch": 0.03,
       "learning_rate": 4.424778761061947e-06,
+      "loss": 0.0218,
       "step": 10
     },
     {
       "epoch": 0.05,
       "learning_rate": 8.849557522123894e-06,
+      "loss": 0.0608,
       "step": 20
     },
     {
       "epoch": 0.08,
       "learning_rate": 1.3274336283185843e-05,
+      "loss": 0.1012,
       "step": 30
     },
     {
       "epoch": 0.11,
       "learning_rate": 1.7699115044247787e-05,
+      "loss": 0.1097,
       "step": 40
     },
     {
       "epoch": 0.13,
       "learning_rate": 2.2123893805309738e-05,
+      "loss": 0.0407,
       "step": 50
     },
     {
       "epoch": 0.16,
       "learning_rate": 2.6548672566371686e-05,
+      "loss": 0.0788,
       "step": 60
     },
     {
       "epoch": 0.19,
       "learning_rate": 3.097345132743363e-05,
+      "loss": 0.1467,
       "step": 70
     },
     {
       "epoch": 0.21,
       "learning_rate": 3.5398230088495574e-05,
+      "loss": 0.0436,
       "step": 80
     },
     {
       "epoch": 0.24,
       "learning_rate": 3.982300884955752e-05,
+      "loss": 0.0363,
       "step": 90
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.4247787610619477e-05,
+      "loss": 0.1346,
       "step": 100
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.867256637168142e-05,
+      "loss": 0.1131,
       "step": 110
     },
     {
       "epoch": 0.32,
       "learning_rate": 4.9653121902874134e-05,
+      "loss": 0.0879,
       "step": 120
     },
     {
       "epoch": 0.35,
       "learning_rate": 4.9157581764122896e-05,
+      "loss": 0.0898,
       "step": 130
     },
     {
       "epoch": 0.37,
       "learning_rate": 4.866204162537166e-05,
+      "loss": 0.067,
       "step": 140
     },
     {
       "epoch": 0.4,
       "learning_rate": 4.816650148662042e-05,
+      "loss": 0.0875,
       "step": 150
     },
     {
       "epoch": 0.43,
       "learning_rate": 4.767096134786918e-05,
+      "loss": 0.1182,
       "step": 160
     },
     {
       "epoch": 0.45,
       "learning_rate": 4.717542120911794e-05,
+      "loss": 0.0777,
       "step": 170
     },
     {
       "epoch": 0.48,
       "learning_rate": 4.66798810703667e-05,
+      "loss": 0.1198,
       "step": 180
     },
     {
       "epoch": 0.51,
       "learning_rate": 4.618434093161546e-05,
+      "loss": 0.1235,
       "step": 190
     },
     {
       "epoch": 0.53,
       "learning_rate": 4.568880079286422e-05,
+      "loss": 0.0982,
       "step": 200
     },
     {
       "epoch": 0.56,
       "learning_rate": 4.5193260654112984e-05,
+      "loss": 0.0373,
       "step": 210
     },
     {
       "epoch": 0.59,
       "learning_rate": 4.4697720515361746e-05,
+      "loss": 0.1309,
       "step": 220
     },
     {
       "epoch": 0.61,
       "learning_rate": 4.420218037661051e-05,
+      "loss": 0.0781,
       "step": 230
     },
     {
       "epoch": 0.64,
       "learning_rate": 4.370664023785927e-05,
+      "loss": 0.1057,
       "step": 240
     },
     {
       "epoch": 0.67,
       "learning_rate": 4.321110009910803e-05,
+      "loss": 0.1375,
       "step": 250
     },
     {
       "epoch": 0.7,
       "learning_rate": 4.27155599603568e-05,
+      "loss": 0.0338,
       "step": 260
     },
     {
       "epoch": 0.72,
       "learning_rate": 4.222001982160555e-05,
+      "loss": 0.1145,
       "step": 270
     },
     {
       "epoch": 0.75,
       "learning_rate": 4.172447968285431e-05,
+      "loss": 0.0874,
       "step": 280
     },
     {
       "epoch": 0.78,
       "learning_rate": 4.122893954410307e-05,
+      "loss": 0.1257,
       "step": 290
     },
     {
       "epoch": 0.8,
       "learning_rate": 4.0733399405351834e-05,
+      "loss": 0.09,
       "step": 300
     },
     {
       "epoch": 0.83,
       "learning_rate": 4.0237859266600596e-05,
+      "loss": 0.0619,
       "step": 310
     },
     {
       "epoch": 0.86,
       "learning_rate": 3.9742319127849357e-05,
+      "loss": 0.0678,
       "step": 320
     },
     {
       "epoch": 0.88,
       "learning_rate": 3.924677898909812e-05,
+      "loss": 0.1208,
       "step": 330
     },
     {
       "epoch": 0.91,
       "learning_rate": 3.8751238850346886e-05,
+      "loss": 0.0344,
       "step": 340
     },
     {
       "epoch": 0.94,
       "learning_rate": 3.825569871159564e-05,
+      "loss": 0.1028,
       "step": 350
     },
     {
       "epoch": 0.96,
       "learning_rate": 3.77601585728444e-05,
+      "loss": 0.0468,
       "step": 360
     },
     {
       "epoch": 0.99,
       "learning_rate": 3.726461843409316e-05,
+      "loss": 0.0727,
       "step": 370
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.905717151454363,
       "eval_confusion_matrix": [
         [
+          1508,
+          3
         ],
         [
+          279,
+          1201
         ]
       ],
+      "eval_loss": 0.29149046540260315,
+      "eval_precision": 0.9198941847825107,
+      "eval_recall": 0.905717151454363,
+      "eval_runtime": 59.6464,
+      "eval_samples_per_second": 50.146,
+      "eval_steps_per_second": 6.27,
       "step": 374
     },
     {
       "epoch": 1.02,
       "learning_rate": 3.676907829534192e-05,
+      "loss": 0.0519,
       "step": 380
     },
     {
       "epoch": 1.04,
       "learning_rate": 3.6273538156590684e-05,
+      "loss": 0.093,
       "step": 390
     },
     {
       "epoch": 1.07,
       "learning_rate": 3.5777998017839445e-05,
+      "loss": 0.0575,
       "step": 400
     },
     {
       "epoch": 1.1,
       "learning_rate": 3.5282457879088207e-05,
+      "loss": 0.0909,
       "step": 410
     },
     {
       "epoch": 1.12,
       "learning_rate": 3.4786917740336974e-05,
+      "loss": 0.0944,
       "step": 420
     },
     {
       "epoch": 1.15,
       "learning_rate": 3.429137760158573e-05,
+      "loss": 0.0738,
       "step": 430
     },
     {
       "epoch": 1.18,
       "learning_rate": 3.379583746283449e-05,
+      "loss": 0.1116,
       "step": 440
     },
     {
       "epoch": 1.2,
       "learning_rate": 3.330029732408325e-05,
+      "loss": 0.0861,
       "step": 450
     },
     {
       "epoch": 1.23,
       "learning_rate": 3.280475718533201e-05,
+      "loss": 0.0376,
       "step": 460
     },
     {
       "epoch": 1.26,
       "learning_rate": 3.230921704658077e-05,
+      "loss": 0.0339,
       "step": 470
     },
     {
       "epoch": 1.28,
       "learning_rate": 3.1813676907829534e-05,
+      "loss": 0.0791,
       "step": 480
     },
     {
       "epoch": 1.31,
       "learning_rate": 3.13181367690783e-05,
+      "loss": 0.0621,
       "step": 490
     },
     {
       "epoch": 1.34,
       "learning_rate": 3.0822596630327057e-05,
+      "loss": 0.0911,
       "step": 500
     },
     {
       "epoch": 1.36,
       "learning_rate": 3.0327056491575818e-05,
+      "loss": 0.0688,
       "step": 510
     },
     {
       "epoch": 1.39,
       "learning_rate": 2.983151635282458e-05,
+      "loss": 0.0797,
       "step": 520
     },
     {
       "epoch": 1.42,
       "learning_rate": 2.933597621407334e-05,
+      "loss": 0.0315,
       "step": 530
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.88404360753221e-05,
+      "loss": 0.0703,
       "step": 540
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.8344895936570865e-05,
+      "loss": 0.0482,
       "step": 550
     },
     {
       "epoch": 1.5,
       "learning_rate": 2.7849355797819627e-05,
+      "loss": 0.0723,
       "step": 560
     },
     {
       "epoch": 1.52,
       "learning_rate": 2.7353815659068388e-05,
+      "loss": 0.067,
       "step": 570
     },
     {
       "epoch": 1.55,
       "learning_rate": 2.6858275520317145e-05,
+      "loss": 0.0432,
       "step": 580
     },
     {
       "epoch": 1.58,
       "learning_rate": 2.6362735381565906e-05,
+      "loss": 0.0915,
       "step": 590
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.5867195242814668e-05,
+      "loss": 0.0428,
       "step": 600
     },
     {
       "epoch": 1.63,
       "learning_rate": 2.537165510406343e-05,
+      "loss": 0.0547,
       "step": 610
     },
     {
       "epoch": 1.66,
       "learning_rate": 2.4876114965312193e-05,
+      "loss": 0.0834,
       "step": 620
     },
     {
       "epoch": 1.68,
       "learning_rate": 2.4380574826560954e-05,
+      "loss": 0.1056,
       "step": 630
     },
     {
       "epoch": 1.71,
       "learning_rate": 2.3885034687809712e-05,
+      "loss": 0.0595,
       "step": 640
     },
     {
       "epoch": 1.74,
       "learning_rate": 2.3389494549058473e-05,
+      "loss": 0.0547,
       "step": 650
     },
     {
       "epoch": 1.76,
       "learning_rate": 2.2893954410307238e-05,
+      "loss": 0.0575,
       "step": 660
     },
     {
       "epoch": 1.79,
       "learning_rate": 2.2398414271556e-05,
+      "loss": 0.0444,
       "step": 670
     },
     {
       "epoch": 1.82,
       "learning_rate": 2.1902874132804756e-05,
+      "loss": 0.0269,
       "step": 680
     },
     {
       "epoch": 1.84,
       "learning_rate": 2.1407333994053518e-05,
+      "loss": 0.0118,
       "step": 690
     },
     {
       "epoch": 1.87,
       "learning_rate": 2.0911793855302282e-05,
+      "loss": 0.0489,
       "step": 700
     },
     {
       "epoch": 1.9,
       "learning_rate": 2.0416253716551043e-05,
+      "loss": 0.1239,
       "step": 710
     },
     {
       "epoch": 1.93,
       "learning_rate": 1.99207135777998e-05,
+      "loss": 0.0958,
       "step": 720
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.9425173439048562e-05,
+      "loss": 0.1,
       "step": 730
     },
     {
       "epoch": 1.98,
       "learning_rate": 1.8929633300297326e-05,
+      "loss": 0.0635,
       "step": 740
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9304580407890337,
       "eval_confusion_matrix": [
         [
+          1505,
+          6
         ],
         [
+          202,
+          1278
         ]
       ],
+      "eval_loss": 0.17639653384685516,
+      "eval_precision": 0.9379063923736161,
+      "eval_recall": 0.9304580407890337,
+      "eval_runtime": 59.9361,
+      "eval_samples_per_second": 49.903,
+      "eval_steps_per_second": 6.24,
       "step": 748
     },
     {
       "epoch": 2.01,
       "learning_rate": 1.8434093161546088e-05,
+      "loss": 0.0345,
       "step": 750
     },
     {
       "epoch": 2.03,
       "learning_rate": 1.7938553022794845e-05,
+      "loss": 0.0866,
       "step": 760
     },
     {
       "epoch": 2.06,
       "learning_rate": 1.7443012884043606e-05,
+      "loss": 0.0151,
       "step": 770
     },
     {
       "epoch": 2.09,
       "learning_rate": 1.694747274529237e-05,
+      "loss": 0.0656,
       "step": 780
     },
     {
       "epoch": 2.11,
       "learning_rate": 1.6451932606541132e-05,
+      "loss": 0.0597,
       "step": 790
     },
     {
       "epoch": 2.14,
       "learning_rate": 1.595639246778989e-05,
+      "loss": 0.0368,
       "step": 800
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.5460852329038654e-05,
+      "loss": 0.0472,
       "step": 810
     },
     {
       "epoch": 2.19,
       "learning_rate": 1.4965312190287414e-05,
+      "loss": 0.082,
       "step": 820
     },
     {
       "epoch": 2.22,
       "learning_rate": 1.4469772051536176e-05,
+      "loss": 0.0437,
       "step": 830
     },
     {
       "epoch": 2.25,
       "learning_rate": 1.3974231912784936e-05,
+      "loss": 0.0298,
       "step": 840
     },
     {
       "epoch": 2.27,
       "learning_rate": 1.3478691774033697e-05,
+      "loss": 0.0314,
       "step": 850
     },
     {
       "epoch": 2.3,
       "learning_rate": 1.298315163528246e-05,
+      "loss": 0.0419,
       "step": 860
     },
     {
       "epoch": 2.33,
       "learning_rate": 1.2487611496531219e-05,
+      "loss": 0.0314,
       "step": 870
     },
     {
       "epoch": 2.35,
       "learning_rate": 1.1992071357779982e-05,
+      "loss": 0.0206,
       "step": 880
     },
     {
       "epoch": 2.38,
       "learning_rate": 1.1496531219028741e-05,
+      "loss": 0.0667,
       "step": 890
     },
     {
       "epoch": 2.41,
       "learning_rate": 1.1000991080277504e-05,
+      "loss": 0.0498,
       "step": 900
     },
     {
       "epoch": 2.43,
       "learning_rate": 1.0505450941526264e-05,
+      "loss": 0.0168,
       "step": 910
     },
     {
       "epoch": 2.46,
       "learning_rate": 1.0009910802775026e-05,
+      "loss": 0.0458,
       "step": 920
     },
     {
       "epoch": 2.49,
       "learning_rate": 9.514370664023786e-06,
+      "loss": 0.0292,
       "step": 930
     },
     {
       "epoch": 2.51,
       "learning_rate": 9.018830525272549e-06,
+      "loss": 0.0849,
       "step": 940
     },
     {
       "epoch": 2.54,
       "learning_rate": 8.523290386521308e-06,
+      "loss": 0.0332,
       "step": 950
     },
     {
       "epoch": 2.57,
       "learning_rate": 8.02775024777007e-06,
+      "loss": 0.0523,
       "step": 960
     },
     {
       "epoch": 2.59,
       "learning_rate": 7.532210109018831e-06,
+      "loss": 0.0458,
       "step": 970
     },
     {
       "epoch": 2.62,
       "learning_rate": 7.036669970267593e-06,
+      "loss": 0.0254,
       "step": 980
     },
     {
       "epoch": 2.65,
       "learning_rate": 6.541129831516353e-06,
+      "loss": 0.0504,
       "step": 990
     },
     {
       "epoch": 2.67,
       "learning_rate": 6.045589692765114e-06,
+      "loss": 0.0441,
       "step": 1000
     },
     {
       "epoch": 2.7,
       "learning_rate": 5.5500495540138754e-06,
+      "loss": 0.0362,
       "step": 1010
     },
     {
       "epoch": 2.73,
       "learning_rate": 5.0545094152626366e-06,
+      "loss": 0.0589,
       "step": 1020
     },
     {
       "epoch": 2.75,
       "learning_rate": 4.558969276511398e-06,
+      "loss": 0.0199,
       "step": 1030
     },
     {
       "epoch": 2.78,
       "learning_rate": 4.063429137760159e-06,
+      "loss": 0.0215,
       "step": 1040
     },
     {
       "epoch": 2.81,
       "learning_rate": 3.56788899900892e-06,
+      "loss": 0.0281,
       "step": 1050
     },
     {
       "epoch": 2.83,
       "learning_rate": 3.072348860257681e-06,
+      "loss": 0.0395,
       "step": 1060
     },
     {
       "epoch": 2.86,
       "learning_rate": 2.576808721506442e-06,
+      "loss": 0.0603,
       "step": 1070
     },
     {
       "epoch": 2.89,
       "learning_rate": 2.081268582755203e-06,
+      "loss": 0.0299,
       "step": 1080
     },
     {
       "epoch": 2.91,
       "learning_rate": 1.5857284440039643e-06,
+      "loss": 0.0488,
       "step": 1090
     },
     {
       "epoch": 2.94,
       "learning_rate": 1.0901883052527254e-06,
+      "loss": 0.0206,
       "step": 1100
     },
     {
       "epoch": 2.97,
       "learning_rate": 5.946481665014866e-07,
+      "loss": 0.0205,
       "step": 1110
     },
     {
       "epoch": 2.99,
       "learning_rate": 9.910802775024777e-08,
+      "loss": 0.0396,
       "step": 1120
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8993647609495152,
       "eval_confusion_matrix": [
         [
           1506,
+          5
         ],
         [
+          296,
+          1184
         ]
       ],
+      "eval_loss": 0.2879287004470825,
+      "eval_precision": 0.914936979126043,
+      "eval_recall": 0.8993647609495152,
+      "eval_runtime": 61.2494,
+      "eval_samples_per_second": 48.833,
+      "eval_steps_per_second": 6.106,
       "step": 1122
     },
     {
       "epoch": 3.0,
       "step": 1122,
+      "total_flos": 8.924294285481738e+17,
+      "train_loss": 0.06514118614095245,
+      "train_runtime": 1099.2319,
+      "train_samples_per_second": 32.663,
+      "train_steps_per_second": 1.021
     }
   ],
   "logging_steps": 10,
   "max_steps": 1122,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 8.924294285481738e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aca10a4fad927bbd6fbbbae1f72a45398090f53eff5939d59b7c82a2601cf088
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba0836a3bceb1649ba314ad98db1212abc6ff6b9b4c6c91de913dcd1e8190f62
 size 4664