Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Jun10_09-55-09_4c61f7eac1f1/events.out.tfevents.1718013803.4c61f7eac1f1.793.8 +3 -0
runs/Jun10_10-03-54_4c61f7eac1f1/events.out.tfevents.1718013834.4c61f7eac1f1.793.9 +3 -0
train_results.json +4 -4
trainer_state.json +145 -145
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.928125,
-    "eval_loss": 0.2525596618652344,
-    "eval_runtime": 2.8992,
-    "eval_samples_per_second": 110.376,
-    "eval_steps_per_second": 3.449,
     "total_flos": 8.32925255860224e+17,
-    "train_loss": 0.5647170758247375,
-    "train_runtime": 482.2543,
-    "train_samples_per_second": 53.084,
-    "train_steps_per_second": 0.415
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.903125,
+    "eval_loss": 0.3030492663383484,
+    "eval_runtime": 2.7444,
+    "eval_samples_per_second": 116.602,
+    "eval_steps_per_second": 3.644,
     "total_flos": 8.32925255860224e+17,
+    "train_loss": 0.5333085978031158,
+    "train_runtime": 482.5391,
+    "train_samples_per_second": 53.053,
+    "train_steps_per_second": 0.414
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.928125,
-    "eval_loss": 0.2525596618652344,
-    "eval_runtime": 2.8992,
-    "eval_samples_per_second": 110.376,
-    "eval_steps_per_second": 3.449
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.903125,
+    "eval_loss": 0.3030492663383484,
+    "eval_runtime": 2.7444,
+    "eval_samples_per_second": 116.602,
+    "eval_steps_per_second": 3.644
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4492651dec1b75bb2a5a9d617869b31a321f7040a9d0a37ed442434c9b0c8d2d
 size 110356296

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e961680588cf95e0d30b24da7074b2c0d77f56332cab62eacaed3af545bcb76
 size 110356296

runs/Jun10_09-55-09_4c61f7eac1f1/events.out.tfevents.1718013803.4c61f7eac1f1.793.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7ecccfb65b2e0794de96665027a112fb4b3187914712a60c06fe89715ed8326
+size 411

runs/Jun10_10-03-54_4c61f7eac1f1/events.out.tfevents.1718013834.4c61f7eac1f1.793.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17ce9aacc259b77eab5e8dc41106a5c6e90d9914466b10d5545ee07dc6ffb5cd
+size 5910

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
     "total_flos": 8.32925255860224e+17,
-    "train_loss": 0.5647170758247375,
-    "train_runtime": 482.2543,
-    "train_samples_per_second": 53.084,
-    "train_steps_per_second": 0.415
 }

 {
     "epoch": 20.0,
     "total_flos": 8.32925255860224e+17,
+    "train_loss": 0.5333085978031158,
+    "train_runtime": 482.5391,
+    "train_samples_per_second": 53.053,
+    "train_steps_per_second": 0.414
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.928125,
-  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-finalterm/checkpoint-200",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 200,
@@ -10,332 +10,332 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 2.6207761764526367,
       "learning_rate": 2.5e-05,
-      "loss": 1.4133,
       "step": 10
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.378125,
-      "eval_loss": 1.3333066701889038,
-      "eval_runtime": 2.787,
-      "eval_samples_per_second": 114.821,
-      "eval_steps_per_second": 3.588,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "grad_norm": 7.7114481925964355,
       "learning_rate": 5e-05,
-      "loss": 1.2307,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.534375,
-      "eval_loss": 1.0633662939071655,
-      "eval_runtime": 2.7679,
-      "eval_samples_per_second": 115.611,
-      "eval_steps_per_second": 3.613,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "grad_norm": 14.193839073181152,
       "learning_rate": 4.722222222222222e-05,
-      "loss": 0.9297,
       "step": 30
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.625,
-      "eval_loss": 0.8310818672180176,
-      "eval_runtime": 2.7652,
-      "eval_samples_per_second": 115.723,
-      "eval_steps_per_second": 3.616,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "grad_norm": 9.415961265563965,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.7477,
       "step": 40
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.70625,
-      "eval_loss": 0.6810880899429321,
-      "eval_runtime": 2.7914,
-      "eval_samples_per_second": 114.637,
-      "eval_steps_per_second": 3.582,
       "step": 40
     },
     {
       "epoch": 5.0,
-      "grad_norm": 7.488087177276611,
       "learning_rate": 4.166666666666667e-05,
-      "loss": 0.6441,
       "step": 50
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8125,
-      "eval_loss": 0.45663365721702576,
-      "eval_runtime": 2.8439,
-      "eval_samples_per_second": 112.523,
-      "eval_steps_per_second": 3.516,
       "step": 50
     },
     {
       "epoch": 6.0,
-      "grad_norm": 7.239401817321777,
       "learning_rate": 3.888888888888889e-05,
-      "loss": 0.5618,
       "step": 60
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.85625,
-      "eval_loss": 0.3988620340824127,
-      "eval_runtime": 2.8019,
-      "eval_samples_per_second": 114.209,
-      "eval_steps_per_second": 3.569,
       "step": 60
     },
     {
       "epoch": 7.0,
-      "grad_norm": 6.502441883087158,
       "learning_rate": 3.611111111111111e-05,
-      "loss": 0.4774,
       "step": 70
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.859375,
-      "eval_loss": 0.3833409249782562,
-      "eval_runtime": 2.7898,
-      "eval_samples_per_second": 114.702,
-      "eval_steps_per_second": 3.584,
       "step": 70
     },
     {
       "epoch": 8.0,
-      "grad_norm": 8.868508338928223,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.5328,
       "step": 80
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.865625,
-      "eval_loss": 0.36920028924942017,
-      "eval_runtime": 2.7882,
-      "eval_samples_per_second": 114.771,
-      "eval_steps_per_second": 3.587,
       "step": 80
     },
     {
       "epoch": 9.0,
-      "grad_norm": 5.555983066558838,
       "learning_rate": 3.055555555555556e-05,
-      "loss": 0.4705,
       "step": 90
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.89375,
-      "eval_loss": 0.2731629014015198,
-      "eval_runtime": 2.7951,
-      "eval_samples_per_second": 114.485,
-      "eval_steps_per_second": 3.578,
       "step": 90
     },
     {
       "epoch": 10.0,
-      "grad_norm": 6.331461429595947,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.4338,
       "step": 100
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9125,
-      "eval_loss": 0.25906652212142944,
-      "eval_runtime": 2.7785,
-      "eval_samples_per_second": 115.172,
-      "eval_steps_per_second": 3.599,
       "step": 100
     },
     {
       "epoch": 11.0,
-      "grad_norm": 9.486348152160645,
       "learning_rate": 2.5e-05,
-      "loss": 0.4548,
       "step": 110
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.89375,
-      "eval_loss": 0.3341856896877289,
-      "eval_runtime": 2.7783,
-      "eval_samples_per_second": 115.179,
-      "eval_steps_per_second": 3.599,
       "step": 110
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.805672645568848,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.4091,
       "step": 120
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 0.27951109409332275,
-      "eval_runtime": 2.784,
-      "eval_samples_per_second": 114.941,
-      "eval_steps_per_second": 3.592,
       "step": 120
     },
     {
       "epoch": 13.0,
-      "grad_norm": 6.052751541137695,
       "learning_rate": 1.9444444444444445e-05,
-      "loss": 0.3895,
       "step": 130
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.896875,
-      "eval_loss": 0.2881876826286316,
-      "eval_runtime": 2.7921,
-      "eval_samples_per_second": 114.609,
-      "eval_steps_per_second": 3.582,
       "step": 130
     },
     {
       "epoch": 14.0,
-      "grad_norm": 5.795813083648682,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.375,
       "step": 140
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 0.250267893075943,
-      "eval_runtime": 2.8168,
-      "eval_samples_per_second": 113.606,
-      "eval_steps_per_second": 3.55,
       "step": 140
     },
     {
       "epoch": 15.0,
-      "grad_norm": 4.954117774963379,
       "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3914,
       "step": 150
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.915625,
-      "eval_loss": 0.27446645498275757,
-      "eval_runtime": 2.8321,
-      "eval_samples_per_second": 112.992,
-      "eval_steps_per_second": 3.531,
       "step": 150
     },
     {
       "epoch": 16.0,
-      "grad_norm": 5.904136657714844,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.3757,
       "step": 160
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.91875,
-      "eval_loss": 0.25052276253700256,
-      "eval_runtime": 2.8221,
-      "eval_samples_per_second": 113.391,
-      "eval_steps_per_second": 3.543,
       "step": 160
     },
     {
       "epoch": 17.0,
-      "grad_norm": 7.244380474090576,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.3645,
       "step": 170
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 0.2719380557537079,
-      "eval_runtime": 2.8421,
-      "eval_samples_per_second": 112.594,
-      "eval_steps_per_second": 3.519,
       "step": 170
     },
     {
       "epoch": 18.0,
-      "grad_norm": 4.3203582763671875,
       "learning_rate": 5.555555555555556e-06,
-      "loss": 0.3735,
       "step": 180
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.91875,
-      "eval_loss": 0.2649078071117401,
-      "eval_runtime": 3.045,
-      "eval_samples_per_second": 105.092,
-      "eval_steps_per_second": 3.284,
       "step": 180
     },
     {
       "epoch": 19.0,
-      "grad_norm": 5.9344964027404785,
       "learning_rate": 2.777777777777778e-06,
-      "loss": 0.3498,
       "step": 190
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 0.2517745792865753,
-      "eval_runtime": 2.8415,
-      "eval_samples_per_second": 112.617,
-      "eval_steps_per_second": 3.519,
       "step": 190
     },
     {
       "epoch": 20.0,
-      "grad_norm": 3.646685838699341,
       "learning_rate": 0.0,
-      "loss": 0.3693,
       "step": 200
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.928125,
-      "eval_loss": 0.2525596618652344,
-      "eval_runtime": 2.8098,
-      "eval_samples_per_second": 113.888,
-      "eval_steps_per_second": 3.559,
       "step": 200
     },
     {
       "epoch": 20.0,
       "step": 200,
       "total_flos": 8.32925255860224e+17,
-      "train_loss": 0.5647170758247375,
-      "train_runtime": 482.2543,
-      "train_samples_per_second": 53.084,
-      "train_steps_per_second": 0.415
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.903125,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-finalterm/checkpoint-120",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 200,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.020592212677002,
       "learning_rate": 2.5e-05,
+      "loss": 1.3728,
       "step": 10
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.515625,
+      "eval_loss": 1.2643654346466064,
+      "eval_runtime": 2.8905,
+      "eval_samples_per_second": 110.709,
+      "eval_steps_per_second": 3.46,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "grad_norm": 5.058677673339844,
       "learning_rate": 5e-05,
+      "loss": 1.1308,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.625,
+      "eval_loss": 0.8816311955451965,
+      "eval_runtime": 2.7866,
+      "eval_samples_per_second": 114.835,
+      "eval_steps_per_second": 3.589,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "grad_norm": 7.673556327819824,
       "learning_rate": 4.722222222222222e-05,
+      "loss": 0.8721,
       "step": 30
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.70625,
+      "eval_loss": 0.6829319000244141,
+      "eval_runtime": 2.7596,
+      "eval_samples_per_second": 115.959,
+      "eval_steps_per_second": 3.624,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "grad_norm": 4.715519905090332,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.6919,
       "step": 40
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.80625,
+      "eval_loss": 0.5298391580581665,
+      "eval_runtime": 2.8001,
+      "eval_samples_per_second": 114.281,
+      "eval_steps_per_second": 3.571,
       "step": 40
     },
     {
       "epoch": 5.0,
+      "grad_norm": 7.957090377807617,
       "learning_rate": 4.166666666666667e-05,
+      "loss": 0.5876,
       "step": 50
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.86875,
+      "eval_loss": 0.4100002348423004,
+      "eval_runtime": 2.7806,
+      "eval_samples_per_second": 115.082,
+      "eval_steps_per_second": 3.596,
       "step": 50
     },
     {
       "epoch": 6.0,
+      "grad_norm": 6.996800899505615,
       "learning_rate": 3.888888888888889e-05,
+      "loss": 0.5504,
       "step": 60
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.853125,
+      "eval_loss": 0.4152528643608093,
+      "eval_runtime": 2.9983,
+      "eval_samples_per_second": 106.727,
+      "eval_steps_per_second": 3.335,
       "step": 60
     },
     {
       "epoch": 7.0,
+      "grad_norm": 4.525465965270996,
       "learning_rate": 3.611111111111111e-05,
+      "loss": 0.459,
       "step": 70
     },
     {
       "epoch": 7.0,
       "eval_accuracy": 0.859375,
+      "eval_loss": 0.3827503025531769,
+      "eval_runtime": 2.7918,
+      "eval_samples_per_second": 114.62,
+      "eval_steps_per_second": 3.582,
       "step": 70
     },
     {
       "epoch": 8.0,
+      "grad_norm": 4.351122856140137,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.4501,
       "step": 80
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.39407286047935486,
+      "eval_runtime": 2.7588,
+      "eval_samples_per_second": 115.992,
+      "eval_steps_per_second": 3.625,
       "step": 80
     },
     {
       "epoch": 9.0,
+      "grad_norm": 5.307958602905273,
       "learning_rate": 3.055555555555556e-05,
+      "loss": 0.4312,
       "step": 90
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.36500272154808044,
+      "eval_runtime": 2.7271,
+      "eval_samples_per_second": 117.34,
+      "eval_steps_per_second": 3.667,
       "step": 90
     },
     {
       "epoch": 10.0,
+      "grad_norm": 5.813844203948975,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4119,
       "step": 100
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.3515123128890991,
+      "eval_runtime": 2.736,
+      "eval_samples_per_second": 116.961,
+      "eval_steps_per_second": 3.655,
       "step": 100
     },
     {
       "epoch": 11.0,
+      "grad_norm": 8.393081665039062,
       "learning_rate": 2.5e-05,
+      "loss": 0.4014,
       "step": 110
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.896875,
+      "eval_loss": 0.3110010325908661,
+      "eval_runtime": 2.7536,
+      "eval_samples_per_second": 116.212,
+      "eval_steps_per_second": 3.632,
       "step": 110
     },
     {
       "epoch": 12.0,
+      "grad_norm": 5.969035625457764,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3896,
       "step": 120
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.3030492663383484,
+      "eval_runtime": 2.79,
+      "eval_samples_per_second": 114.693,
+      "eval_steps_per_second": 3.584,
       "step": 120
     },
     {
       "epoch": 13.0,
+      "grad_norm": 4.165198802947998,
       "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.3822,
       "step": 130
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.88125,
+      "eval_loss": 0.34730494022369385,
+      "eval_runtime": 2.7802,
+      "eval_samples_per_second": 115.099,
+      "eval_steps_per_second": 3.597,
       "step": 130
     },
     {
       "epoch": 14.0,
+      "grad_norm": 5.396005153656006,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.3985,
       "step": 140
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8875,
+      "eval_loss": 0.32879379391670227,
+      "eval_runtime": 2.7703,
+      "eval_samples_per_second": 115.511,
+      "eval_steps_per_second": 3.61,
       "step": 140
     },
     {
       "epoch": 15.0,
+      "grad_norm": 5.696004390716553,
       "learning_rate": 1.388888888888889e-05,
+      "loss": 0.3826,
       "step": 150
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.2924533486366272,
+      "eval_runtime": 2.7303,
+      "eval_samples_per_second": 117.204,
+      "eval_steps_per_second": 3.663,
       "step": 150
     },
     {
       "epoch": 16.0,
+      "grad_norm": 7.218973636627197,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3716,
       "step": 160
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.36188262701034546,
+      "eval_runtime": 2.726,
+      "eval_samples_per_second": 117.39,
+      "eval_steps_per_second": 3.668,
       "step": 160
     },
     {
       "epoch": 17.0,
+      "grad_norm": 7.728688716888428,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.365,
       "step": 170
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.2941049039363861,
+      "eval_runtime": 2.7206,
+      "eval_samples_per_second": 117.621,
+      "eval_steps_per_second": 3.676,
       "step": 170
     },
     {
       "epoch": 18.0,
+      "grad_norm": 5.3787126541137695,
       "learning_rate": 5.555555555555556e-06,
+      "loss": 0.3379,
       "step": 180
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.884375,
+      "eval_loss": 0.32390105724334717,
+      "eval_runtime": 2.7433,
+      "eval_samples_per_second": 116.648,
+      "eval_steps_per_second": 3.645,
       "step": 180
     },
     {
       "epoch": 19.0,
+      "grad_norm": 7.723823070526123,
       "learning_rate": 2.777777777777778e-06,
+      "loss": 0.3365,
       "step": 190
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.890625,
+      "eval_loss": 0.32600170373916626,
+      "eval_runtime": 2.7308,
+      "eval_samples_per_second": 117.184,
+      "eval_steps_per_second": 3.662,
       "step": 190
     },
     {
       "epoch": 20.0,
+      "grad_norm": 3.916741132736206,
       "learning_rate": 0.0,
+      "loss": 0.3429,
       "step": 200
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.89375,
+      "eval_loss": 0.3095899522304535,
+      "eval_runtime": 2.7374,
+      "eval_samples_per_second": 116.898,
+      "eval_steps_per_second": 3.653,
       "step": 200
     },
     {
       "epoch": 20.0,
       "step": 200,
       "total_flos": 8.32925255860224e+17,
+      "train_loss": 0.5333085978031158,
+      "train_runtime": 482.5391,
+      "train_samples_per_second": 53.053,
+      "train_steps_per_second": 0.414
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89704a8ffa8fa935c58374faffa61f4422a00f901c2baed996bf4daaf46ca61f
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:976498a472cd8225fd32cf833b48c1556b1af4b1f1385edd65a6ca2c0cf00704
 size 5176