Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Jun10_11-47-37_4c61f7eac1f1/events.out.tfevents.1718020528.4c61f7eac1f1.793.18 +3 -0
runs/Jun10_11-55-42_4c61f7eac1f1/events.out.tfevents.1718020543.4c61f7eac1f1.793.19 +3 -0
train_results.json +4 -4
trainer_state.json +111 -111
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 15.0,
-    "eval_accuracy": 0.878125,
-    "eval_loss": 0.3683047890663147,
-    "eval_runtime": 3.1898,
-    "eval_samples_per_second": 100.318,
-    "eval_steps_per_second": 3.135,
     "total_flos": 1.4878728707899392e+18,
-    "train_loss": 0.48002211888631185,
-    "train_runtime": 441.2201,
-    "train_samples_per_second": 43.516,
-    "train_steps_per_second": 0.34
 }

 {
     "epoch": 15.0,
+    "eval_accuracy": 0.915625,
+    "eval_loss": 0.26764923334121704,
+    "eval_runtime": 3.0974,
+    "eval_samples_per_second": 103.313,
+    "eval_steps_per_second": 3.229,
     "total_flos": 1.4878728707899392e+18,
+    "train_loss": 0.5071320374806721,
+    "train_runtime": 447.0543,
+    "train_samples_per_second": 42.948,
+    "train_steps_per_second": 0.336
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 15.0,
-    "eval_accuracy": 0.878125,
-    "eval_loss": 0.3683047890663147,
-    "eval_runtime": 3.1898,
-    "eval_samples_per_second": 100.318,
-    "eval_steps_per_second": 3.135
 }

 {
     "epoch": 15.0,
+    "eval_accuracy": 0.915625,
+    "eval_loss": 0.26764923334121704,
+    "eval_runtime": 3.0974,
+    "eval_samples_per_second": 103.313,
+    "eval_steps_per_second": 3.229
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f34d01985a18e902e48126e003c0965271de1fa3383bf05b716052d24342807
 size 343230128

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec05dc7a171a3910360de9c6a6fa6a85f219f35e518be559130a0dab16a73079
 size 343230128

runs/Jun10_11-47-37_4c61f7eac1f1/events.out.tfevents.1718020528.4c61f7eac1f1.793.18 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b162a90e2a6681625d9fc2ece697b1f8d3d9cea566418381ee39e89f5b8c96c8
+size 411

runs/Jun10_11-55-42_4c61f7eac1f1/events.out.tfevents.1718020543.4c61f7eac1f1.793.19 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5af562d889766781708469650d888b3c24a70a636ecc5be2c660895adfbce5f
+size 5440

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 15.0,
     "total_flos": 1.4878728707899392e+18,
-    "train_loss": 0.48002211888631185,
-    "train_runtime": 441.2201,
-    "train_samples_per_second": 43.516,
-    "train_steps_per_second": 0.34
 }

 {
     "epoch": 15.0,
     "total_flos": 1.4878728707899392e+18,
+    "train_loss": 0.5071320374806721,
+    "train_runtime": 447.0543,
+    "train_samples_per_second": 42.948,
+    "train_steps_per_second": 0.336
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.878125,
-  "best_model_checkpoint": "vit-base-patch16-224-finalterm/checkpoint-100",
   "epoch": 15.0,
   "eval_steps": 500,
   "global_step": 150,
@@ -10,252 +10,252 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 2.554522752761841,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.4259,
       "step": 10
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.44375,
-      "eval_loss": 1.2691426277160645,
-      "eval_runtime": 3.2172,
-      "eval_samples_per_second": 99.467,
-      "eval_steps_per_second": 3.108,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.0016026496887207,
       "learning_rate": 4.814814814814815e-05,
-      "loss": 1.011,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.64375,
-      "eval_loss": 0.8635731935501099,
-      "eval_runtime": 3.1996,
-      "eval_samples_per_second": 100.014,
-      "eval_steps_per_second": 3.125,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.644876718521118,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.6451,
       "step": 30
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.753125,
-      "eval_loss": 0.6140075922012329,
-      "eval_runtime": 3.2123,
-      "eval_samples_per_second": 99.618,
-      "eval_steps_per_second": 3.113,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "grad_norm": 4.116305828094482,
       "learning_rate": 4.074074074074074e-05,
-      "loss": 0.4746,
       "step": 40
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.80625,
-      "eval_loss": 0.5410074591636658,
-      "eval_runtime": 3.2651,
-      "eval_samples_per_second": 98.005,
-      "eval_steps_per_second": 3.063,
       "step": 40
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.129575490951538,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.4118,
       "step": 50
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.840625,
-      "eval_loss": 0.4661463797092438,
-      "eval_runtime": 3.2008,
-      "eval_samples_per_second": 99.974,
-      "eval_steps_per_second": 3.124,
       "step": 50
     },
     {
       "epoch": 6.0,
-      "grad_norm": 3.7490148544311523,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.4047,
       "step": 60
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.81875,
-      "eval_loss": 0.4901629388332367,
-      "eval_runtime": 3.2025,
-      "eval_samples_per_second": 99.921,
-      "eval_steps_per_second": 3.123,
       "step": 60
     },
     {
       "epoch": 7.0,
-      "grad_norm": 2.4626872539520264,
       "learning_rate": 2.962962962962963e-05,
-      "loss": 0.3728,
       "step": 70
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.40885186195373535,
-      "eval_runtime": 3.1941,
-      "eval_samples_per_second": 100.185,
-      "eval_steps_per_second": 3.131,
       "step": 70
     },
     {
       "epoch": 8.0,
-      "grad_norm": 1.6122300624847412,
       "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.3445,
       "step": 80
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.865625,
-      "eval_loss": 0.37425753474235535,
-      "eval_runtime": 3.2213,
-      "eval_samples_per_second": 99.339,
-      "eval_steps_per_second": 3.104,
       "step": 80
     },
     {
       "epoch": 9.0,
-      "grad_norm": 2.094912528991699,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.3266,
       "step": 90
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.86875,
-      "eval_loss": 0.3760340213775635,
-      "eval_runtime": 3.2169,
-      "eval_samples_per_second": 99.475,
-      "eval_steps_per_second": 3.109,
       "step": 90
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.830751657485962,
       "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.3222,
       "step": 100
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.878125,
-      "eval_loss": 0.3683047890663147,
-      "eval_runtime": 3.197,
-      "eval_samples_per_second": 100.093,
-      "eval_steps_per_second": 3.128,
       "step": 100
     },
     {
       "epoch": 11.0,
-      "grad_norm": 2.877479314804077,
       "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.3052,
       "step": 110
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.865625,
-      "eval_loss": 0.3901776075363159,
-      "eval_runtime": 3.449,
-      "eval_samples_per_second": 92.782,
-      "eval_steps_per_second": 2.899,
       "step": 110
     },
     {
       "epoch": 12.0,
-      "grad_norm": 2.059194564819336,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.3085,
       "step": 120
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.85625,
-      "eval_loss": 0.3693941533565521,
-      "eval_runtime": 3.1791,
-      "eval_samples_per_second": 100.657,
-      "eval_steps_per_second": 3.146,
       "step": 120
     },
     {
       "epoch": 13.0,
-      "grad_norm": 2.344334840774536,
       "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.2994,
       "step": 130
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.878125,
-      "eval_loss": 0.3656119704246521,
-      "eval_runtime": 3.1898,
-      "eval_samples_per_second": 100.32,
-      "eval_steps_per_second": 3.135,
       "step": 130
     },
     {
       "epoch": 14.0,
-      "grad_norm": 1.6384918689727783,
       "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.267,
       "step": 140
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.878125,
-      "eval_loss": 0.3477219045162201,
-      "eval_runtime": 3.2307,
-      "eval_samples_per_second": 99.049,
-      "eval_steps_per_second": 3.095,
       "step": 140
     },
     {
       "epoch": 15.0,
-      "grad_norm": 2.3588130474090576,
       "learning_rate": 0.0,
-      "loss": 0.281,
       "step": 150
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.878125,
-      "eval_loss": 0.3476409316062927,
-      "eval_runtime": 3.193,
-      "eval_samples_per_second": 100.22,
-      "eval_steps_per_second": 3.132,
       "step": 150
     },
     {
       "epoch": 15.0,
       "step": 150,
       "total_flos": 1.4878728707899392e+18,
-      "train_loss": 0.48002211888631185,
-      "train_runtime": 441.2201,
-      "train_samples_per_second": 43.516,
-      "train_steps_per_second": 0.34
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.915625,
+  "best_model_checkpoint": "vit-base-patch16-224-finalterm/checkpoint-140",
   "epoch": 15.0,
   "eval_steps": 500,
   "global_step": 150,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 3.922755241394043,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.4514,
       "step": 10
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.559375,
+      "eval_loss": 1.167618989944458,
+      "eval_runtime": 3.1299,
+      "eval_samples_per_second": 102.239,
+      "eval_steps_per_second": 3.195,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.1222116947174072,
       "learning_rate": 4.814814814814815e-05,
+      "loss": 1.0123,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 0.8034278750419617,
+      "eval_runtime": 3.1134,
+      "eval_samples_per_second": 102.781,
+      "eval_steps_per_second": 3.212,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.397467613220215,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.6949,
       "step": 30
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.828125,
+      "eval_loss": 0.5371649861335754,
+      "eval_runtime": 3.1115,
+      "eval_samples_per_second": 102.843,
+      "eval_steps_per_second": 3.214,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.74021315574646,
       "learning_rate": 4.074074074074074e-05,
+      "loss": 0.5385,
       "step": 40
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.871875,
+      "eval_loss": 0.4333480894565582,
+      "eval_runtime": 3.1377,
+      "eval_samples_per_second": 101.986,
+      "eval_steps_per_second": 3.187,
       "step": 40
     },
     {
       "epoch": 5.0,
+      "grad_norm": 3.3417820930480957,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.4984,
       "step": 50
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.884375,
+      "eval_loss": 0.3638252317905426,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 102.261,
+      "eval_steps_per_second": 3.196,
       "step": 50
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.3100404739379883,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.4382,
       "step": 60
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.89375,
+      "eval_loss": 0.31991782784461975,
+      "eval_runtime": 3.1525,
+      "eval_samples_per_second": 101.508,
+      "eval_steps_per_second": 3.172,
       "step": 60
     },
     {
       "epoch": 7.0,
+      "grad_norm": 2.219219207763672,
       "learning_rate": 2.962962962962963e-05,
+      "loss": 0.3739,
       "step": 70
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.3272128105163574,
+      "eval_runtime": 3.1159,
+      "eval_samples_per_second": 102.7,
+      "eval_steps_per_second": 3.209,
       "step": 70
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.4531455039978027,
       "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.3692,
       "step": 80
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.890625,
+      "eval_loss": 0.3230211138725281,
+      "eval_runtime": 3.0903,
+      "eval_samples_per_second": 103.548,
+      "eval_steps_per_second": 3.236,
       "step": 80
     },
     {
       "epoch": 9.0,
+      "grad_norm": 2.368349075317383,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3705,
       "step": 90
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.896875,
+      "eval_loss": 0.33077651262283325,
+      "eval_runtime": 3.1039,
+      "eval_samples_per_second": 103.096,
+      "eval_steps_per_second": 3.222,
       "step": 90
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.733303427696228,
       "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3458,
       "step": 100
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9,
+      "eval_loss": 0.29199448227882385,
+      "eval_runtime": 3.1065,
+      "eval_samples_per_second": 103.009,
+      "eval_steps_per_second": 3.219,
       "step": 100
     },
     {
       "epoch": 11.0,
+      "grad_norm": 2.134023904800415,
       "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.3176,
       "step": 110
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.28801438212394714,
+      "eval_runtime": 3.1103,
+      "eval_samples_per_second": 102.885,
+      "eval_steps_per_second": 3.215,
       "step": 110
     },
     {
       "epoch": 12.0,
+      "grad_norm": 2.6795620918273926,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3101,
       "step": 120
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.896875,
+      "eval_loss": 0.3041202425956726,
+      "eval_runtime": 3.1014,
+      "eval_samples_per_second": 103.178,
+      "eval_steps_per_second": 3.224,
       "step": 120
     },
     {
       "epoch": 13.0,
+      "grad_norm": 2.048682451248169,
       "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.3224,
       "step": 130
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.903125,
+      "eval_loss": 0.27769678831100464,
+      "eval_runtime": 3.0997,
+      "eval_samples_per_second": 103.235,
+      "eval_steps_per_second": 3.226,
       "step": 130
     },
     {
       "epoch": 14.0,
+      "grad_norm": 1.949576735496521,
       "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.2946,
       "step": 140
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.915625,
+      "eval_loss": 0.26764923334121704,
+      "eval_runtime": 3.1214,
+      "eval_samples_per_second": 102.519,
+      "eval_steps_per_second": 3.204,
       "step": 140
     },
     {
       "epoch": 15.0,
+      "grad_norm": 2.0188732147216797,
       "learning_rate": 0.0,
+      "loss": 0.2693,
       "step": 150
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.9125,
+      "eval_loss": 0.27088016271591187,
+      "eval_runtime": 3.1019,
+      "eval_samples_per_second": 103.162,
+      "eval_steps_per_second": 3.224,
       "step": 150
     },
     {
       "epoch": 15.0,
       "step": 150,
       "total_flos": 1.4878728707899392e+18,
+      "train_loss": 0.5071320374806721,
+      "train_runtime": 447.0543,
+      "train_samples_per_second": 42.948,
+      "train_steps_per_second": 0.336
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e79e2199995f8b4de748b18e6e9daf4a67674dcd950a0c02cccbf2d486b9b2aa
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:47d83c38395037e08e18b42b7fbd287badfca77ff1aa8f3bdd82a6d8f4f3cde3
 size 5112