Upload 8 files

Browse files

Files changed (8) hide show

config.json +34 -0
model.safetensors +3 -0
optimizer-002.pt +3 -0
preprocessor_config.json +22 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +762 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/vit-large-patch16-224",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "benign",
+    "1": "malignant",
+    "2": "normal"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "benign": 0,
+    "malignant": 1,
+    "normal": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_hidden_layers": 24,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64c4a95261002257a92f9846cc25647c5bb43a07e019270f7a361648c3ce3b3c
+size 1213265372

optimizer-002.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:823ac7b2a83e6142bbf00c0667d6cf819b1ae0aeb302ada9c6b8430abc3c6591
+size 2426765738

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83b61c28272cbf9d5d9437321b135f15aae0e7d3ae86b73db04bec06ed879451
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f820865d11b90edd2dc3d1d4297827aba983623b9bd59f2cde35bb8f14d7a8b
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,762 @@

+{
+  "best_metric": 0.9358974358974359,
+  "best_model_checkpoint": "output-models/checkpoint-470",
+  "epoch": 40.0,
+  "eval_steps": 500,
+  "global_step": 1880,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "step": 47,
+      "train_accuracy": 0.7072649572649573,
+      "train_loss": 0.6782774329185486,
+      "train_runtime": 13.5956,
+      "train_samples_per_second": 34.423,
+      "train_steps_per_second": 8.606
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7243589743589743,
+      "eval_loss": 0.6180987358093262,
+      "eval_runtime": 35.9375,
+      "eval_samples_per_second": 4.341,
+      "eval_steps_per_second": 1.085,
+      "step": 47
+    },
+    {
+      "epoch": 2.0,
+      "step": 94,
+      "train_accuracy": 0.75,
+      "train_loss": 0.5690865516662598,
+      "train_runtime": 13.7448,
+      "train_samples_per_second": 34.049,
+      "train_steps_per_second": 8.512
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8012820512820513,
+      "eval_loss": 0.5130882263183594,
+      "eval_runtime": 4.4157,
+      "eval_samples_per_second": 35.328,
+      "eval_steps_per_second": 8.832,
+      "step": 94
+    },
+    {
+      "epoch": 3.0,
+      "step": 141,
+      "train_accuracy": 0.7350427350427351,
+      "train_loss": 0.6460429430007935,
+      "train_runtime": 14.0717,
+      "train_samples_per_second": 33.258,
+      "train_steps_per_second": 8.315
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8205128205128205,
+      "eval_loss": 0.45179083943367004,
+      "eval_runtime": 4.8055,
+      "eval_samples_per_second": 32.463,
+      "eval_steps_per_second": 8.116,
+      "step": 141
+    },
+    {
+      "epoch": 4.0,
+      "step": 188,
+      "train_accuracy": 0.8098290598290598,
+      "train_loss": 0.39663246273994446,
+      "train_runtime": 13.7878,
+      "train_samples_per_second": 33.943,
+      "train_steps_per_second": 8.486
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8846153846153846,
+      "eval_loss": 0.2980358898639679,
+      "eval_runtime": 4.4674,
+      "eval_samples_per_second": 34.919,
+      "eval_steps_per_second": 8.73,
+      "step": 188
+    },
+    {
+      "epoch": 5.0,
+      "step": 235,
+      "train_accuracy": 0.8632478632478633,
+      "train_loss": 0.3636291027069092,
+      "train_runtime": 13.58,
+      "train_samples_per_second": 34.462,
+      "train_steps_per_second": 8.616
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8717948717948718,
+      "eval_loss": 0.2997760772705078,
+      "eval_runtime": 4.9986,
+      "eval_samples_per_second": 31.208,
+      "eval_steps_per_second": 7.802,
+      "step": 235
+    },
+    {
+      "epoch": 6.0,
+      "step": 282,
+      "train_accuracy": 0.8376068376068376,
+      "train_loss": 0.4208720922470093,
+      "train_runtime": 13.5735,
+      "train_samples_per_second": 34.479,
+      "train_steps_per_second": 8.62
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.33183348178863525,
+      "eval_runtime": 4.4091,
+      "eval_samples_per_second": 35.381,
+      "eval_steps_per_second": 8.845,
+      "step": 282
+    },
+    {
+      "epoch": 7.0,
+      "step": 329,
+      "train_accuracy": 0.8568376068376068,
+      "train_loss": 0.32207924127578735,
+      "train_runtime": 13.5635,
+      "train_samples_per_second": 34.504,
+      "train_steps_per_second": 8.626
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.24086996912956238,
+      "eval_runtime": 4.7402,
+      "eval_samples_per_second": 32.91,
+      "eval_steps_per_second": 8.228,
+      "step": 329
+    },
+    {
+      "epoch": 8.0,
+      "step": 376,
+      "train_accuracy": 0.8846153846153846,
+      "train_loss": 0.3257001042366028,
+      "train_runtime": 13.9348,
+      "train_samples_per_second": 33.585,
+      "train_steps_per_second": 8.396
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8717948717948718,
+      "eval_loss": 0.3424080014228821,
+      "eval_runtime": 4.9539,
+      "eval_samples_per_second": 31.49,
+      "eval_steps_per_second": 7.873,
+      "step": 376
+    },
+    {
+      "epoch": 9.0,
+      "step": 423,
+      "train_accuracy": 0.8717948717948718,
+      "train_loss": 0.2687961757183075,
+      "train_runtime": 13.6829,
+      "train_samples_per_second": 34.203,
+      "train_steps_per_second": 8.551
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.25928938388824463,
+      "eval_runtime": 4.4508,
+      "eval_samples_per_second": 35.05,
+      "eval_steps_per_second": 8.762,
+      "step": 423
+    },
+    {
+      "epoch": 10.0,
+      "step": 470,
+      "train_accuracy": 0.9102564102564102,
+      "train_loss": 0.2113831341266632,
+      "train_runtime": 13.44,
+      "train_samples_per_second": 34.821,
+      "train_steps_per_second": 8.705
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9358974358974359,
+      "eval_loss": 0.25084006786346436,
+      "eval_runtime": 4.8092,
+      "eval_samples_per_second": 32.438,
+      "eval_steps_per_second": 8.109,
+      "step": 470
+    },
+    {
+      "epoch": 10.64,
+      "grad_norm": 7.874776840209961,
+      "learning_rate": 1.4680851063829789e-05,
+      "loss": 0.4595,
+      "step": 500
+    },
+    {
+      "epoch": 11.0,
+      "step": 517,
+      "train_accuracy": 0.8995726495726496,
+      "train_loss": 0.25938984751701355,
+      "train_runtime": 13.5841,
+      "train_samples_per_second": 34.452,
+      "train_steps_per_second": 8.613
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9294871794871795,
+      "eval_loss": 0.32409772276878357,
+      "eval_runtime": 4.4182,
+      "eval_samples_per_second": 35.308,
+      "eval_steps_per_second": 8.827,
+      "step": 517
+    },
+    {
+      "epoch": 12.0,
+      "step": 564,
+      "train_accuracy": 0.8952991452991453,
+      "train_loss": 0.26763853430747986,
+      "train_runtime": 13.8203,
+      "train_samples_per_second": 33.863,
+      "train_steps_per_second": 8.466
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8910256410256411,
+      "eval_loss": 0.3308241069316864,
+      "eval_runtime": 4.4447,
+      "eval_samples_per_second": 35.098,
+      "eval_steps_per_second": 8.774,
+      "step": 564
+    },
+    {
+      "epoch": 13.0,
+      "step": 611,
+      "train_accuracy": 0.9081196581196581,
+      "train_loss": 0.23129615187644958,
+      "train_runtime": 13.4973,
+      "train_samples_per_second": 34.674,
+      "train_steps_per_second": 8.668
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9294871794871795,
+      "eval_loss": 0.255931556224823,
+      "eval_runtime": 4.6436,
+      "eval_samples_per_second": 33.595,
+      "eval_steps_per_second": 8.399,
+      "step": 611
+    },
+    {
+      "epoch": 14.0,
+      "step": 658,
+      "train_accuracy": 0.8846153846153846,
+      "train_loss": 0.31185245513916016,
+      "train_runtime": 13.5189,
+      "train_samples_per_second": 34.618,
+      "train_steps_per_second": 8.655
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.3017214834690094,
+      "eval_runtime": 4.6078,
+      "eval_samples_per_second": 33.856,
+      "eval_steps_per_second": 8.464,
+      "step": 658
+    },
+    {
+      "epoch": 15.0,
+      "step": 705,
+      "train_accuracy": 0.9166666666666666,
+      "train_loss": 0.3007480502128601,
+      "train_runtime": 13.4373,
+      "train_samples_per_second": 34.829,
+      "train_steps_per_second": 8.707
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.4220944046974182,
+      "eval_runtime": 4.9304,
+      "eval_samples_per_second": 31.64,
+      "eval_steps_per_second": 7.91,
+      "step": 705
+    },
+    {
+      "epoch": 16.0,
+      "step": 752,
+      "train_accuracy": 0.9188034188034188,
+      "train_loss": 0.20939397811889648,
+      "train_runtime": 13.6683,
+      "train_samples_per_second": 34.24,
+      "train_steps_per_second": 8.56
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.36174264550209045,
+      "eval_runtime": 4.4608,
+      "eval_samples_per_second": 34.971,
+      "eval_steps_per_second": 8.743,
+      "step": 752
+    },
+    {
+      "epoch": 17.0,
+      "step": 799,
+      "train_accuracy": 0.9209401709401709,
+      "train_loss": 0.18879051506519318,
+      "train_runtime": 13.7929,
+      "train_samples_per_second": 33.931,
+      "train_steps_per_second": 8.483
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.35188791155815125,
+      "eval_runtime": 4.7732,
+      "eval_samples_per_second": 32.683,
+      "eval_steps_per_second": 8.171,
+      "step": 799
+    },
+    {
+      "epoch": 18.0,
+      "step": 846,
+      "train_accuracy": 0.8952991452991453,
+      "train_loss": 0.25016605854034424,
+      "train_runtime": 13.3521,
+      "train_samples_per_second": 35.051,
+      "train_steps_per_second": 8.763
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.3965354859828949,
+      "eval_runtime": 4.3963,
+      "eval_samples_per_second": 35.485,
+      "eval_steps_per_second": 8.871,
+      "step": 846
+    },
+    {
+      "epoch": 19.0,
+      "step": 893,
+      "train_accuracy": 0.9209401709401709,
+      "train_loss": 0.1891285479068756,
+      "train_runtime": 13.4884,
+      "train_samples_per_second": 34.696,
+      "train_steps_per_second": 8.674
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.31604066491127014,
+      "eval_runtime": 5.1415,
+      "eval_samples_per_second": 30.341,
+      "eval_steps_per_second": 7.585,
+      "step": 893
+    },
+    {
+      "epoch": 20.0,
+      "step": 940,
+      "train_accuracy": 0.9401709401709402,
+      "train_loss": 0.1873449832201004,
+      "train_runtime": 13.9057,
+      "train_samples_per_second": 33.655,
+      "train_steps_per_second": 8.414
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9294871794871795,
+      "eval_loss": 0.3332672119140625,
+      "eval_runtime": 4.9421,
+      "eval_samples_per_second": 31.565,
+      "eval_steps_per_second": 7.891,
+      "step": 940
+    },
+    {
+      "epoch": 21.0,
+      "step": 987,
+      "train_accuracy": 0.9230769230769231,
+      "train_loss": 0.18881197273731232,
+      "train_runtime": 13.5338,
+      "train_samples_per_second": 34.58,
+      "train_steps_per_second": 8.645
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.8910256410256411,
+      "eval_loss": 0.3720751404762268,
+      "eval_runtime": 4.8223,
+      "eval_samples_per_second": 32.35,
+      "eval_steps_per_second": 8.088,
+      "step": 987
+    },
+    {
+      "epoch": 21.28,
+      "grad_norm": 5.682499408721924,
+      "learning_rate": 9.361702127659576e-06,
+      "loss": 0.2485,
+      "step": 1000
+    },
+    {
+      "epoch": 22.0,
+      "step": 1034,
+      "train_accuracy": 0.9444444444444444,
+      "train_loss": 0.1338244080543518,
+      "train_runtime": 13.6664,
+      "train_samples_per_second": 34.245,
+      "train_steps_per_second": 8.561
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.3777410686016083,
+      "eval_runtime": 4.3337,
+      "eval_samples_per_second": 35.997,
+      "eval_steps_per_second": 8.999,
+      "step": 1034
+    },
+    {
+      "epoch": 23.0,
+      "step": 1081,
+      "train_accuracy": 0.9252136752136753,
+      "train_loss": 0.18711484968662262,
+      "train_runtime": 13.702,
+      "train_samples_per_second": 34.155,
+      "train_steps_per_second": 8.539
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.3984796702861786,
+      "eval_runtime": 4.5267,
+      "eval_samples_per_second": 34.462,
+      "eval_steps_per_second": 8.616,
+      "step": 1081
+    },
+    {
+      "epoch": 24.0,
+      "step": 1128,
+      "train_accuracy": 0.9444444444444444,
+      "train_loss": 0.161672905087471,
+      "train_runtime": 13.9523,
+      "train_samples_per_second": 33.543,
+      "train_steps_per_second": 8.386
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.38641923666000366,
+      "eval_runtime": 5.1128,
+      "eval_samples_per_second": 30.511,
+      "eval_steps_per_second": 7.628,
+      "step": 1128
+    },
+    {
+      "epoch": 25.0,
+      "step": 1175,
+      "train_accuracy": 0.9444444444444444,
+      "train_loss": 0.17891307175159454,
+      "train_runtime": 13.7483,
+      "train_samples_per_second": 34.041,
+      "train_steps_per_second": 8.51
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.42098188400268555,
+      "eval_runtime": 5.0358,
+      "eval_samples_per_second": 30.978,
+      "eval_steps_per_second": 7.745,
+      "step": 1175
+    },
+    {
+      "epoch": 26.0,
+      "step": 1222,
+      "train_accuracy": 0.9572649572649573,
+      "train_loss": 0.10899731516838074,
+      "train_runtime": 14.0913,
+      "train_samples_per_second": 33.212,
+      "train_steps_per_second": 8.303
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.4160342216491699,
+      "eval_runtime": 4.7918,
+      "eval_samples_per_second": 32.555,
+      "eval_steps_per_second": 8.139,
+      "step": 1222
+    },
+    {
+      "epoch": 27.0,
+      "step": 1269,
+      "train_accuracy": 0.938034188034188,
+      "train_loss": 0.16018715500831604,
+      "train_runtime": 13.888,
+      "train_samples_per_second": 33.698,
+      "train_steps_per_second": 8.425
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.39854034781455994,
+      "eval_runtime": 4.8553,
+      "eval_samples_per_second": 32.13,
+      "eval_steps_per_second": 8.032,
+      "step": 1269
+    },
+    {
+      "epoch": 28.0,
+      "step": 1316,
+      "train_accuracy": 0.9444444444444444,
+      "train_loss": 0.14988763630390167,
+      "train_runtime": 13.7687,
+      "train_samples_per_second": 33.99,
+      "train_steps_per_second": 8.498
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.40767335891723633,
+      "eval_runtime": 4.434,
+      "eval_samples_per_second": 35.182,
+      "eval_steps_per_second": 8.796,
+      "step": 1316
+    },
+    {
+      "epoch": 29.0,
+      "step": 1363,
+      "train_accuracy": 0.9316239316239316,
+      "train_loss": 0.17876969277858734,
+      "train_runtime": 13.3686,
+      "train_samples_per_second": 35.008,
+      "train_steps_per_second": 8.752
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.8782051282051282,
+      "eval_loss": 0.6035234928131104,
+      "eval_runtime": 4.8916,
+      "eval_samples_per_second": 31.891,
+      "eval_steps_per_second": 7.973,
+      "step": 1363
+    },
+    {
+      "epoch": 30.0,
+      "step": 1410,
+      "train_accuracy": 0.9572649572649573,
+      "train_loss": 0.12170404940843582,
+      "train_runtime": 13.3084,
+      "train_samples_per_second": 35.166,
+      "train_steps_per_second": 8.791
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.3604837954044342,
+      "eval_runtime": 4.5664,
+      "eval_samples_per_second": 34.163,
+      "eval_steps_per_second": 8.541,
+      "step": 1410
+    },
+    {
+      "epoch": 31.0,
+      "step": 1457,
+      "train_accuracy": 0.9444444444444444,
+      "train_loss": 0.17193935811519623,
+      "train_runtime": 13.3567,
+      "train_samples_per_second": 35.039,
+      "train_steps_per_second": 8.76
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.42400404810905457,
+      "eval_runtime": 4.3974,
+      "eval_samples_per_second": 35.475,
+      "eval_steps_per_second": 8.869,
+      "step": 1457
+    },
+    {
+      "epoch": 31.91,
+      "grad_norm": 0.40821418166160583,
+      "learning_rate": 4.042553191489362e-06,
+      "loss": 0.1715,
+      "step": 1500
+    },
+    {
+      "epoch": 32.0,
+      "step": 1504,
+      "train_accuracy": 0.9551282051282052,
+      "train_loss": 0.15071353316307068,
+      "train_runtime": 13.338,
+      "train_samples_per_second": 35.088,
+      "train_steps_per_second": 8.772
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.3800322711467743,
+      "eval_runtime": 4.4234,
+      "eval_samples_per_second": 35.267,
+      "eval_steps_per_second": 8.817,
+      "step": 1504
+    },
+    {
+      "epoch": 33.0,
+      "step": 1551,
+      "train_accuracy": 0.9423076923076923,
+      "train_loss": 0.15298214554786682,
+      "train_runtime": 13.6206,
+      "train_samples_per_second": 34.36,
+      "train_steps_per_second": 8.59
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9038461538461539,
+      "eval_loss": 0.42538413405418396,
+      "eval_runtime": 4.5076,
+      "eval_samples_per_second": 34.608,
+      "eval_steps_per_second": 8.652,
+      "step": 1551
+    },
+    {
+      "epoch": 34.0,
+      "step": 1598,
+      "train_accuracy": 0.9615384615384616,
+      "train_loss": 0.09072276204824448,
+      "train_runtime": 13.7151,
+      "train_samples_per_second": 34.123,
+      "train_steps_per_second": 8.531
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.41397902369499207,
+      "eval_runtime": 4.448,
+      "eval_samples_per_second": 35.072,
+      "eval_steps_per_second": 8.768,
+      "step": 1598
+    },
+    {
+      "epoch": 35.0,
+      "step": 1645,
+      "train_accuracy": 0.9594017094017094,
+      "train_loss": 0.15199129283428192,
+      "train_runtime": 13.6214,
+      "train_samples_per_second": 34.358,
+      "train_steps_per_second": 8.589
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.39104607701301575,
+      "eval_runtime": 4.4304,
+      "eval_samples_per_second": 35.211,
+      "eval_steps_per_second": 8.803,
+      "step": 1645
+    },
+    {
+      "epoch": 36.0,
+      "step": 1692,
+      "train_accuracy": 0.9594017094017094,
+      "train_loss": 0.134719118475914,
+      "train_runtime": 13.9053,
+      "train_samples_per_second": 33.656,
+      "train_steps_per_second": 8.414
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.4161369204521179,
+      "eval_runtime": 4.6871,
+      "eval_samples_per_second": 33.283,
+      "eval_steps_per_second": 8.321,
+      "step": 1692
+    },
+    {
+      "epoch": 37.0,
+      "step": 1739,
+      "train_accuracy": 0.9529914529914529,
+      "train_loss": 0.16535791754722595,
+      "train_runtime": 14.0143,
+      "train_samples_per_second": 33.394,
+      "train_steps_per_second": 8.349
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9102564102564102,
+      "eval_loss": 0.43847039341926575,
+      "eval_runtime": 4.8404,
+      "eval_samples_per_second": 32.229,
+      "eval_steps_per_second": 8.057,
+      "step": 1739
+    },
+    {
+      "epoch": 38.0,
+      "step": 1786,
+      "train_accuracy": 0.9487179487179487,
+      "train_loss": 0.11996147781610489,
+      "train_runtime": 14.1086,
+      "train_samples_per_second": 33.171,
+      "train_steps_per_second": 8.293
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.41302695870399475,
+      "eval_runtime": 4.7702,
+      "eval_samples_per_second": 32.703,
+      "eval_steps_per_second": 8.176,
+      "step": 1786
+    },
+    {
+      "epoch": 39.0,
+      "step": 1833,
+      "train_accuracy": 0.9529914529914529,
+      "train_loss": 0.17013560235500336,
+      "train_runtime": 13.8197,
+      "train_samples_per_second": 33.865,
+      "train_steps_per_second": 8.466
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.4181523323059082,
+      "eval_runtime": 5.0402,
+      "eval_samples_per_second": 30.951,
+      "eval_steps_per_second": 7.738,
+      "step": 1833
+    },
+    {
+      "epoch": 40.0,
+      "step": 1880,
+      "train_accuracy": 0.9551282051282052,
+      "train_loss": 0.11466003954410553,
+      "train_runtime": 13.6881,
+      "train_samples_per_second": 34.19,
+      "train_steps_per_second": 8.548
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9166666666666666,
+      "eval_loss": 0.4133930802345276,
+      "eval_runtime": 4.7653,
+      "eval_samples_per_second": 32.736,
+      "eval_steps_per_second": 8.184,
+      "step": 1880
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1880,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 5.128065177052447e+18,
+  "train_batch_size": 10,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52687b65f9d6d4c07e09fec56b9cef39541528f990e60ca9175a8537158d8089
+size 4856