Evaluation on the test set completed on 2024_11_03.

Browse files

Files changed (8) hide show

README.md +151 -0
all_results.json +16 -0
logs/events.out.tfevents.1730642710.datavisu2 +2 -2
logs/events.out.tfevents.1730673734.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +11 -0
train_results.json +9 -0
trainer_state.json +1325 -0

README.md ADDED Viewed

	@@ -0,0 +1,151 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-large
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: drone-DinoVdeau-produttoria_binary-binary-large-2024_11_03-batch-size64_freeze
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# drone-DinoVdeau-produttoria_binary-binary-large-2024_11_03-batch-size64_freeze
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2854
+- F1 Micro: 0.8468
+- F1 Macro: 0.6351
+- Accuracy: 0.2786
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 64
+- eval_batch_size: 64
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | F1 Micro | F1 Macro | Accuracy | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:--------:|:------:|
+| No log        | 1.0   | 181   | 0.3236          | 0.8262   | 0.5774   | 0.2630   | 0.001  |
+| No log        | 2.0   | 362   | 0.3146          | 0.8379   | 0.6199   | 0.2412   | 0.001  |
+| 0.3995        | 3.0   | 543   | 0.3090          | 0.8398   | 0.6044   | 0.2555   | 0.001  |
+| 0.3995        | 4.0   | 724   | 0.3074          | 0.8349   | 0.6003   | 0.2562   | 0.001  |
+| 0.3995        | 5.0   | 905   | 0.3039          | 0.8406   | 0.6248   | 0.2516   | 0.001  |
+| 0.3299        | 6.0   | 1086  | 0.3060          | 0.8420   | 0.6225   | 0.2596   | 0.001  |
+| 0.3299        | 7.0   | 1267  | 0.3014          | 0.8387   | 0.5955   | 0.2820   | 0.001  |
+| 0.3299        | 8.0   | 1448  | 0.3013          | 0.8391   | 0.5975   | 0.2703   | 0.001  |
+| 0.3216        | 9.0   | 1629  | 0.3010          | 0.8407   | 0.5974   | 0.2841   | 0.001  |
+| 0.3216        | 10.0  | 1810  | 0.3007          | 0.8376   | 0.5938   | 0.2711   | 0.001  |
+| 0.3216        | 11.0  | 1991  | 0.3036          | 0.8349   | 0.5762   | 0.2773   | 0.001  |
+| 0.3167        | 12.0  | 2172  | 0.3013          | 0.8385   | 0.6115   | 0.2674   | 0.001  |
+| 0.3167        | 13.0  | 2353  | 0.2978          | 0.8421   | 0.6146   | 0.2648   | 0.001  |
+| 0.315         | 14.0  | 2534  | 0.2977          | 0.8400   | 0.6059   | 0.2734   | 0.001  |
+| 0.315         | 15.0  | 2715  | 0.2981          | 0.8434   | 0.6075   | 0.2666   | 0.001  |
+| 0.315         | 16.0  | 2896  | 0.2974          | 0.8394   | 0.5933   | 0.2747   | 0.001  |
+| 0.3147        | 17.0  | 3077  | 0.2984          | 0.8438   | 0.6147   | 0.2664   | 0.001  |
+| 0.3147        | 18.0  | 3258  | 0.3023          | 0.8356   | 0.5804   | 0.2763   | 0.001  |
+| 0.3147        | 19.0  | 3439  | 0.2985          | 0.8424   | 0.6159   | 0.2739   | 0.001  |
+| 0.3122        | 20.0  | 3620  | 0.2968          | 0.8412   | 0.5984   | 0.2807   | 0.001  |
+| 0.3122        | 21.0  | 3801  | 0.3005          | 0.8419   | 0.6060   | 0.2703   | 0.001  |
+| 0.3122        | 22.0  | 3982  | 0.2982          | 0.8375   | 0.5804   | 0.2747   | 0.001  |
+| 0.3149        | 23.0  | 4163  | 0.2939          | 0.8436   | 0.6152   | 0.2781   | 0.001  |
+| 0.3149        | 24.0  | 4344  | 0.2948          | 0.8453   | 0.6229   | 0.2760   | 0.001  |
+| 0.3118        | 25.0  | 4525  | 0.2968          | 0.8427   | 0.6103   | 0.2737   | 0.001  |
+| 0.3118        | 26.0  | 4706  | 0.2956          | 0.8421   | 0.6045   | 0.2755   | 0.001  |
+| 0.3118        | 27.0  | 4887  | 0.2959          | 0.8438   | 0.6115   | 0.2765   | 0.001  |
+| 0.3126        | 28.0  | 5068  | 0.2955          | 0.8447   | 0.6191   | 0.2693   | 0.001  |
+| 0.3126        | 29.0  | 5249  | 0.3011          | 0.8438   | 0.6216   | 0.2664   | 0.001  |
+| 0.3126        | 30.0  | 5430  | 0.2921          | 0.8437   | 0.6025   | 0.2810   | 0.0001 |
+| 0.3093        | 31.0  | 5611  | 0.2904          | 0.8439   | 0.6072   | 0.2812   | 0.0001 |
+| 0.3093        | 32.0  | 5792  | 0.2903          | 0.8437   | 0.6112   | 0.2810   | 0.0001 |
+| 0.3093        | 33.0  | 5973  | 0.2889          | 0.8462   | 0.6202   | 0.2854   | 0.0001 |
+| 0.3049        | 34.0  | 6154  | 0.2896          | 0.8446   | 0.6151   | 0.2862   | 0.0001 |
+| 0.3049        | 35.0  | 6335  | 0.2887          | 0.8449   | 0.6112   | 0.2867   | 0.0001 |
+| 0.3012        | 36.0  | 6516  | 0.2889          | 0.8447   | 0.6120   | 0.2836   | 0.0001 |
+| 0.3012        | 37.0  | 6697  | 0.2883          | 0.8476   | 0.6256   | 0.2867   | 0.0001 |
+| 0.3012        | 38.0  | 6878  | 0.2905          | 0.8453   | 0.6057   | 0.2825   | 0.0001 |
+| 0.299         | 39.0  | 7059  | 0.2878          | 0.8471   | 0.6254   | 0.2854   | 0.0001 |
+| 0.299         | 40.0  | 7240  | 0.2886          | 0.8468   | 0.6223   | 0.2810   | 0.0001 |
+| 0.299         | 41.0  | 7421  | 0.2877          | 0.8473   | 0.6261   | 0.2843   | 0.0001 |
+| 0.2989        | 42.0  | 7602  | 0.2878          | 0.8477   | 0.6199   | 0.2856   | 0.0001 |
+| 0.2989        | 43.0  | 7783  | 0.2872          | 0.8479   | 0.6288   | 0.2830   | 0.0001 |
+| 0.2989        | 44.0  | 7964  | 0.2868          | 0.8464   | 0.6190   | 0.2841   | 0.0001 |
+| 0.2983        | 45.0  | 8145  | 0.2870          | 0.8463   | 0.6236   | 0.2838   | 0.0001 |
+| 0.2983        | 46.0  | 8326  | 0.2868          | 0.8460   | 0.6151   | 0.2825   | 0.0001 |
+| 0.298         | 47.0  | 8507  | 0.2872          | 0.8462   | 0.6211   | 0.2846   | 0.0001 |
+| 0.298         | 48.0  | 8688  | 0.2866          | 0.8467   | 0.6231   | 0.2836   | 0.0001 |
+| 0.298         | 49.0  | 8869  | 0.2863          | 0.8460   | 0.6161   | 0.2859   | 0.0001 |
+| 0.2965        | 50.0  | 9050  | 0.2864          | 0.8483   | 0.6255   | 0.2846   | 0.0001 |
+| 0.2965        | 51.0  | 9231  | 0.2891          | 0.8486   | 0.6278   | 0.2849   | 0.0001 |
+| 0.2965        | 52.0  | 9412  | 0.2856          | 0.8464   | 0.6255   | 0.2851   | 0.0001 |
+| 0.2956        | 53.0  | 9593  | 0.2872          | 0.8490   | 0.6458   | 0.2789   | 0.0001 |
+| 0.2956        | 54.0  | 9774  | 0.2856          | 0.8477   | 0.6244   | 0.2903   | 0.0001 |
+| 0.2956        | 55.0  | 9955  | 0.2857          | 0.8475   | 0.6340   | 0.2846   | 0.0001 |
+| 0.2958        | 56.0  | 10136 | 0.2862          | 0.8466   | 0.6241   | 0.2867   | 0.0001 |
+| 0.2958        | 57.0  | 10317 | 0.2871          | 0.8454   | 0.6249   | 0.2862   | 0.0001 |
+| 0.2958        | 58.0  | 10498 | 0.2858          | 0.8492   | 0.6334   | 0.2812   | 0.0001 |
+| 0.2954        | 59.0  | 10679 | 0.2862          | 0.8468   | 0.6178   | 0.2888   | 1e-05  |
+| 0.2954        | 60.0  | 10860 | 0.2847          | 0.8485   | 0.6276   | 0.2854   | 1e-05  |
+| 0.2923        | 61.0  | 11041 | 0.2849          | 0.8480   | 0.6224   | 0.2830   | 1e-05  |
+| 0.2923        | 62.0  | 11222 | 0.2855          | 0.8469   | 0.6248   | 0.2843   | 1e-05  |
+| 0.2923        | 63.0  | 11403 | 0.2849          | 0.8489   | 0.6275   | 0.2828   | 1e-05  |
+| 0.2918        | 64.0  | 11584 | 0.2846          | 0.8475   | 0.6371   | 0.2823   | 1e-05  |
+| 0.2918        | 65.0  | 11765 | 0.2860          | 0.8468   | 0.6241   | 0.2869   | 1e-05  |
+| 0.2918        | 66.0  | 11946 | 0.2847          | 0.8481   | 0.6347   | 0.2841   | 1e-05  |
+| 0.2906        | 67.0  | 12127 | 0.2853          | 0.8488   | 0.6287   | 0.2854   | 1e-05  |
+| 0.2906        | 68.0  | 12308 | 0.2853          | 0.8480   | 0.6321   | 0.2867   | 1e-05  |
+| 0.2906        | 69.0  | 12489 | 0.2848          | 0.8477   | 0.6397   | 0.2836   | 1e-05  |
+| 0.2918        | 70.0  | 12670 | 0.2853          | 0.8492   | 0.6381   | 0.2823   | 1e-05  |
+| 0.2918        | 71.0  | 12851 | 0.2851          | 0.8476   | 0.6325   | 0.2882   | 0.0000 |
+| 0.2918        | 72.0  | 13032 | 0.2845          | 0.8474   | 0.6236   | 0.2849   | 0.0000 |
+| 0.2918        | 73.0  | 13213 | 0.2845          | 0.8476   | 0.6333   | 0.2812   | 0.0000 |
+| 0.2918        | 74.0  | 13394 | 0.2845          | 0.8466   | 0.6300   | 0.2828   | 0.0000 |
+| 0.2913        | 75.0  | 13575 | 0.2851          | 0.8474   | 0.6235   | 0.2820   | 0.0000 |
+| 0.2913        | 76.0  | 13756 | 0.2860          | 0.8473   | 0.6186   | 0.2880   | 0.0000 |
+| 0.2913        | 77.0  | 13937 | 0.2858          | 0.8459   | 0.6173   | 0.2856   | 0.0000 |
+| 0.2913        | 78.0  | 14118 | 0.2844          | 0.8481   | 0.6326   | 0.2843   | 0.0000 |
+| 0.2913        | 79.0  | 14299 | 0.2871          | 0.8472   | 0.6179   | 0.2875   | 0.0000 |
+| 0.2913        | 80.0  | 14480 | 0.2848          | 0.8477   | 0.6287   | 0.2838   | 0.0000 |
+| 0.2915        | 81.0  | 14661 | 0.2848          | 0.8490   | 0.6305   | 0.2854   | 0.0000 |
+| 0.2915        | 82.0  | 14842 | 0.2851          | 0.8480   | 0.6394   | 0.2859   | 0.0000 |
+| 0.2913        | 83.0  | 15023 | 0.2846          | 0.8488   | 0.6255   | 0.2856   | 0.0000 |
+| 0.2913        | 84.0  | 15204 | 0.2857          | 0.8482   | 0.6458   | 0.2833   | 0.0000 |
+| 0.2913        | 85.0  | 15385 | 0.2855          | 0.8488   | 0.6340   | 0.2812   | 0.0000 |
+| 0.2922        | 86.0  | 15566 | 0.2849          | 0.8480   | 0.6363   | 0.2859   | 0.0000 |
+| 0.2922        | 87.0  | 15747 | 0.2845          | 0.8474   | 0.6328   | 0.2851   | 0.0000 |
+| 0.2922        | 88.0  | 15928 | 0.2854          | 0.8478   | 0.6371   | 0.2812   | 0.0000 |
+### Framework versions
+- Transformers 4.41.0
+- Pytorch 2.5.0+cu124
+- Datasets 3.0.2
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 88.0,
+    "eval_accuracy": 0.2786458333333333,
+    "eval_f1_macro": 0.6350734566442581,
+    "eval_f1_micro": 0.8467861336600807,
+    "eval_loss": 0.28541260957717896,
+    "eval_runtime": 76.7857,
+    "eval_samples_per_second": 50.009,
+    "eval_steps_per_second": 0.781,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 1.500719176717825e+20,
+    "train_loss": 0.3047179739897961,
+    "train_runtime": 30841.8451,
+    "train_samples_per_second": 56.038,
+    "train_steps_per_second": 0.88
+}

logs/events.out.tfevents.1730642710.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fa5bbf2f190fb02623956ae5a2ee043ab21ec69339490ed418ebf0293c564d9
-size 54523

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1153ede07b604838b374d477545613ec02b5fef26fc96b8b0af1ba3fabb69be
+size 55905

logs/events.out.tfevents.1730673734.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d9f10a9c09da967e73fe949bac0d9f1f288eca3b0e5fa21454b3fe17c038fda
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14fd3ab29f6baf6bf175d13021f237caacac090f24f91ffd71f1afcc5747ce0e
 size 1222958756

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ec6d0a15d562cc3f4d35744dd773595c117cff73cc265a352ca85718ba80955
 size 1222958756

test_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 88.0,
+    "eval_accuracy": 0.2786458333333333,
+    "eval_f1_macro": 0.6350734566442581,
+    "eval_f1_micro": 0.8467861336600807,
+    "eval_loss": 0.28541260957717896,
+    "eval_runtime": 76.7857,
+    "eval_samples_per_second": 50.009,
+    "eval_steps_per_second": 0.781,
+    "learning_rate": 1.0000000000000002e-07
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 88.0,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 1.500719176717825e+20,
+    "train_loss": 0.3047179739897961,
+    "train_runtime": 30841.8451,
+    "train_samples_per_second": 56.038,
+    "train_steps_per_second": 0.88
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1325 @@

+{
+  "best_metric": 0.28438833355903625,
+  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-produttoria_binary-binary-large-2024_11_03-batch-size64_freeze/checkpoint-14118",
+  "epoch": 88.0,
+  "eval_steps": 500,
+  "global_step": 15928,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2630072840790843,
+      "eval_f1_macro": 0.5774239185038708,
+      "eval_f1_micro": 0.8262109753225342,
+      "eval_loss": 0.3235681354999542,
+      "eval_runtime": 79.5924,
+      "eval_samples_per_second": 48.296,
+      "eval_steps_per_second": 0.766,
+      "learning_rate": 0.001,
+      "step": 181
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.24115504682622269,
+      "eval_f1_macro": 0.6199165901601139,
+      "eval_f1_micro": 0.8378565084377776,
+      "eval_loss": 0.3146470785140991,
+      "eval_runtime": 78.3589,
+      "eval_samples_per_second": 49.056,
+      "eval_steps_per_second": 0.778,
+      "learning_rate": 0.001,
+      "step": 362
+    },
+    {
+      "epoch": 2.7624309392265194,
+      "grad_norm": 0.39133042097091675,
+      "learning_rate": 0.001,
+      "loss": 0.3995,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.2554630593132154,
+      "eval_f1_macro": 0.6043570009634397,
+      "eval_f1_micro": 0.8398465111582348,
+      "eval_loss": 0.3090434670448303,
+      "eval_runtime": 77.1271,
+      "eval_samples_per_second": 49.84,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 0.001,
+      "step": 543
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.25624349635796045,
+      "eval_f1_macro": 0.600278483167516,
+      "eval_f1_micro": 0.8348980169243037,
+      "eval_loss": 0.30735355615615845,
+      "eval_runtime": 77.9527,
+      "eval_samples_per_second": 49.312,
+      "eval_steps_per_second": 0.783,
+      "learning_rate": 0.001,
+      "step": 724
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.2515608740894901,
+      "eval_f1_macro": 0.6247746971203368,
+      "eval_f1_micro": 0.8405948994360434,
+      "eval_loss": 0.30385810136795044,
+      "eval_runtime": 79.3747,
+      "eval_samples_per_second": 48.429,
+      "eval_steps_per_second": 0.769,
+      "learning_rate": 0.001,
+      "step": 905
+    },
+    {
+      "epoch": 5.524861878453039,
+      "grad_norm": 0.30673518776893616,
+      "learning_rate": 0.001,
+      "loss": 0.3299,
+      "step": 1000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.2596253902185224,
+      "eval_f1_macro": 0.6225111439021958,
+      "eval_f1_micro": 0.841987466427932,
+      "eval_loss": 0.3059956729412079,
+      "eval_runtime": 78.3475,
+      "eval_samples_per_second": 49.063,
+      "eval_steps_per_second": 0.779,
+      "learning_rate": 0.001,
+      "step": 1086
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.28199791883454733,
+      "eval_f1_macro": 0.5954695621655504,
+      "eval_f1_micro": 0.8387498056289846,
+      "eval_loss": 0.3013758361339569,
+      "eval_runtime": 77.8519,
+      "eval_samples_per_second": 49.376,
+      "eval_steps_per_second": 0.784,
+      "learning_rate": 0.001,
+      "step": 1267
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.2702913631633715,
+      "eval_f1_macro": 0.5974832028652961,
+      "eval_f1_micro": 0.8390550208451284,
+      "eval_loss": 0.30131709575653076,
+      "eval_runtime": 76.3356,
+      "eval_samples_per_second": 50.357,
+      "eval_steps_per_second": 0.799,
+      "learning_rate": 0.001,
+      "step": 1448
+    },
+    {
+      "epoch": 8.287292817679559,
+      "grad_norm": 0.2473623901605606,
+      "learning_rate": 0.001,
+      "loss": 0.3216,
+      "step": 1500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.28407908428720086,
+      "eval_f1_macro": 0.5974259992816957,
+      "eval_f1_micro": 0.8406665130922214,
+      "eval_loss": 0.30098479986190796,
+      "eval_runtime": 76.6263,
+      "eval_samples_per_second": 50.166,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 0.001,
+      "step": 1629
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.27107180020811655,
+      "eval_f1_macro": 0.5937940362628795,
+      "eval_f1_micro": 0.8376187886791475,
+      "eval_loss": 0.30072343349456787,
+      "eval_runtime": 78.1999,
+      "eval_samples_per_second": 49.156,
+      "eval_steps_per_second": 0.78,
+      "learning_rate": 0.001,
+      "step": 1810
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.277315296566077,
+      "eval_f1_macro": 0.5761905737205768,
+      "eval_f1_micro": 0.8348592565387339,
+      "eval_loss": 0.3035621643066406,
+      "eval_runtime": 77.9385,
+      "eval_samples_per_second": 49.321,
+      "eval_steps_per_second": 0.783,
+      "learning_rate": 0.001,
+      "step": 1991
+    },
+    {
+      "epoch": 11.049723756906078,
+      "grad_norm": 0.24565815925598145,
+      "learning_rate": 0.001,
+      "loss": 0.3167,
+      "step": 2000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.26742976066597296,
+      "eval_f1_macro": 0.6114755503631268,
+      "eval_f1_micro": 0.838466245156027,
+      "eval_loss": 0.3012838363647461,
+      "eval_runtime": 77.6902,
+      "eval_samples_per_second": 49.479,
+      "eval_steps_per_second": 0.785,
+      "learning_rate": 0.001,
+      "step": 2172
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.2648283038501561,
+      "eval_f1_macro": 0.6145726431106396,
+      "eval_f1_micro": 0.8421213122252433,
+      "eval_loss": 0.29778778553009033,
+      "eval_runtime": 77.1253,
+      "eval_samples_per_second": 49.841,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 0.001,
+      "step": 2353
+    },
+    {
+      "epoch": 13.812154696132596,
+      "grad_norm": 0.2421799898147583,
+      "learning_rate": 0.001,
+      "loss": 0.315,
+      "step": 2500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.27341311134235174,
+      "eval_f1_macro": 0.605884177295118,
+      "eval_f1_micro": 0.8399742101869762,
+      "eval_loss": 0.29774588346481323,
+      "eval_runtime": 76.619,
+      "eval_samples_per_second": 50.17,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 0.001,
+      "step": 2534
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.2666493236212279,
+      "eval_f1_macro": 0.6074624445346274,
+      "eval_f1_micro": 0.8433503513117323,
+      "eval_loss": 0.29809942841529846,
+      "eval_runtime": 77.2846,
+      "eval_samples_per_second": 49.738,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 0.001,
+      "step": 2715
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.27471383975026015,
+      "eval_f1_macro": 0.5932952143692389,
+      "eval_f1_micro": 0.8394100355835181,
+      "eval_loss": 0.29744812846183777,
+      "eval_runtime": 77.1329,
+      "eval_samples_per_second": 49.836,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 0.001,
+      "step": 2896
+    },
+    {
+      "epoch": 16.574585635359117,
+      "grad_norm": 0.2012377828359604,
+      "learning_rate": 0.001,
+      "loss": 0.3147,
+      "step": 3000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.2663891779396462,
+      "eval_f1_macro": 0.6146867059353278,
+      "eval_f1_micro": 0.8437578624264077,
+      "eval_loss": 0.2983638644218445,
+      "eval_runtime": 77.7728,
+      "eval_samples_per_second": 49.426,
+      "eval_steps_per_second": 0.784,
+      "learning_rate": 0.001,
+      "step": 3077
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.2762747138397503,
+      "eval_f1_macro": 0.5803903225868541,
+      "eval_f1_micro": 0.8356339535005088,
+      "eval_loss": 0.3023049235343933,
+      "eval_runtime": 77.2379,
+      "eval_samples_per_second": 49.768,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 0.001,
+      "step": 3258
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.2739334027055151,
+      "eval_f1_macro": 0.6158875389283108,
+      "eval_f1_micro": 0.8423529411764706,
+      "eval_loss": 0.2984697222709656,
+      "eval_runtime": 76.7734,
+      "eval_samples_per_second": 50.069,
+      "eval_steps_per_second": 0.795,
+      "learning_rate": 0.001,
+      "step": 3439
+    },
+    {
+      "epoch": 19.337016574585636,
+      "grad_norm": 0.20086592435836792,
+      "learning_rate": 0.001,
+      "loss": 0.3122,
+      "step": 3500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.28069719042663893,
+      "eval_f1_macro": 0.5984147849283556,
+      "eval_f1_micro": 0.8411767731317183,
+      "eval_loss": 0.29680272936820984,
+      "eval_runtime": 77.2197,
+      "eval_samples_per_second": 49.78,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 0.001,
+      "step": 3620
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.2702913631633715,
+      "eval_f1_macro": 0.6060492619397649,
+      "eval_f1_micro": 0.8418969323285377,
+      "eval_loss": 0.30051520466804504,
+      "eval_runtime": 76.7663,
+      "eval_samples_per_second": 50.074,
+      "eval_steps_per_second": 0.795,
+      "learning_rate": 0.001,
+      "step": 3801
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.27471383975026015,
+      "eval_f1_macro": 0.580353532272699,
+      "eval_f1_micro": 0.8374817746302854,
+      "eval_loss": 0.29818177223205566,
+      "eval_runtime": 77.0688,
+      "eval_samples_per_second": 49.877,
+      "eval_steps_per_second": 0.792,
+      "learning_rate": 0.001,
+      "step": 3982
+    },
+    {
+      "epoch": 22.099447513812155,
+      "grad_norm": 0.21317744255065918,
+      "learning_rate": 0.001,
+      "loss": 0.3149,
+      "step": 4000
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.27809573361082207,
+      "eval_f1_macro": 0.615237110287355,
+      "eval_f1_micro": 0.8436262061960386,
+      "eval_loss": 0.29393449425697327,
+      "eval_runtime": 76.8217,
+      "eval_samples_per_second": 50.038,
+      "eval_steps_per_second": 0.794,
+      "learning_rate": 0.001,
+      "step": 4163
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.27601456815816855,
+      "eval_f1_macro": 0.6228721497006335,
+      "eval_f1_micro": 0.8453232862164007,
+      "eval_loss": 0.2948347330093384,
+      "eval_runtime": 77.3517,
+      "eval_samples_per_second": 49.695,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 0.001,
+      "step": 4344
+    },
+    {
+      "epoch": 24.861878453038674,
+      "grad_norm": 0.17206734418869019,
+      "learning_rate": 0.001,
+      "loss": 0.3118,
+      "step": 4500
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.2736732570239334,
+      "eval_f1_macro": 0.610255370235793,
+      "eval_f1_micro": 0.8427456149244652,
+      "eval_loss": 0.29676035046577454,
+      "eval_runtime": 77.1567,
+      "eval_samples_per_second": 49.821,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 0.001,
+      "step": 4525
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.2754942767950052,
+      "eval_f1_macro": 0.6045462014226007,
+      "eval_f1_micro": 0.8420542140997499,
+      "eval_loss": 0.2955995500087738,
+      "eval_runtime": 77.6213,
+      "eval_samples_per_second": 49.522,
+      "eval_steps_per_second": 0.786,
+      "learning_rate": 0.001,
+      "step": 4706
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.27653485952133194,
+      "eval_f1_macro": 0.6115221375683754,
+      "eval_f1_micro": 0.8437684356323902,
+      "eval_loss": 0.29585039615631104,
+      "eval_runtime": 76.6184,
+      "eval_samples_per_second": 50.171,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 0.001,
+      "step": 4887
+    },
+    {
+      "epoch": 27.624309392265193,
+      "grad_norm": 0.1697782576084137,
+      "learning_rate": 0.001,
+      "loss": 0.3126,
+      "step": 5000
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.26925078043704476,
+      "eval_f1_macro": 0.6191186747828321,
+      "eval_f1_micro": 0.8446938104986479,
+      "eval_loss": 0.295540988445282,
+      "eval_runtime": 76.9629,
+      "eval_samples_per_second": 49.946,
+      "eval_steps_per_second": 0.793,
+      "learning_rate": 0.001,
+      "step": 5068
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.2663891779396462,
+      "eval_f1_macro": 0.6215750043898619,
+      "eval_f1_micro": 0.8437664387164651,
+      "eval_loss": 0.3010655343532562,
+      "eval_runtime": 77.7511,
+      "eval_samples_per_second": 49.44,
+      "eval_steps_per_second": 0.785,
+      "learning_rate": 0.001,
+      "step": 5249
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.2809573361082206,
+      "eval_f1_macro": 0.6025311078598518,
+      "eval_f1_micro": 0.8437435686355217,
+      "eval_loss": 0.29214760661125183,
+      "eval_runtime": 76.285,
+      "eval_samples_per_second": 50.39,
+      "eval_steps_per_second": 0.8,
+      "learning_rate": 0.0001,
+      "step": 5430
+    },
+    {
+      "epoch": 30.386740331491712,
+      "grad_norm": 0.15570667386054993,
+      "learning_rate": 0.0001,
+      "loss": 0.3093,
+      "step": 5500
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.28121748178980227,
+      "eval_f1_macro": 0.6071651131848005,
+      "eval_f1_micro": 0.8439103638567266,
+      "eval_loss": 0.29040178656578064,
+      "eval_runtime": 80.1919,
+      "eval_samples_per_second": 47.935,
+      "eval_steps_per_second": 0.761,
+      "learning_rate": 0.0001,
+      "step": 5611
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.2809573361082206,
+      "eval_f1_macro": 0.6111569473926136,
+      "eval_f1_micro": 0.8437194965322373,
+      "eval_loss": 0.29034462571144104,
+      "eval_runtime": 76.5731,
+      "eval_samples_per_second": 50.2,
+      "eval_steps_per_second": 0.797,
+      "learning_rate": 0.0001,
+      "step": 5792
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.28537981269510926,
+      "eval_f1_macro": 0.6202495870793918,
+      "eval_f1_micro": 0.8461617038663874,
+      "eval_loss": 0.2888760268688202,
+      "eval_runtime": 78.8612,
+      "eval_samples_per_second": 48.744,
+      "eval_steps_per_second": 0.774,
+      "learning_rate": 0.0001,
+      "step": 5973
+    },
+    {
+      "epoch": 33.149171270718234,
+      "grad_norm": 0.16711881756782532,
+      "learning_rate": 0.0001,
+      "loss": 0.3049,
+      "step": 6000
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.2861602497398543,
+      "eval_f1_macro": 0.6150504150317478,
+      "eval_f1_micro": 0.8446023671361742,
+      "eval_loss": 0.28964364528656006,
+      "eval_runtime": 78.2568,
+      "eval_samples_per_second": 49.12,
+      "eval_steps_per_second": 0.779,
+      "learning_rate": 0.0001,
+      "step": 6154
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.2866805411030177,
+      "eval_f1_macro": 0.611180048847438,
+      "eval_f1_micro": 0.8449244728566273,
+      "eval_loss": 0.28874215483665466,
+      "eval_runtime": 78.411,
+      "eval_samples_per_second": 49.024,
+      "eval_steps_per_second": 0.778,
+      "learning_rate": 0.0001,
+      "step": 6335
+    },
+    {
+      "epoch": 35.91160220994475,
+      "grad_norm": 0.1489323228597641,
+      "learning_rate": 0.0001,
+      "loss": 0.3012,
+      "step": 6500
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.28355879292403746,
+      "eval_f1_macro": 0.6119874534823754,
+      "eval_f1_micro": 0.8447173058645225,
+      "eval_loss": 0.2888963222503662,
+      "eval_runtime": 80.9886,
+      "eval_samples_per_second": 47.463,
+      "eval_steps_per_second": 0.753,
+      "learning_rate": 0.0001,
+      "step": 6516
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.2866805411030177,
+      "eval_f1_macro": 0.6255767175486281,
+      "eval_f1_micro": 0.8475834540970686,
+      "eval_loss": 0.288282573223114,
+      "eval_runtime": 78.5643,
+      "eval_samples_per_second": 48.928,
+      "eval_steps_per_second": 0.776,
+      "learning_rate": 0.0001,
+      "step": 6697
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.28251821019771073,
+      "eval_f1_macro": 0.6057239934398935,
+      "eval_f1_micro": 0.8452536426724028,
+      "eval_loss": 0.29050976037979126,
+      "eval_runtime": 79.802,
+      "eval_samples_per_second": 48.169,
+      "eval_steps_per_second": 0.764,
+      "learning_rate": 0.0001,
+      "step": 6878
+    },
+    {
+      "epoch": 38.67403314917127,
+      "grad_norm": 0.1844823658466339,
+      "learning_rate": 0.0001,
+      "loss": 0.299,
+      "step": 7000
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.28537981269510926,
+      "eval_f1_macro": 0.625366961909805,
+      "eval_f1_micro": 0.8470600182796791,
+      "eval_loss": 0.28778275847435,
+      "eval_runtime": 78.7507,
+      "eval_samples_per_second": 48.812,
+      "eval_steps_per_second": 0.775,
+      "learning_rate": 0.0001,
+      "step": 7059
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.2809573361082206,
+      "eval_f1_macro": 0.622337777946806,
+      "eval_f1_micro": 0.8468000302716884,
+      "eval_loss": 0.2885717749595642,
+      "eval_runtime": 79.0959,
+      "eval_samples_per_second": 48.599,
+      "eval_steps_per_second": 0.771,
+      "learning_rate": 0.0001,
+      "step": 7240
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.2843392299687825,
+      "eval_f1_macro": 0.6260539681026288,
+      "eval_f1_micro": 0.847323400258903,
+      "eval_loss": 0.28773826360702515,
+      "eval_runtime": 81.7413,
+      "eval_samples_per_second": 47.026,
+      "eval_steps_per_second": 0.746,
+      "learning_rate": 0.0001,
+      "step": 7421
+    },
+    {
+      "epoch": 41.43646408839779,
+      "grad_norm": 0.16540081799030304,
+      "learning_rate": 0.0001,
+      "loss": 0.2989,
+      "step": 7500
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.28563995837669093,
+      "eval_f1_macro": 0.6199392946357273,
+      "eval_f1_micro": 0.8476613005450627,
+      "eval_loss": 0.28776827454566956,
+      "eval_runtime": 78.9339,
+      "eval_samples_per_second": 48.699,
+      "eval_steps_per_second": 0.773,
+      "learning_rate": 0.0001,
+      "step": 7602
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.28303850156087407,
+      "eval_f1_macro": 0.6287571427217789,
+      "eval_f1_micro": 0.8479237095716232,
+      "eval_loss": 0.28717148303985596,
+      "eval_runtime": 77.7099,
+      "eval_samples_per_second": 49.466,
+      "eval_steps_per_second": 0.785,
+      "learning_rate": 0.0001,
+      "step": 7783
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.28407908428720086,
+      "eval_f1_macro": 0.6189979239207937,
+      "eval_f1_micro": 0.8463665693654939,
+      "eval_loss": 0.28678667545318604,
+      "eval_runtime": 78.2343,
+      "eval_samples_per_second": 49.134,
+      "eval_steps_per_second": 0.78,
+      "learning_rate": 0.0001,
+      "step": 7964
+    },
+    {
+      "epoch": 44.19889502762431,
+      "grad_norm": 0.17522749304771423,
+      "learning_rate": 0.0001,
+      "loss": 0.2983,
+      "step": 8000
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.28381893860561913,
+      "eval_f1_macro": 0.6235508782461164,
+      "eval_f1_micro": 0.8462928555066304,
+      "eval_loss": 0.28698909282684326,
+      "eval_runtime": 78.0653,
+      "eval_samples_per_second": 49.241,
+      "eval_steps_per_second": 0.781,
+      "learning_rate": 0.0001,
+      "step": 8145
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.28251821019771073,
+      "eval_f1_macro": 0.6151318511304835,
+      "eval_f1_micro": 0.8459846547314578,
+      "eval_loss": 0.2868472635746002,
+      "eval_runtime": 77.6178,
+      "eval_samples_per_second": 49.525,
+      "eval_steps_per_second": 0.786,
+      "learning_rate": 0.0001,
+      "step": 8326
+    },
+    {
+      "epoch": 46.96132596685083,
+      "grad_norm": 0.20419611036777496,
+      "learning_rate": 0.0001,
+      "loss": 0.298,
+      "step": 8500
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.2845993756503642,
+      "eval_f1_macro": 0.6211457155619424,
+      "eval_f1_micro": 0.8462129359348595,
+      "eval_loss": 0.28715068101882935,
+      "eval_runtime": 77.3289,
+      "eval_samples_per_second": 49.71,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 0.0001,
+      "step": 8507
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.28355879292403746,
+      "eval_f1_macro": 0.6231150403485404,
+      "eval_f1_micro": 0.8466852933705867,
+      "eval_loss": 0.28661593794822693,
+      "eval_runtime": 76.7641,
+      "eval_samples_per_second": 50.075,
+      "eval_steps_per_second": 0.795,
+      "learning_rate": 0.0001,
+      "step": 8688
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.28590010405827265,
+      "eval_f1_macro": 0.616055362439494,
+      "eval_f1_micro": 0.8460415439387342,
+      "eval_loss": 0.28633347153663635,
+      "eval_runtime": 76.5745,
+      "eval_samples_per_second": 50.199,
+      "eval_steps_per_second": 0.797,
+      "learning_rate": 0.0001,
+      "step": 8869
+    },
+    {
+      "epoch": 49.72375690607735,
+      "grad_norm": 0.2103131115436554,
+      "learning_rate": 0.0001,
+      "loss": 0.2965,
+      "step": 9000
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.2845993756503642,
+      "eval_f1_macro": 0.625458075101288,
+      "eval_f1_micro": 0.8482882700250868,
+      "eval_loss": 0.28642749786376953,
+      "eval_runtime": 76.3371,
+      "eval_samples_per_second": 50.356,
+      "eval_steps_per_second": 0.799,
+      "learning_rate": 0.0001,
+      "step": 9050
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.28485952133194586,
+      "eval_f1_macro": 0.6278100779578839,
+      "eval_f1_micro": 0.848592785832539,
+      "eval_loss": 0.2890762686729431,
+      "eval_runtime": 77.0258,
+      "eval_samples_per_second": 49.905,
+      "eval_steps_per_second": 0.792,
+      "learning_rate": 0.0001,
+      "step": 9231
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.2851196670135276,
+      "eval_f1_macro": 0.6255462096645672,
+      "eval_f1_micro": 0.8464228285561143,
+      "eval_loss": 0.2855978012084961,
+      "eval_runtime": 76.6781,
+      "eval_samples_per_second": 50.132,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 0.0001,
+      "step": 9412
+    },
+    {
+      "epoch": 52.48618784530387,
+      "grad_norm": 0.24192312359809875,
+      "learning_rate": 0.0001,
+      "loss": 0.2956,
+      "step": 9500
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.27887617065556713,
+      "eval_f1_macro": 0.6457587856102145,
+      "eval_f1_micro": 0.8489991514001897,
+      "eval_loss": 0.2872205674648285,
+      "eval_runtime": 76.6479,
+      "eval_samples_per_second": 50.151,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 0.0001,
+      "step": 9593
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.2903225806451613,
+      "eval_f1_macro": 0.6243869856844756,
+      "eval_f1_micro": 0.8476844874709444,
+      "eval_loss": 0.2855803072452545,
+      "eval_runtime": 77.582,
+      "eval_samples_per_second": 49.548,
+      "eval_steps_per_second": 0.786,
+      "learning_rate": 0.0001,
+      "step": 9774
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.2845993756503642,
+      "eval_f1_macro": 0.6339630509281279,
+      "eval_f1_micro": 0.8475136716266056,
+      "eval_loss": 0.28568968176841736,
+      "eval_runtime": 77.102,
+      "eval_samples_per_second": 49.856,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 0.0001,
+      "step": 9955
+    },
+    {
+      "epoch": 55.248618784530386,
+      "grad_norm": 0.21083500981330872,
+      "learning_rate": 0.0001,
+      "loss": 0.2958,
+      "step": 10000
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.2866805411030177,
+      "eval_f1_macro": 0.6241465491773776,
+      "eval_f1_micro": 0.8465597622829039,
+      "eval_loss": 0.28617897629737854,
+      "eval_runtime": 76.1445,
+      "eval_samples_per_second": 50.483,
+      "eval_steps_per_second": 0.801,
+      "learning_rate": 0.0001,
+      "step": 10136
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.2861602497398543,
+      "eval_f1_macro": 0.6249269702519318,
+      "eval_f1_micro": 0.845436853426201,
+      "eval_loss": 0.2870914936065674,
+      "eval_runtime": 77.4556,
+      "eval_samples_per_second": 49.628,
+      "eval_steps_per_second": 0.788,
+      "learning_rate": 0.0001,
+      "step": 10317
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.28121748178980227,
+      "eval_f1_macro": 0.6333866717026029,
+      "eval_f1_micro": 0.8491941382702348,
+      "eval_loss": 0.2857914865016937,
+      "eval_runtime": 77.2551,
+      "eval_samples_per_second": 49.757,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 0.0001,
+      "step": 10498
+    },
+    {
+      "epoch": 58.011049723756905,
+      "grad_norm": 0.22250542044639587,
+      "learning_rate": 1e-05,
+      "loss": 0.2954,
+      "step": 10500
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.2887617065556712,
+      "eval_f1_macro": 0.6178461796051926,
+      "eval_f1_micro": 0.8468232576049287,
+      "eval_loss": 0.28617140650749207,
+      "eval_runtime": 76.6548,
+      "eval_samples_per_second": 50.147,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 1e-05,
+      "step": 10679
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.28537981269510926,
+      "eval_f1_macro": 0.6275748058546806,
+      "eval_f1_micro": 0.8485033598045205,
+      "eval_loss": 0.2846605181694031,
+      "eval_runtime": 76.2984,
+      "eval_samples_per_second": 50.381,
+      "eval_steps_per_second": 0.799,
+      "learning_rate": 1e-05,
+      "step": 10860
+    },
+    {
+      "epoch": 60.773480662983424,
+      "grad_norm": 0.25101110339164734,
+      "learning_rate": 1e-05,
+      "loss": 0.2923,
+      "step": 11000
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.28303850156087407,
+      "eval_f1_macro": 0.6223888517425455,
+      "eval_f1_micro": 0.8479865171982329,
+      "eval_loss": 0.2848633825778961,
+      "eval_runtime": 76.6322,
+      "eval_samples_per_second": 50.162,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 1e-05,
+      "step": 11041
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.2843392299687825,
+      "eval_f1_macro": 0.6247632003821695,
+      "eval_f1_micro": 0.8469200122586577,
+      "eval_loss": 0.28548601269721985,
+      "eval_runtime": 77.5636,
+      "eval_samples_per_second": 49.559,
+      "eval_steps_per_second": 0.786,
+      "learning_rate": 1e-05,
+      "step": 11222
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.2827783558792924,
+      "eval_f1_macro": 0.6274806463168713,
+      "eval_f1_micro": 0.8488979777323336,
+      "eval_loss": 0.28493326902389526,
+      "eval_runtime": 77.2321,
+      "eval_samples_per_second": 49.772,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 1e-05,
+      "step": 11403
+    },
+    {
+      "epoch": 63.53591160220994,
+      "grad_norm": 0.23796355724334717,
+      "learning_rate": 1e-05,
+      "loss": 0.2918,
+      "step": 11500
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.28225806451612906,
+      "eval_f1_macro": 0.6370787064578803,
+      "eval_f1_micro": 0.8475187206498287,
+      "eval_loss": 0.28459736704826355,
+      "eval_runtime": 77.0797,
+      "eval_samples_per_second": 49.87,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 1e-05,
+      "step": 11584
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.2869406867845994,
+      "eval_f1_macro": 0.6240984315849201,
+      "eval_f1_micro": 0.8467700785794469,
+      "eval_loss": 0.2860054671764374,
+      "eval_runtime": 76.4904,
+      "eval_samples_per_second": 50.255,
+      "eval_steps_per_second": 0.797,
+      "learning_rate": 1e-05,
+      "step": 11765
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.28407908428720086,
+      "eval_f1_macro": 0.6346693986906206,
+      "eval_f1_micro": 0.8481340441736481,
+      "eval_loss": 0.2847185730934143,
+      "eval_runtime": 77.2653,
+      "eval_samples_per_second": 49.751,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 1e-05,
+      "step": 11946
+    },
+    {
+      "epoch": 66.29834254143647,
+      "grad_norm": 0.25470152497291565,
+      "learning_rate": 1e-05,
+      "loss": 0.2906,
+      "step": 12000
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.28537981269510926,
+      "eval_f1_macro": 0.6287121285420982,
+      "eval_f1_micro": 0.8487528745798691,
+      "eval_loss": 0.28529325127601624,
+      "eval_runtime": 79.9065,
+      "eval_samples_per_second": 48.106,
+      "eval_steps_per_second": 0.763,
+      "learning_rate": 1e-05,
+      "step": 12127
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.2866805411030177,
+      "eval_f1_macro": 0.6321379394582358,
+      "eval_f1_micro": 0.8480251642525557,
+      "eval_loss": 0.2852926254272461,
+      "eval_runtime": 78.4728,
+      "eval_samples_per_second": 48.985,
+      "eval_steps_per_second": 0.777,
+      "learning_rate": 1e-05,
+      "step": 12308
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.28355879292403746,
+      "eval_f1_macro": 0.6397237492354447,
+      "eval_f1_micro": 0.847692190707931,
+      "eval_loss": 0.284834623336792,
+      "eval_runtime": 77.7721,
+      "eval_samples_per_second": 49.426,
+      "eval_steps_per_second": 0.784,
+      "learning_rate": 1e-05,
+      "step": 12489
+    },
+    {
+      "epoch": 69.06077348066299,
+      "grad_norm": 0.19653503596782684,
+      "learning_rate": 1e-05,
+      "loss": 0.2918,
+      "step": 12500
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.28225806451612906,
+      "eval_f1_macro": 0.6381143671040704,
+      "eval_f1_micro": 0.8492167101827677,
+      "eval_loss": 0.28527727723121643,
+      "eval_runtime": 76.6607,
+      "eval_samples_per_second": 50.143,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 1e-05,
+      "step": 12670
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.2882414151925078,
+      "eval_f1_macro": 0.6325489300082728,
+      "eval_f1_micro": 0.8475971370143149,
+      "eval_loss": 0.28507113456726074,
+      "eval_runtime": 76.9731,
+      "eval_samples_per_second": 49.94,
+      "eval_steps_per_second": 0.792,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 12851
+    },
+    {
+      "epoch": 71.8232044198895,
+      "grad_norm": 0.19946995377540588,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2918,
+      "step": 13000
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.28485952133194586,
+      "eval_f1_macro": 0.6236352127811986,
+      "eval_f1_micro": 0.8474255781269963,
+      "eval_loss": 0.28452861309051514,
+      "eval_runtime": 79.7463,
+      "eval_samples_per_second": 48.203,
+      "eval_steps_per_second": 0.765,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13032
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.28121748178980227,
+      "eval_f1_macro": 0.6333277250193455,
+      "eval_f1_micro": 0.847641772858811,
+      "eval_loss": 0.28448227047920227,
+      "eval_runtime": 76.9059,
+      "eval_samples_per_second": 49.983,
+      "eval_steps_per_second": 0.793,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13213
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.2827783558792924,
+      "eval_f1_macro": 0.6300187593616763,
+      "eval_f1_micro": 0.8465770953294945,
+      "eval_loss": 0.28447526693344116,
+      "eval_runtime": 77.6657,
+      "eval_samples_per_second": 49.494,
+      "eval_steps_per_second": 0.785,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13394
+    },
+    {
+      "epoch": 74.58563535911603,
+      "grad_norm": 0.251558780670166,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2913,
+      "step": 13500
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.28199791883454733,
+      "eval_f1_macro": 0.6235297745568456,
+      "eval_f1_micro": 0.8473772748126625,
+      "eval_loss": 0.2851284146308899,
+      "eval_runtime": 77.914,
+      "eval_samples_per_second": 49.336,
+      "eval_steps_per_second": 0.783,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13575
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.2879812695109261,
+      "eval_f1_macro": 0.6186062513830065,
+      "eval_f1_micro": 0.847320835674516,
+      "eval_loss": 0.2859683036804199,
+      "eval_runtime": 77.7414,
+      "eval_samples_per_second": 49.446,
+      "eval_steps_per_second": 0.785,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13756
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.28563995837669093,
+      "eval_f1_macro": 0.6172786558676017,
+      "eval_f1_micro": 0.8459046737621472,
+      "eval_loss": 0.2858298718929291,
+      "eval_runtime": 79.1015,
+      "eval_samples_per_second": 48.596,
+      "eval_steps_per_second": 0.771,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13937
+    },
+    {
+      "epoch": 77.34806629834254,
+      "grad_norm": 0.22088366746902466,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2913,
+      "step": 14000
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.2843392299687825,
+      "eval_f1_macro": 0.6325947858436887,
+      "eval_f1_micro": 0.8480547459130655,
+      "eval_loss": 0.28438833355903625,
+      "eval_runtime": 77.2562,
+      "eval_samples_per_second": 49.757,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14118
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.2874609781477627,
+      "eval_f1_macro": 0.617917490234713,
+      "eval_f1_micro": 0.8472353346431579,
+      "eval_loss": 0.2870919704437256,
+      "eval_runtime": 76.5647,
+      "eval_samples_per_second": 50.206,
+      "eval_steps_per_second": 0.797,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14299
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.28381893860561913,
+      "eval_f1_macro": 0.6286567457369128,
+      "eval_f1_micro": 0.8477330616403465,
+      "eval_loss": 0.28482332825660706,
+      "eval_runtime": 76.83,
+      "eval_samples_per_second": 50.033,
+      "eval_steps_per_second": 0.794,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14480
+    },
+    {
+      "epoch": 80.11049723756906,
+      "grad_norm": 0.21530944108963013,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2915,
+      "step": 14500
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.28537981269510926,
+      "eval_f1_macro": 0.6304525529970205,
+      "eval_f1_micro": 0.8489678202792957,
+      "eval_loss": 0.2847617268562317,
+      "eval_runtime": 77.26,
+      "eval_samples_per_second": 49.754,
+      "eval_steps_per_second": 0.79,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14661
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.28590010405827265,
+      "eval_f1_macro": 0.6394217270135759,
+      "eval_f1_micro": 0.8480416961845967,
+      "eval_loss": 0.28511229157447815,
+      "eval_runtime": 78.9926,
+      "eval_samples_per_second": 48.663,
+      "eval_steps_per_second": 0.772,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14842
+    },
+    {
+      "epoch": 82.87292817679558,
+      "grad_norm": 0.2371624857187271,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2913,
+      "step": 15000
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.28563995837669093,
+      "eval_f1_macro": 0.6255055774993536,
+      "eval_f1_micro": 0.8488055562622434,
+      "eval_loss": 0.284644216299057,
+      "eval_runtime": 76.4754,
+      "eval_samples_per_second": 50.265,
+      "eval_steps_per_second": 0.798,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 15023
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.2832986472424558,
+      "eval_f1_macro": 0.6457553263622914,
+      "eval_f1_micro": 0.848188643119867,
+      "eval_loss": 0.2857225835323334,
+      "eval_runtime": 77.2675,
+      "eval_samples_per_second": 49.749,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 15204
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.28121748178980227,
+      "eval_f1_macro": 0.6339586571635658,
+      "eval_f1_micro": 0.848818698673405,
+      "eval_loss": 0.28550758957862854,
+      "eval_runtime": 77.3218,
+      "eval_samples_per_second": 49.714,
+      "eval_steps_per_second": 0.789,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15385
+    },
+    {
+      "epoch": 85.6353591160221,
+      "grad_norm": 0.22222235798835754,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.2922,
+      "step": 15500
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.28590010405827265,
+      "eval_f1_macro": 0.6362631688004041,
+      "eval_f1_micro": 0.8479890588592848,
+      "eval_loss": 0.284895658493042,
+      "eval_runtime": 76.6317,
+      "eval_samples_per_second": 50.162,
+      "eval_steps_per_second": 0.796,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15566
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.2851196670135276,
+      "eval_f1_macro": 0.6327749126527296,
+      "eval_f1_micro": 0.8473590201582036,
+      "eval_loss": 0.2845035493373871,
+      "eval_runtime": 77.1171,
+      "eval_samples_per_second": 49.846,
+      "eval_steps_per_second": 0.791,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15747
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.28121748178980227,
+      "eval_f1_macro": 0.6370893160624239,
+      "eval_f1_micro": 0.8477551536613127,
+      "eval_loss": 0.28541097044944763,
+      "eval_runtime": 76.6873,
+      "eval_samples_per_second": 50.126,
+      "eval_steps_per_second": 0.795,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15928
+    },
+    {
+      "epoch": 88.0,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15928,
+      "total_flos": 1.500719176717825e+20,
+      "train_loss": 0.3047179739897961,
+      "train_runtime": 30841.8451,
+      "train_samples_per_second": 56.038,
+      "train_steps_per_second": 0.88
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 27150,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.500719176717825e+20,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}