thom126f commited on 22 days ago

Commit

f084622

•

1 Parent(s): 61f57e2

Training in progress, step 23532

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-0/checkpoint-23532/config.json +331 -0
run-0/checkpoint-23532/model.safetensors +3 -0
run-0/checkpoint-23532/optimizer.pt +3 -0
run-0/checkpoint-23532/rng_state.pth +3 -0
run-0/checkpoint-23532/scheduler.pt +3 -0
run-0/checkpoint-23532/special_tokens_map.json +7 -0
run-0/checkpoint-23532/tokenizer.json +0 -0
run-0/checkpoint-23532/tokenizer_config.json +55 -0
run-0/checkpoint-23532/trainer_state.json +1212 -0
run-0/checkpoint-23532/training_args.bin +3 -0
run-0/checkpoint-23532/vocab.txt +0 -0
run-1/checkpoint-24168/config.json +331 -0
run-1/checkpoint-24168/model.safetensors +3 -0
run-1/checkpoint-24168/optimizer.pt +3 -0
run-1/checkpoint-24168/rng_state.pth +3 -0
run-1/checkpoint-24168/scheduler.pt +3 -0
run-1/checkpoint-24168/special_tokens_map.json +7 -0
run-1/checkpoint-24168/tokenizer.json +0 -0
run-1/checkpoint-24168/tokenizer_config.json +55 -0
run-1/checkpoint-24168/trainer_state.json +1244 -0
run-1/checkpoint-24168/training_args.bin +3 -0
run-1/checkpoint-24168/vocab.txt +0 -0
run-10/checkpoint-20670/config.json +331 -0
run-10/checkpoint-20670/model.safetensors +3 -0
run-10/checkpoint-20670/optimizer.pt +3 -0
run-10/checkpoint-20670/rng_state.pth +3 -0
run-10/checkpoint-20670/scheduler.pt +3 -0
run-10/checkpoint-20670/special_tokens_map.json +7 -0
run-10/checkpoint-20670/tokenizer.json +0 -0
run-10/checkpoint-20670/tokenizer_config.json +55 -0
run-10/checkpoint-20670/trainer_state.json +1068 -0
run-10/checkpoint-20670/training_args.bin +3 -0
run-10/checkpoint-20670/vocab.txt +0 -0
run-12/checkpoint-20034/config.json +331 -0
run-12/checkpoint-20034/model.safetensors +3 -0
run-12/checkpoint-20034/optimizer.pt +3 -0
run-12/checkpoint-20034/rng_state.pth +3 -0
run-12/checkpoint-20034/scheduler.pt +3 -0
run-12/checkpoint-20034/special_tokens_map.json +7 -0
run-12/checkpoint-20034/tokenizer.json +0 -0
run-12/checkpoint-20034/tokenizer_config.json +55 -0
run-12/checkpoint-20034/trainer_state.json +1036 -0
run-12/checkpoint-20034/training_args.bin +3 -0
run-12/checkpoint-20034/vocab.txt +0 -0
run-2/checkpoint-12402/config.json +331 -0
run-2/checkpoint-12402/model.safetensors +3 -0
run-2/checkpoint-12402/optimizer.pt +3 -0
run-2/checkpoint-12402/rng_state.pth +3 -0
run-2/checkpoint-12402/scheduler.pt +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6839bdb01cb38f5bc3c64a0dca2e456b741c53b5663997972e73ee7c5036082
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:e22625dfcd91e832d3564d2a5452917d2b462351555ac58a11f0f3fb2cd840bc
 size 268290900

run-0/checkpoint-23532/config.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "restaurant_reviews",
+    "1": "nutrition_info",
+    "2": "account_blocked",
+    "3": "oil_change_how",
+    "4": "time",
+    "5": "weather",
+    "6": "redeem_rewards",
+    "7": "interest_rate",
+    "8": "gas_type",
+    "9": "accept_reservations",
+    "10": "smart_home",
+    "11": "user_name",
+    "12": "report_lost_card",
+    "13": "repeat",
+    "14": "whisper_mode",
+    "15": "what_are_your_hobbies",
+    "16": "order",
+    "17": "jump_start",
+    "18": "schedule_meeting",
+    "19": "meeting_schedule",
+    "20": "freeze_account",
+    "21": "what_song",
+    "22": "meaning_of_life",
+    "23": "restaurant_reservation",
+    "24": "traffic",
+    "25": "make_call",
+    "26": "text",
+    "27": "bill_balance",
+    "28": "improve_credit_score",
+    "29": "change_language",
+    "30": "no",
+    "31": "measurement_conversion",
+    "32": "timer",
+    "33": "flip_coin",
+    "34": "do_you_have_pets",
+    "35": "balance",
+    "36": "tell_joke",
+    "37": "last_maintenance",
+    "38": "exchange_rate",
+    "39": "uber",
+    "40": "car_rental",
+    "41": "credit_limit",
+    "42": "oos",
+    "43": "shopping_list",
+    "44": "expiration_date",
+    "45": "routing",
+    "46": "meal_suggestion",
+    "47": "tire_change",
+    "48": "todo_list",
+    "49": "card_declined",
+    "50": "rewards_balance",
+    "51": "change_accent",
+    "52": "vaccines",
+    "53": "reminder_update",
+    "54": "food_last",
+    "55": "change_ai_name",
+    "56": "bill_due",
+    "57": "who_do_you_work_for",
+    "58": "share_location",
+    "59": "international_visa",
+    "60": "calendar",
+    "61": "translate",
+    "62": "carry_on",
+    "63": "book_flight",
+    "64": "insurance_change",
+    "65": "todo_list_update",
+    "66": "timezone",
+    "67": "cancel_reservation",
+    "68": "transactions",
+    "69": "credit_score",
+    "70": "report_fraud",
+    "71": "spending_history",
+    "72": "directions",
+    "73": "spelling",
+    "74": "insurance",
+    "75": "what_is_your_name",
+    "76": "reminder",
+    "77": "where_are_you_from",
+    "78": "distance",
+    "79": "payday",
+    "80": "flight_status",
+    "81": "find_phone",
+    "82": "greeting",
+    "83": "alarm",
+    "84": "order_status",
+    "85": "confirm_reservation",
+    "86": "cook_time",
+    "87": "damaged_card",
+    "88": "reset_settings",
+    "89": "pin_change",
+    "90": "replacement_card_duration",
+    "91": "new_card",
+    "92": "roll_dice",
+    "93": "income",
+    "94": "taxes",
+    "95": "date",
+    "96": "who_made_you",
+    "97": "pto_request",
+    "98": "tire_pressure",
+    "99": "how_old_are_you",
+    "100": "rollover_401k",
+    "101": "pto_request_status",
+    "102": "how_busy",
+    "103": "application_status",
+    "104": "recipe",
+    "105": "calendar_update",
+    "106": "play_music",
+    "107": "yes",
+    "108": "direct_deposit",
+    "109": "credit_limit_change",
+    "110": "gas",
+    "111": "pay_bill",
+    "112": "ingredients_list",
+    "113": "lost_luggage",
+    "114": "goodbye",
+    "115": "what_can_i_ask_you",
+    "116": "book_hotel",
+    "117": "are_you_a_bot",
+    "118": "next_song",
+    "119": "change_speed",
+    "120": "plug_type",
+    "121": "maybe",
+    "122": "w2",
+    "123": "oil_change_when",
+    "124": "thank_you",
+    "125": "shopping_list_update",
+    "126": "pto_balance",
+    "127": "order_checks",
+    "128": "travel_alert",
+    "129": "fun_fact",
+    "130": "sync_device",
+    "131": "schedule_maintenance",
+    "132": "apr",
+    "133": "transfer",
+    "134": "ingredient_substitution",
+    "135": "calories",
+    "136": "current_location",
+    "137": "international_fees",
+    "138": "calculator",
+    "139": "definition",
+    "140": "next_holiday",
+    "141": "update_playlist",
+    "142": "mpg",
+    "143": "min_payment",
+    "144": "change_user_name",
+    "145": "restaurant_suggestion",
+    "146": "travel_notification",
+    "147": "cancel",
+    "148": "pto_used",
+    "149": "travel_suggestion",
+    "150": "change_volume"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "accept_reservations": 9,
+    "account_blocked": 2,
+    "alarm": 83,
+    "application_status": 103,
+    "apr": 132,
+    "are_you_a_bot": 117,
+    "balance": 35,
+    "bill_balance": 27,
+    "bill_due": 56,
+    "book_flight": 63,
+    "book_hotel": 116,
+    "calculator": 138,
+    "calendar": 60,
+    "calendar_update": 105,
+    "calories": 135,
+    "cancel": 147,
+    "cancel_reservation": 67,
+    "car_rental": 40,
+    "card_declined": 49,
+    "carry_on": 62,
+    "change_accent": 51,
+    "change_ai_name": 55,
+    "change_language": 29,
+    "change_speed": 119,
+    "change_user_name": 144,
+    "change_volume": 150,
+    "confirm_reservation": 85,
+    "cook_time": 86,
+    "credit_limit": 41,
+    "credit_limit_change": 109,
+    "credit_score": 69,
+    "current_location": 136,
+    "damaged_card": 87,
+    "date": 95,
+    "definition": 139,
+    "direct_deposit": 108,
+    "directions": 72,
+    "distance": 78,
+    "do_you_have_pets": 34,
+    "exchange_rate": 38,
+    "expiration_date": 44,
+    "find_phone": 81,
+    "flight_status": 80,
+    "flip_coin": 33,
+    "food_last": 54,
+    "freeze_account": 20,
+    "fun_fact": 129,
+    "gas": 110,
+    "gas_type": 8,
+    "goodbye": 114,
+    "greeting": 82,
+    "how_busy": 102,
+    "how_old_are_you": 99,
+    "improve_credit_score": 28,
+    "income": 93,
+    "ingredient_substitution": 134,
+    "ingredients_list": 112,
+    "insurance": 74,
+    "insurance_change": 64,
+    "interest_rate": 7,
+    "international_fees": 137,
+    "international_visa": 59,
+    "jump_start": 17,
+    "last_maintenance": 37,
+    "lost_luggage": 113,
+    "make_call": 25,
+    "maybe": 121,
+    "meal_suggestion": 46,
+    "meaning_of_life": 22,
+    "measurement_conversion": 31,
+    "meeting_schedule": 19,
+    "min_payment": 143,
+    "mpg": 142,
+    "new_card": 91,
+    "next_holiday": 140,
+    "next_song": 118,
+    "no": 30,
+    "nutrition_info": 1,
+    "oil_change_how": 3,
+    "oil_change_when": 123,
+    "oos": 42,
+    "order": 16,
+    "order_checks": 127,
+    "order_status": 84,
+    "pay_bill": 111,
+    "payday": 79,
+    "pin_change": 89,
+    "play_music": 106,
+    "plug_type": 120,
+    "pto_balance": 126,
+    "pto_request": 97,
+    "pto_request_status": 101,
+    "pto_used": 148,
+    "recipe": 104,
+    "redeem_rewards": 6,
+    "reminder": 76,
+    "reminder_update": 53,
+    "repeat": 13,
+    "replacement_card_duration": 90,
+    "report_fraud": 70,
+    "report_lost_card": 12,
+    "reset_settings": 88,
+    "restaurant_reservation": 23,
+    "restaurant_reviews": 0,
+    "restaurant_suggestion": 145,
+    "rewards_balance": 50,
+    "roll_dice": 92,
+    "rollover_401k": 100,
+    "routing": 45,
+    "schedule_maintenance": 131,
+    "schedule_meeting": 18,
+    "share_location": 58,
+    "shopping_list": 43,
+    "shopping_list_update": 125,
+    "smart_home": 10,
+    "spelling": 73,
+    "spending_history": 71,
+    "sync_device": 130,
+    "taxes": 94,
+    "tell_joke": 36,
+    "text": 26,
+    "thank_you": 124,
+    "time": 4,
+    "timer": 32,
+    "timezone": 66,
+    "tire_change": 47,
+    "tire_pressure": 98,
+    "todo_list": 48,
+    "todo_list_update": 65,
+    "traffic": 24,
+    "transactions": 68,
+    "transfer": 133,
+    "translate": 61,
+    "travel_alert": 128,
+    "travel_notification": 146,
+    "travel_suggestion": 149,
+    "uber": 39,
+    "update_playlist": 141,
+    "user_name": 11,
+    "vaccines": 52,
+    "w2": 122,
+    "weather": 5,
+    "what_are_your_hobbies": 15,
+    "what_can_i_ask_you": 115,
+    "what_is_your_name": 75,
+    "what_song": 21,
+    "where_are_you_from": 77,
+    "whisper_mode": 14,
+    "who_do_you_work_for": 57,
+    "who_made_you": 96,
+    "yes": 107
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

run-0/checkpoint-23532/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e22625dfcd91e832d3564d2a5452917d2b462351555ac58a11f0f3fb2cd840bc
+size 268290900

run-0/checkpoint-23532/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0d3df8e206fc5d9ef3ed87e7474b38afc1702619f72f04e684aa35a57e12c29
+size 536643898

run-0/checkpoint-23532/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b9c11fb4db653679cb4e1738c6da868a25b312984cb03fb9937dec61b2dd07f
+size 14244

run-0/checkpoint-23532/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3abce43f3f6073de6ea15ea05747334d5bc2bdc0e94e2618f6a9c02e828fd3e1
+size 1064

run-0/checkpoint-23532/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-23532/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-23532/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-23532/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1212 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 74.0,
+  "eval_steps": 500,
+  "global_step": 23532,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": 2.3475592136383057,
+      "learning_rate": 1.9730579636240016e-05,
+      "loss": 2.8866,
+      "step": 317
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7316129032258064,
+      "eval_loss": 2.071580648422241,
+      "eval_runtime": 1.572,
+      "eval_samples_per_second": 1972.01,
+      "eval_steps_per_second": 41.349,
+      "step": 318
+    },
+    {
+      "epoch": 1.9937106918238994,
+      "grad_norm": 2.253408908843994,
+      "learning_rate": 1.9461159272480027e-05,
+      "loss": 1.5472,
+      "step": 634
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8774193548387097,
+      "eval_loss": 0.9601801633834839,
+      "eval_runtime": 1.5767,
+      "eval_samples_per_second": 1966.179,
+      "eval_steps_per_second": 41.226,
+      "step": 636
+    },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": 2.595813274383545,
+      "learning_rate": 1.9191738908720045e-05,
+      "loss": 0.7257,
+      "step": 951
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9174193548387096,
+      "eval_loss": 0.514940083026886,
+      "eval_runtime": 1.5858,
+      "eval_samples_per_second": 1954.843,
+      "eval_steps_per_second": 40.989,
+      "step": 954
+    },
+    {
+      "epoch": 3.9874213836477987,
+      "grad_norm": 1.9288506507873535,
+      "learning_rate": 1.8922318544960056e-05,
+      "loss": 0.3992,
+      "step": 1268
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.937741935483871,
+      "eval_loss": 0.3805593252182007,
+      "eval_runtime": 1.5729,
+      "eval_samples_per_second": 1970.858,
+      "eval_steps_per_second": 41.324,
+      "step": 1272
+    },
+    {
+      "epoch": 4.984276729559748,
+      "grad_norm": 0.8146032094955444,
+      "learning_rate": 1.865289818120007e-05,
+      "loss": 0.2851,
+      "step": 1585
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9429032258064516,
+      "eval_loss": 0.3391108512878418,
+      "eval_runtime": 1.572,
+      "eval_samples_per_second": 1972.021,
+      "eval_steps_per_second": 41.349,
+      "step": 1590
+    },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": 0.6014134883880615,
+      "learning_rate": 1.8383477817440084e-05,
+      "loss": 0.2386,
+      "step": 1902
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9441935483870968,
+      "eval_loss": 0.32530343532562256,
+      "eval_runtime": 1.6034,
+      "eval_samples_per_second": 1933.35,
+      "eval_steps_per_second": 40.538,
+      "step": 1908
+    },
+    {
+      "epoch": 6.977987421383648,
+      "grad_norm": 1.808417797088623,
+      "learning_rate": 1.8114057453680095e-05,
+      "loss": 0.2158,
+      "step": 2219
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9454838709677419,
+      "eval_loss": 0.31467169523239136,
+      "eval_runtime": 1.5893,
+      "eval_samples_per_second": 1950.547,
+      "eval_steps_per_second": 40.899,
+      "step": 2226
+    },
+    {
+      "epoch": 7.9748427672955975,
+      "grad_norm": 0.3616284430027008,
+      "learning_rate": 1.784463708992011e-05,
+      "loss": 0.2045,
+      "step": 2536
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.30959999561309814,
+      "eval_runtime": 1.5809,
+      "eval_samples_per_second": 1960.963,
+      "eval_steps_per_second": 41.117,
+      "step": 2544
+    },
+    {
+      "epoch": 8.971698113207546,
+      "grad_norm": 0.4411262273788452,
+      "learning_rate": 1.7575216726160124e-05,
+      "loss": 0.1969,
+      "step": 2853
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.30444082617759705,
+      "eval_runtime": 1.5824,
+      "eval_samples_per_second": 1959.054,
+      "eval_steps_per_second": 41.077,
+      "step": 2862
+    },
+    {
+      "epoch": 9.968553459119496,
+      "grad_norm": 0.32283931970596313,
+      "learning_rate": 1.7305796362400138e-05,
+      "loss": 0.1919,
+      "step": 3170
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9458064516129032,
+      "eval_loss": 0.30055466294288635,
+      "eval_runtime": 1.592,
+      "eval_samples_per_second": 1947.271,
+      "eval_steps_per_second": 40.83,
+      "step": 3180
+    },
+    {
+      "epoch": 10.965408805031446,
+      "grad_norm": 0.34415411949157715,
+      "learning_rate": 1.7036375998640152e-05,
+      "loss": 0.1887,
+      "step": 3487
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9461290322580646,
+      "eval_loss": 0.30284497141838074,
+      "eval_runtime": 1.5873,
+      "eval_samples_per_second": 1953.002,
+      "eval_steps_per_second": 40.95,
+      "step": 3498
+    },
+    {
+      "epoch": 11.962264150943396,
+      "grad_norm": 0.23879113793373108,
+      "learning_rate": 1.6766955634880163e-05,
+      "loss": 0.1864,
+      "step": 3804
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.2960328757762909,
+      "eval_runtime": 1.5799,
+      "eval_samples_per_second": 1962.166,
+      "eval_steps_per_second": 41.142,
+      "step": 3816
+    },
+    {
+      "epoch": 12.959119496855346,
+      "grad_norm": 0.2762240171432495,
+      "learning_rate": 1.6497535271120178e-05,
+      "loss": 0.1836,
+      "step": 4121
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9454838709677419,
+      "eval_loss": 0.2947392165660858,
+      "eval_runtime": 1.5882,
+      "eval_samples_per_second": 1951.914,
+      "eval_steps_per_second": 40.927,
+      "step": 4134
+    },
+    {
+      "epoch": 13.955974842767295,
+      "grad_norm": 0.2626229524612427,
+      "learning_rate": 1.6228114907360192e-05,
+      "loss": 0.1818,
+      "step": 4438
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.2958820164203644,
+      "eval_runtime": 1.5898,
+      "eval_samples_per_second": 1949.935,
+      "eval_steps_per_second": 40.886,
+      "step": 4452
+    },
+    {
+      "epoch": 14.952830188679245,
+      "grad_norm": 0.386436402797699,
+      "learning_rate": 1.5958694543600206e-05,
+      "loss": 0.1805,
+      "step": 4755
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.29009997844696045,
+      "eval_runtime": 1.5859,
+      "eval_samples_per_second": 1954.683,
+      "eval_steps_per_second": 40.985,
+      "step": 4770
+    },
+    {
+      "epoch": 15.949685534591195,
+      "grad_norm": 0.22230026125907898,
+      "learning_rate": 1.568927417984022e-05,
+      "loss": 0.1798,
+      "step": 5072
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9461290322580646,
+      "eval_loss": 0.29720747470855713,
+      "eval_runtime": 1.5901,
+      "eval_samples_per_second": 1949.568,
+      "eval_steps_per_second": 40.878,
+      "step": 5088
+    },
+    {
+      "epoch": 16.946540880503143,
+      "grad_norm": 0.25611138343811035,
+      "learning_rate": 1.541985381608023e-05,
+      "loss": 0.1782,
+      "step": 5389
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9461290322580646,
+      "eval_loss": 0.29609400033950806,
+      "eval_runtime": 1.5952,
+      "eval_samples_per_second": 1943.373,
+      "eval_steps_per_second": 40.748,
+      "step": 5406
+    },
+    {
+      "epoch": 17.943396226415093,
+      "grad_norm": 0.21049971878528595,
+      "learning_rate": 1.5150433452320246e-05,
+      "loss": 0.1768,
+      "step": 5706
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.29309019446372986,
+      "eval_runtime": 1.5867,
+      "eval_samples_per_second": 1953.762,
+      "eval_steps_per_second": 40.966,
+      "step": 5724
+    },
+    {
+      "epoch": 18.940251572327043,
+      "grad_norm": 0.2441435158252716,
+      "learning_rate": 1.4881013088560258e-05,
+      "loss": 0.1761,
+      "step": 6023
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.2915351390838623,
+      "eval_runtime": 1.5853,
+      "eval_samples_per_second": 1955.431,
+      "eval_steps_per_second": 41.001,
+      "step": 6042
+    },
+    {
+      "epoch": 19.937106918238992,
+      "grad_norm": 0.5714885592460632,
+      "learning_rate": 1.4611592724800274e-05,
+      "loss": 0.1749,
+      "step": 6340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.2894654870033264,
+      "eval_runtime": 1.5856,
+      "eval_samples_per_second": 1955.05,
+      "eval_steps_per_second": 40.993,
+      "step": 6360
+    },
+    {
+      "epoch": 20.933962264150942,
+      "grad_norm": 0.23249487578868866,
+      "learning_rate": 1.4342172361040287e-05,
+      "loss": 0.1743,
+      "step": 6657
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.28891319036483765,
+      "eval_runtime": 1.5819,
+      "eval_samples_per_second": 1959.694,
+      "eval_steps_per_second": 41.09,
+      "step": 6678
+    },
+    {
+      "epoch": 21.930817610062892,
+      "grad_norm": 0.2100275754928589,
+      "learning_rate": 1.4072751997280301e-05,
+      "loss": 0.1735,
+      "step": 6974
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9487096774193549,
+      "eval_loss": 0.28882089257240295,
+      "eval_runtime": 1.5826,
+      "eval_samples_per_second": 1958.766,
+      "eval_steps_per_second": 41.071,
+      "step": 6996
+    },
+    {
+      "epoch": 22.927672955974842,
+      "grad_norm": 0.18105138838291168,
+      "learning_rate": 1.3803331633520314e-05,
+      "loss": 0.173,
+      "step": 7291
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.28733834624290466,
+      "eval_runtime": 1.5906,
+      "eval_samples_per_second": 1948.93,
+      "eval_steps_per_second": 40.865,
+      "step": 7314
+    },
+    {
+      "epoch": 23.92452830188679,
+      "grad_norm": 0.17866890132427216,
+      "learning_rate": 1.3533911269760327e-05,
+      "loss": 0.1727,
+      "step": 7608
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.28442323207855225,
+      "eval_runtime": 1.5887,
+      "eval_samples_per_second": 1951.295,
+      "eval_steps_per_second": 40.914,
+      "step": 7632
+    },
+    {
+      "epoch": 24.92138364779874,
+      "grad_norm": 0.1832052618265152,
+      "learning_rate": 1.3264490906000341e-05,
+      "loss": 0.1723,
+      "step": 7925
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.28769010305404663,
+      "eval_runtime": 1.5884,
+      "eval_samples_per_second": 1951.652,
+      "eval_steps_per_second": 40.922,
+      "step": 7950
+    },
+    {
+      "epoch": 25.91823899371069,
+      "grad_norm": 0.14876896142959595,
+      "learning_rate": 1.2995070542240355e-05,
+      "loss": 0.1717,
+      "step": 8242
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.2851002514362335,
+      "eval_runtime": 1.5925,
+      "eval_samples_per_second": 1946.621,
+      "eval_steps_per_second": 40.816,
+      "step": 8268
+    },
+    {
+      "epoch": 26.91509433962264,
+      "grad_norm": 0.18779420852661133,
+      "learning_rate": 1.2725650178480368e-05,
+      "loss": 0.1712,
+      "step": 8559
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.28837448358535767,
+      "eval_runtime": 1.5825,
+      "eval_samples_per_second": 1958.963,
+      "eval_steps_per_second": 41.075,
+      "step": 8586
+    },
+    {
+      "epoch": 27.91194968553459,
+      "grad_norm": 0.17873169481754303,
+      "learning_rate": 1.2456229814720382e-05,
+      "loss": 0.1707,
+      "step": 8876
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.28391382098197937,
+      "eval_runtime": 1.585,
+      "eval_samples_per_second": 1955.836,
+      "eval_steps_per_second": 41.009,
+      "step": 8904
+    },
+    {
+      "epoch": 28.90880503144654,
+      "grad_norm": 0.15820345282554626,
+      "learning_rate": 1.2186809450960395e-05,
+      "loss": 0.1704,
+      "step": 9193
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.28534936904907227,
+      "eval_runtime": 1.5858,
+      "eval_samples_per_second": 1954.889,
+      "eval_steps_per_second": 40.99,
+      "step": 9222
+    },
+    {
+      "epoch": 29.90566037735849,
+      "grad_norm": 0.20750579237937927,
+      "learning_rate": 1.1917389087200408e-05,
+      "loss": 0.17,
+      "step": 9510
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.2824024558067322,
+      "eval_runtime": 1.5833,
+      "eval_samples_per_second": 1957.892,
+      "eval_steps_per_second": 41.053,
+      "step": 9540
+    },
+    {
+      "epoch": 30.90251572327044,
+      "grad_norm": 0.2273702174425125,
+      "learning_rate": 1.1647968723440422e-05,
+      "loss": 0.1698,
+      "step": 9827
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.28540265560150146,
+      "eval_runtime": 1.5831,
+      "eval_samples_per_second": 1958.199,
+      "eval_steps_per_second": 41.059,
+      "step": 9858
+    },
+    {
+      "epoch": 31.89937106918239,
+      "grad_norm": 0.15220269560813904,
+      "learning_rate": 1.1378548359680436e-05,
+      "loss": 0.1696,
+      "step": 10144
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9487096774193549,
+      "eval_loss": 0.2837918996810913,
+      "eval_runtime": 1.5913,
+      "eval_samples_per_second": 1948.087,
+      "eval_steps_per_second": 40.847,
+      "step": 10176
+    },
+    {
+      "epoch": 32.89622641509434,
+      "grad_norm": 0.12839631736278534,
+      "learning_rate": 1.110912799592045e-05,
+      "loss": 0.1692,
+      "step": 10461
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.28212934732437134,
+      "eval_runtime": 1.5852,
+      "eval_samples_per_second": 1955.649,
+      "eval_steps_per_second": 41.006,
+      "step": 10494
+    },
+    {
+      "epoch": 33.893081761006286,
+      "grad_norm": 0.14741210639476776,
+      "learning_rate": 1.0839707632160463e-05,
+      "loss": 0.1691,
+      "step": 10778
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.28252750635147095,
+      "eval_runtime": 1.5948,
+      "eval_samples_per_second": 1943.876,
+      "eval_steps_per_second": 40.759,
+      "step": 10812
+    },
+    {
+      "epoch": 34.88993710691824,
+      "grad_norm": 0.1750616878271103,
+      "learning_rate": 1.0570287268400476e-05,
+      "loss": 0.1688,
+      "step": 11095
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.2832624018192291,
+      "eval_runtime": 1.5946,
+      "eval_samples_per_second": 1944.052,
+      "eval_steps_per_second": 40.762,
+      "step": 11130
+    },
+    {
+      "epoch": 35.886792452830186,
+      "grad_norm": 0.1566316783428192,
+      "learning_rate": 1.030086690464049e-05,
+      "loss": 0.1686,
+      "step": 11412
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.28356868028640747,
+      "eval_runtime": 1.5928,
+      "eval_samples_per_second": 1946.198,
+      "eval_steps_per_second": 40.807,
+      "step": 11448
+    },
+    {
+      "epoch": 36.88364779874214,
+      "grad_norm": 0.17213183641433716,
+      "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.1685,
+      "step": 11729
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.28204575181007385,
+      "eval_runtime": 1.5933,
+      "eval_samples_per_second": 1945.652,
+      "eval_steps_per_second": 40.796,
+      "step": 11766
+    },
+    {
+      "epoch": 37.880503144654085,
+      "grad_norm": 0.1503811776638031,
+      "learning_rate": 9.762026177120517e-06,
+      "loss": 0.1685,
+      "step": 12046
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.2826063930988312,
+      "eval_runtime": 1.5945,
+      "eval_samples_per_second": 1944.184,
+      "eval_steps_per_second": 40.765,
+      "step": 12084
+    },
+    {
+      "epoch": 38.87735849056604,
+      "grad_norm": 0.1548190414905548,
+      "learning_rate": 9.492605813360531e-06,
+      "loss": 0.1679,
+      "step": 12363
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.2820790410041809,
+      "eval_runtime": 1.5867,
+      "eval_samples_per_second": 1953.739,
+      "eval_steps_per_second": 40.966,
+      "step": 12402
+    },
+    {
+      "epoch": 39.874213836477985,
+      "grad_norm": 0.15846258401870728,
+      "learning_rate": 9.223185449600544e-06,
+      "loss": 0.168,
+      "step": 12680
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.27980658411979675,
+      "eval_runtime": 1.5972,
+      "eval_samples_per_second": 1940.923,
+      "eval_steps_per_second": 40.697,
+      "step": 12720
+    },
+    {
+      "epoch": 40.87106918238994,
+      "grad_norm": 0.1553773283958435,
+      "learning_rate": 8.953765085840558e-06,
+      "loss": 0.1677,
+      "step": 12997
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.28106164932250977,
+      "eval_runtime": 1.5869,
+      "eval_samples_per_second": 1953.442,
+      "eval_steps_per_second": 40.959,
+      "step": 13038
+    },
+    {
+      "epoch": 41.867924528301884,
+      "grad_norm": 0.12552271783351898,
+      "learning_rate": 8.684344722080573e-06,
+      "loss": 0.1673,
+      "step": 13314
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.28286346793174744,
+      "eval_runtime": 1.586,
+      "eval_samples_per_second": 1954.589,
+      "eval_steps_per_second": 40.983,
+      "step": 13356
+    },
+    {
+      "epoch": 42.86477987421384,
+      "grad_norm": 0.15184646844863892,
+      "learning_rate": 8.414924358320585e-06,
+      "loss": 0.1674,
+      "step": 13631
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.2814062535762787,
+      "eval_runtime": 1.592,
+      "eval_samples_per_second": 1947.238,
+      "eval_steps_per_second": 40.829,
+      "step": 13674
+    },
+    {
+      "epoch": 43.861635220125784,
+      "grad_norm": 0.11857682466506958,
+      "learning_rate": 8.145503994560598e-06,
+      "loss": 0.1673,
+      "step": 13948
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.28064581751823425,
+      "eval_runtime": 1.589,
+      "eval_samples_per_second": 1950.913,
+      "eval_steps_per_second": 40.906,
+      "step": 13992
+    },
+    {
+      "epoch": 44.85849056603774,
+      "grad_norm": 0.13426660001277924,
+      "learning_rate": 7.876083630800612e-06,
+      "loss": 0.1671,
+      "step": 14265
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.2805019021034241,
+      "eval_runtime": 1.5857,
+      "eval_samples_per_second": 1954.917,
+      "eval_steps_per_second": 40.99,
+      "step": 14310
+    },
+    {
+      "epoch": 45.855345911949684,
+      "grad_norm": 0.1329268366098404,
+      "learning_rate": 7.606663267040626e-06,
+      "loss": 0.1666,
+      "step": 14582
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.2800099849700928,
+      "eval_runtime": 1.5902,
+      "eval_samples_per_second": 1949.437,
+      "eval_steps_per_second": 40.875,
+      "step": 14628
+    },
+    {
+      "epoch": 46.85220125786164,
+      "grad_norm": 0.17084655165672302,
+      "learning_rate": 7.33724290328064e-06,
+      "loss": 0.1668,
+      "step": 14899
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.2803304195404053,
+      "eval_runtime": 1.5878,
+      "eval_samples_per_second": 1952.385,
+      "eval_steps_per_second": 40.937,
+      "step": 14946
+    },
+    {
+      "epoch": 47.84905660377358,
+      "grad_norm": 0.1700143814086914,
+      "learning_rate": 7.067822539520653e-06,
+      "loss": 0.1666,
+      "step": 15216
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.27888280153274536,
+      "eval_runtime": 1.5824,
+      "eval_samples_per_second": 1959.015,
+      "eval_steps_per_second": 41.076,
+      "step": 15264
+    },
+    {
+      "epoch": 48.84591194968554,
+      "grad_norm": 0.1518237590789795,
+      "learning_rate": 6.798402175760667e-06,
+      "loss": 0.1668,
+      "step": 15533
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.2804841995239258,
+      "eval_runtime": 1.5832,
+      "eval_samples_per_second": 1958.042,
+      "eval_steps_per_second": 41.056,
+      "step": 15582
+    },
+    {
+      "epoch": 49.84276729559748,
+      "grad_norm": 0.16697125136852264,
+      "learning_rate": 6.528981812000681e-06,
+      "loss": 0.1662,
+      "step": 15850
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9529032258064516,
+      "eval_loss": 0.2788369953632355,
+      "eval_runtime": 1.5946,
+      "eval_samples_per_second": 1944.025,
+      "eval_steps_per_second": 40.762,
+      "step": 15900
+    },
+    {
+      "epoch": 50.839622641509436,
+      "grad_norm": 0.14791205525398254,
+      "learning_rate": 6.259561448240694e-06,
+      "loss": 0.1663,
+      "step": 16167
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.2813352644443512,
+      "eval_runtime": 1.5922,
+      "eval_samples_per_second": 1947.046,
+      "eval_steps_per_second": 40.825,
+      "step": 16218
+    },
+    {
+      "epoch": 51.83647798742138,
+      "grad_norm": 0.1317252218723297,
+      "learning_rate": 5.990141084480707e-06,
+      "loss": 0.1663,
+      "step": 16484
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.278254896402359,
+      "eval_runtime": 1.5877,
+      "eval_samples_per_second": 1952.515,
+      "eval_steps_per_second": 40.94,
+      "step": 16536
+    },
+    {
+      "epoch": 52.833333333333336,
+      "grad_norm": 0.12177319079637527,
+      "learning_rate": 5.720720720720722e-06,
+      "loss": 0.1661,
+      "step": 16801
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.2790258526802063,
+      "eval_runtime": 1.5943,
+      "eval_samples_per_second": 1944.473,
+      "eval_steps_per_second": 40.771,
+      "step": 16854
+    },
+    {
+      "epoch": 53.83018867924528,
+      "grad_norm": 0.1430531144142151,
+      "learning_rate": 5.451300356960735e-06,
+      "loss": 0.1658,
+      "step": 17118
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.27935537695884705,
+      "eval_runtime": 1.5954,
+      "eval_samples_per_second": 1943.111,
+      "eval_steps_per_second": 40.743,
+      "step": 17172
+    },
+    {
+      "epoch": 54.827044025157235,
+      "grad_norm": 0.13812412321567535,
+      "learning_rate": 5.181879993200748e-06,
+      "loss": 0.1659,
+      "step": 17435
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9532258064516129,
+      "eval_loss": 0.28016936779022217,
+      "eval_runtime": 1.5893,
+      "eval_samples_per_second": 1950.573,
+      "eval_steps_per_second": 40.899,
+      "step": 17490
+    },
+    {
+      "epoch": 55.82389937106918,
+      "grad_norm": 0.19225658476352692,
+      "learning_rate": 4.912459629440762e-06,
+      "loss": 0.1661,
+      "step": 17752
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.2795941233634949,
+      "eval_runtime": 1.5827,
+      "eval_samples_per_second": 1958.672,
+      "eval_steps_per_second": 41.069,
+      "step": 17808
+    },
+    {
+      "epoch": 56.820754716981135,
+      "grad_norm": 0.1685912162065506,
+      "learning_rate": 4.6430392656807755e-06,
+      "loss": 0.1654,
+      "step": 18069
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.2792729437351227,
+      "eval_runtime": 1.5874,
+      "eval_samples_per_second": 1952.898,
+      "eval_steps_per_second": 40.948,
+      "step": 18126
+    },
+    {
+      "epoch": 57.81761006289308,
+      "grad_norm": 0.13640663027763367,
+      "learning_rate": 4.373618901920789e-06,
+      "loss": 0.1658,
+      "step": 18386
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.27936556935310364,
+      "eval_runtime": 1.5908,
+      "eval_samples_per_second": 1948.765,
+      "eval_steps_per_second": 40.861,
+      "step": 18444
+    },
+    {
+      "epoch": 58.814465408805034,
+      "grad_norm": 0.181793674826622,
+      "learning_rate": 4.1041985381608024e-06,
+      "loss": 0.1654,
+      "step": 18703
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.27835920453071594,
+      "eval_runtime": 1.583,
+      "eval_samples_per_second": 1958.277,
+      "eval_steps_per_second": 41.061,
+      "step": 18762
+    },
+    {
+      "epoch": 59.81132075471698,
+      "grad_norm": 0.13843421638011932,
+      "learning_rate": 3.834778174400816e-06,
+      "loss": 0.1658,
+      "step": 19020
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.28052493929862976,
+      "eval_runtime": 1.5893,
+      "eval_samples_per_second": 1950.524,
+      "eval_steps_per_second": 40.898,
+      "step": 19080
+    },
+    {
+      "epoch": 60.808176100628934,
+      "grad_norm": 0.14343231916427612,
+      "learning_rate": 3.56535781064083e-06,
+      "loss": 0.1653,
+      "step": 19337
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.27861472964286804,
+      "eval_runtime": 1.5821,
+      "eval_samples_per_second": 1959.483,
+      "eval_steps_per_second": 41.086,
+      "step": 19398
+    },
+    {
+      "epoch": 61.80503144654088,
+      "grad_norm": 0.14610852301120758,
+      "learning_rate": 3.2959374468808437e-06,
+      "loss": 0.1655,
+      "step": 19654
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.27765244245529175,
+      "eval_runtime": 1.5812,
+      "eval_samples_per_second": 1960.523,
+      "eval_steps_per_second": 41.108,
+      "step": 19716
+    },
+    {
+      "epoch": 62.801886792452834,
+      "grad_norm": 0.13857333362102509,
+      "learning_rate": 3.0265170831208568e-06,
+      "loss": 0.1653,
+      "step": 19971
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.9532258064516129,
+      "eval_loss": 0.27754127979278564,
+      "eval_runtime": 1.5909,
+      "eval_samples_per_second": 1948.602,
+      "eval_steps_per_second": 40.858,
+      "step": 20034
+    },
+    {
+      "epoch": 63.79874213836478,
+      "grad_norm": 0.1268884837627411,
+      "learning_rate": 2.7570967193608707e-06,
+      "loss": 0.1652,
+      "step": 20288
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.2781769037246704,
+      "eval_runtime": 1.5911,
+      "eval_samples_per_second": 1948.283,
+      "eval_steps_per_second": 40.851,
+      "step": 20352
+    },
+    {
+      "epoch": 64.79559748427673,
+      "grad_norm": 0.1306312382221222,
+      "learning_rate": 2.487676355600884e-06,
+      "loss": 0.1652,
+      "step": 20605
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.2785084843635559,
+      "eval_runtime": 1.587,
+      "eval_samples_per_second": 1953.372,
+      "eval_steps_per_second": 40.958,
+      "step": 20670
+    },
+    {
+      "epoch": 65.79245283018868,
+      "grad_norm": 0.12314357608556747,
+      "learning_rate": 2.2182559918408976e-06,
+      "loss": 0.1654,
+      "step": 20922
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.27857428789138794,
+      "eval_runtime": 1.5854,
+      "eval_samples_per_second": 1955.312,
+      "eval_steps_per_second": 40.998,
+      "step": 20988
+    },
+    {
+      "epoch": 66.78930817610063,
+      "grad_norm": 0.15283074975013733,
+      "learning_rate": 1.948835628080911e-06,
+      "loss": 0.1649,
+      "step": 21239
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.2788286805152893,
+      "eval_runtime": 1.5951,
+      "eval_samples_per_second": 1943.445,
+      "eval_steps_per_second": 40.75,
+      "step": 21306
+    },
+    {
+      "epoch": 67.78616352201257,
+      "grad_norm": 0.12186983227729797,
+      "learning_rate": 1.679415264320925e-06,
+      "loss": 0.165,
+      "step": 21556
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.27811065316200256,
+      "eval_runtime": 1.5914,
+      "eval_samples_per_second": 1947.92,
+      "eval_steps_per_second": 40.843,
+      "step": 21624
+    },
+    {
+      "epoch": 68.78301886792453,
+      "grad_norm": 0.1512852907180786,
+      "learning_rate": 1.4099949005609384e-06,
+      "loss": 0.165,
+      "step": 21873
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.9519354838709677,
+      "eval_loss": 0.277495801448822,
+      "eval_runtime": 1.5848,
+      "eval_samples_per_second": 1956.025,
+      "eval_steps_per_second": 41.013,
+      "step": 21942
+    },
+    {
+      "epoch": 69.77987421383648,
+      "grad_norm": 0.14219249784946442,
+      "learning_rate": 1.140574536800952e-06,
+      "loss": 0.165,
+      "step": 22190
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.952258064516129,
+      "eval_loss": 0.2772570252418518,
+      "eval_runtime": 1.5882,
+      "eval_samples_per_second": 1951.939,
+      "eval_steps_per_second": 40.928,
+      "step": 22260
+    },
+    {
+      "epoch": 70.77672955974843,
+      "grad_norm": 0.12878191471099854,
+      "learning_rate": 8.711541730409656e-07,
+      "loss": 0.165,
+      "step": 22507
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.9525806451612904,
+      "eval_loss": 0.27687469124794006,
+      "eval_runtime": 1.5932,
+      "eval_samples_per_second": 1945.737,
+      "eval_steps_per_second": 40.798,
+      "step": 22578
+    },
+    {
+      "epoch": 71.77358490566037,
+      "grad_norm": 0.1408313363790512,
+      "learning_rate": 6.017338092809792e-07,
+      "loss": 0.1651,
+      "step": 22824
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.9532258064516129,
+      "eval_loss": 0.2769748866558075,
+      "eval_runtime": 1.5892,
+      "eval_samples_per_second": 1950.609,
+      "eval_steps_per_second": 40.9,
+      "step": 22896
+    },
+    {
+      "epoch": 72.77044025157232,
+      "grad_norm": 0.13329148292541504,
+      "learning_rate": 3.3231344552099275e-07,
+      "loss": 0.1648,
+      "step": 23141
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.9535483870967741,
+      "eval_loss": 0.2772596478462219,
+      "eval_runtime": 1.5912,
+      "eval_samples_per_second": 1948.155,
+      "eval_steps_per_second": 40.848,
+      "step": 23214
+    },
+    {
+      "epoch": 73.76729559748428,
+      "grad_norm": 0.11299853026866913,
+      "learning_rate": 6.289308176100629e-08,
+      "loss": 0.1652,
+      "step": 23458
+    }
+  ],
+  "logging_steps": 317,
+  "max_steps": 23532,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 74,
+  "save_steps": 1000000000.0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6098875529253696.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.5969475255349722,
+    "num_train_epochs": 74,
+    "temperature": 2
+  }
+}

run-0/checkpoint-23532/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d11aee97ba5d0d9bc630562bed55f9ef81cbe28c4bdd939c7abdefc104c065c
+size 5304

run-0/checkpoint-23532/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-24168/config.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "restaurant_reviews",
+    "1": "nutrition_info",
+    "2": "account_blocked",
+    "3": "oil_change_how",
+    "4": "time",
+    "5": "weather",
+    "6": "redeem_rewards",
+    "7": "interest_rate",
+    "8": "gas_type",
+    "9": "accept_reservations",
+    "10": "smart_home",
+    "11": "user_name",
+    "12": "report_lost_card",
+    "13": "repeat",
+    "14": "whisper_mode",
+    "15": "what_are_your_hobbies",
+    "16": "order",
+    "17": "jump_start",
+    "18": "schedule_meeting",
+    "19": "meeting_schedule",
+    "20": "freeze_account",
+    "21": "what_song",
+    "22": "meaning_of_life",
+    "23": "restaurant_reservation",
+    "24": "traffic",
+    "25": "make_call",
+    "26": "text",
+    "27": "bill_balance",
+    "28": "improve_credit_score",
+    "29": "change_language",
+    "30": "no",
+    "31": "measurement_conversion",
+    "32": "timer",
+    "33": "flip_coin",
+    "34": "do_you_have_pets",
+    "35": "balance",
+    "36": "tell_joke",
+    "37": "last_maintenance",
+    "38": "exchange_rate",
+    "39": "uber",
+    "40": "car_rental",
+    "41": "credit_limit",
+    "42": "oos",
+    "43": "shopping_list",
+    "44": "expiration_date",
+    "45": "routing",
+    "46": "meal_suggestion",
+    "47": "tire_change",
+    "48": "todo_list",
+    "49": "card_declined",
+    "50": "rewards_balance",
+    "51": "change_accent",
+    "52": "vaccines",
+    "53": "reminder_update",
+    "54": "food_last",
+    "55": "change_ai_name",
+    "56": "bill_due",
+    "57": "who_do_you_work_for",
+    "58": "share_location",
+    "59": "international_visa",
+    "60": "calendar",
+    "61": "translate",
+    "62": "carry_on",
+    "63": "book_flight",
+    "64": "insurance_change",
+    "65": "todo_list_update",
+    "66": "timezone",
+    "67": "cancel_reservation",
+    "68": "transactions",
+    "69": "credit_score",
+    "70": "report_fraud",
+    "71": "spending_history",
+    "72": "directions",
+    "73": "spelling",
+    "74": "insurance",
+    "75": "what_is_your_name",
+    "76": "reminder",
+    "77": "where_are_you_from",
+    "78": "distance",
+    "79": "payday",
+    "80": "flight_status",
+    "81": "find_phone",
+    "82": "greeting",
+    "83": "alarm",
+    "84": "order_status",
+    "85": "confirm_reservation",
+    "86": "cook_time",
+    "87": "damaged_card",
+    "88": "reset_settings",
+    "89": "pin_change",
+    "90": "replacement_card_duration",
+    "91": "new_card",
+    "92": "roll_dice",
+    "93": "income",
+    "94": "taxes",
+    "95": "date",
+    "96": "who_made_you",
+    "97": "pto_request",
+    "98": "tire_pressure",
+    "99": "how_old_are_you",
+    "100": "rollover_401k",
+    "101": "pto_request_status",
+    "102": "how_busy",
+    "103": "application_status",
+    "104": "recipe",
+    "105": "calendar_update",
+    "106": "play_music",
+    "107": "yes",
+    "108": "direct_deposit",
+    "109": "credit_limit_change",
+    "110": "gas",
+    "111": "pay_bill",
+    "112": "ingredients_list",
+    "113": "lost_luggage",
+    "114": "goodbye",
+    "115": "what_can_i_ask_you",
+    "116": "book_hotel",
+    "117": "are_you_a_bot",
+    "118": "next_song",
+    "119": "change_speed",
+    "120": "plug_type",
+    "121": "maybe",
+    "122": "w2",
+    "123": "oil_change_when",
+    "124": "thank_you",
+    "125": "shopping_list_update",
+    "126": "pto_balance",
+    "127": "order_checks",
+    "128": "travel_alert",
+    "129": "fun_fact",
+    "130": "sync_device",
+    "131": "schedule_maintenance",
+    "132": "apr",
+    "133": "transfer",
+    "134": "ingredient_substitution",
+    "135": "calories",
+    "136": "current_location",
+    "137": "international_fees",
+    "138": "calculator",
+    "139": "definition",
+    "140": "next_holiday",
+    "141": "update_playlist",
+    "142": "mpg",
+    "143": "min_payment",
+    "144": "change_user_name",
+    "145": "restaurant_suggestion",
+    "146": "travel_notification",
+    "147": "cancel",
+    "148": "pto_used",
+    "149": "travel_suggestion",
+    "150": "change_volume"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "accept_reservations": 9,
+    "account_blocked": 2,
+    "alarm": 83,
+    "application_status": 103,
+    "apr": 132,
+    "are_you_a_bot": 117,
+    "balance": 35,
+    "bill_balance": 27,
+    "bill_due": 56,
+    "book_flight": 63,
+    "book_hotel": 116,
+    "calculator": 138,
+    "calendar": 60,
+    "calendar_update": 105,
+    "calories": 135,
+    "cancel": 147,
+    "cancel_reservation": 67,
+    "car_rental": 40,
+    "card_declined": 49,
+    "carry_on": 62,
+    "change_accent": 51,
+    "change_ai_name": 55,
+    "change_language": 29,
+    "change_speed": 119,
+    "change_user_name": 144,
+    "change_volume": 150,
+    "confirm_reservation": 85,
+    "cook_time": 86,
+    "credit_limit": 41,
+    "credit_limit_change": 109,
+    "credit_score": 69,
+    "current_location": 136,
+    "damaged_card": 87,
+    "date": 95,
+    "definition": 139,
+    "direct_deposit": 108,
+    "directions": 72,
+    "distance": 78,
+    "do_you_have_pets": 34,
+    "exchange_rate": 38,
+    "expiration_date": 44,
+    "find_phone": 81,
+    "flight_status": 80,
+    "flip_coin": 33,
+    "food_last": 54,
+    "freeze_account": 20,
+    "fun_fact": 129,
+    "gas": 110,
+    "gas_type": 8,
+    "goodbye": 114,
+    "greeting": 82,
+    "how_busy": 102,
+    "how_old_are_you": 99,
+    "improve_credit_score": 28,
+    "income": 93,
+    "ingredient_substitution": 134,
+    "ingredients_list": 112,
+    "insurance": 74,
+    "insurance_change": 64,
+    "interest_rate": 7,
+    "international_fees": 137,
+    "international_visa": 59,
+    "jump_start": 17,
+    "last_maintenance": 37,
+    "lost_luggage": 113,
+    "make_call": 25,
+    "maybe": 121,
+    "meal_suggestion": 46,
+    "meaning_of_life": 22,
+    "measurement_conversion": 31,
+    "meeting_schedule": 19,
+    "min_payment": 143,
+    "mpg": 142,
+    "new_card": 91,
+    "next_holiday": 140,
+    "next_song": 118,
+    "no": 30,
+    "nutrition_info": 1,
+    "oil_change_how": 3,
+    "oil_change_when": 123,
+    "oos": 42,
+    "order": 16,
+    "order_checks": 127,
+    "order_status": 84,
+    "pay_bill": 111,
+    "payday": 79,
+    "pin_change": 89,
+    "play_music": 106,
+    "plug_type": 120,
+    "pto_balance": 126,
+    "pto_request": 97,
+    "pto_request_status": 101,
+    "pto_used": 148,
+    "recipe": 104,
+    "redeem_rewards": 6,
+    "reminder": 76,
+    "reminder_update": 53,
+    "repeat": 13,
+    "replacement_card_duration": 90,
+    "report_fraud": 70,
+    "report_lost_card": 12,
+    "reset_settings": 88,
+    "restaurant_reservation": 23,
+    "restaurant_reviews": 0,
+    "restaurant_suggestion": 145,
+    "rewards_balance": 50,
+    "roll_dice": 92,
+    "rollover_401k": 100,
+    "routing": 45,
+    "schedule_maintenance": 131,
+    "schedule_meeting": 18,
+    "share_location": 58,
+    "shopping_list": 43,
+    "shopping_list_update": 125,
+    "smart_home": 10,
+    "spelling": 73,
+    "spending_history": 71,
+    "sync_device": 130,
+    "taxes": 94,
+    "tell_joke": 36,
+    "text": 26,
+    "thank_you": 124,
+    "time": 4,
+    "timer": 32,
+    "timezone": 66,
+    "tire_change": 47,
+    "tire_pressure": 98,
+    "todo_list": 48,
+    "todo_list_update": 65,
+    "traffic": 24,
+    "transactions": 68,
+    "transfer": 133,
+    "translate": 61,
+    "travel_alert": 128,
+    "travel_notification": 146,
+    "travel_suggestion": 149,
+    "uber": 39,
+    "update_playlist": 141,
+    "user_name": 11,
+    "vaccines": 52,
+    "w2": 122,
+    "weather": 5,
+    "what_are_your_hobbies": 15,
+    "what_can_i_ask_you": 115,
+    "what_is_your_name": 75,
+    "what_song": 21,
+    "where_are_you_from": 77,
+    "whisper_mode": 14,
+    "who_do_you_work_for": 57,
+    "who_made_you": 96,
+    "yes": 107
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

run-1/checkpoint-24168/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bceb18af4151eb56df29f1ff07a865d4aa73d09bd377d20bbcdc87bb0a06d57
+size 268290900

run-1/checkpoint-24168/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd782aa683c16dd7427c1ccc06a9c61c48bbe1d6da106d0031b1b99a661148e5
+size 536643898

run-1/checkpoint-24168/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a95fbf30085408132a4533fead34661bffd7b80a7155677e5c7e3cb70ff754f
+size 14244

run-1/checkpoint-24168/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb6dcdb206371c49a63809b060a79f1a9f3c56fe50c7c2a2b5582b435d9a234b
+size 1064

run-1/checkpoint-24168/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-24168/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-24168/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-24168/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1244 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 76.0,
+  "eval_steps": 500,
+  "global_step": 24168,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": NaN,
+      "learning_rate": 1.973766964581265e-05,
+      "loss": 0.0,
+      "step": 317
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5444,
+      "eval_samples_per_second": 2007.293,
+      "eval_steps_per_second": 42.088,
+      "step": 318
+    },
+    {
+      "epoch": 1.9937106918238994,
+      "grad_norm": NaN,
+      "learning_rate": 1.947533929162529e-05,
+      "loss": 0.0,
+      "step": 634
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5402,
+      "eval_samples_per_second": 2012.771,
+      "eval_steps_per_second": 42.203,
+      "step": 636
+    },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": NaN,
+      "learning_rate": 1.9213008937437935e-05,
+      "loss": 0.0,
+      "step": 951
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5431,
+      "eval_samples_per_second": 2008.973,
+      "eval_steps_per_second": 42.124,
+      "step": 954
+    },
+    {
+      "epoch": 3.9874213836477987,
+      "grad_norm": NaN,
+      "learning_rate": 1.895067858325058e-05,
+      "loss": 0.0,
+      "step": 1268
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5447,
+      "eval_samples_per_second": 2006.804,
+      "eval_steps_per_second": 42.078,
+      "step": 1272
+    },
+    {
+      "epoch": 4.984276729559748,
+      "grad_norm": NaN,
+      "learning_rate": 1.8688348229063225e-05,
+      "loss": 0.0,
+      "step": 1585
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5441,
+      "eval_samples_per_second": 2007.665,
+      "eval_steps_per_second": 42.096,
+      "step": 1590
+    },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": NaN,
+      "learning_rate": 1.842601787487587e-05,
+      "loss": 0.0,
+      "step": 1902
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5537,
+      "eval_samples_per_second": 1995.266,
+      "eval_steps_per_second": 41.836,
+      "step": 1908
+    },
+    {
+      "epoch": 6.977987421383648,
+      "grad_norm": NaN,
+      "learning_rate": 1.8163687520688515e-05,
+      "loss": 0.0,
+      "step": 2219
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5462,
+      "eval_samples_per_second": 2004.977,
+      "eval_steps_per_second": 42.04,
+      "step": 2226
+    },
+    {
+      "epoch": 7.9748427672955975,
+      "grad_norm": NaN,
+      "learning_rate": 1.790135716650116e-05,
+      "loss": 0.0,
+      "step": 2536
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5503,
+      "eval_samples_per_second": 1999.613,
+      "eval_steps_per_second": 41.927,
+      "step": 2544
+    },
+    {
+      "epoch": 8.971698113207546,
+      "grad_norm": NaN,
+      "learning_rate": 1.7639026812313805e-05,
+      "loss": 0.0,
+      "step": 2853
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5538,
+      "eval_samples_per_second": 1995.075,
+      "eval_steps_per_second": 41.832,
+      "step": 2862
+    },
+    {
+      "epoch": 9.968553459119496,
+      "grad_norm": NaN,
+      "learning_rate": 1.7376696458126448e-05,
+      "loss": 0.0,
+      "step": 3170
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5525,
+      "eval_samples_per_second": 1996.753,
+      "eval_steps_per_second": 41.867,
+      "step": 3180
+    },
+    {
+      "epoch": 10.965408805031446,
+      "grad_norm": NaN,
+      "learning_rate": 1.7114366103939095e-05,
+      "loss": 0.0,
+      "step": 3487
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5476,
+      "eval_samples_per_second": 2003.139,
+      "eval_steps_per_second": 42.001,
+      "step": 3498
+    },
+    {
+      "epoch": 11.962264150943396,
+      "grad_norm": NaN,
+      "learning_rate": 1.6852035749751738e-05,
+      "loss": 0.0,
+      "step": 3804
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5495,
+      "eval_samples_per_second": 2000.683,
+      "eval_steps_per_second": 41.95,
+      "step": 3816
+    },
+    {
+      "epoch": 12.959119496855346,
+      "grad_norm": NaN,
+      "learning_rate": 1.6589705395564385e-05,
+      "loss": 0.0,
+      "step": 4121
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.552,
+      "eval_samples_per_second": 1997.38,
+      "eval_steps_per_second": 41.881,
+      "step": 4134
+    },
+    {
+      "epoch": 13.955974842767295,
+      "grad_norm": NaN,
+      "learning_rate": 1.6327375041377028e-05,
+      "loss": 0.0,
+      "step": 4438
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5458,
+      "eval_samples_per_second": 2005.461,
+      "eval_steps_per_second": 42.05,
+      "step": 4452
+    },
+    {
+      "epoch": 14.952830188679245,
+      "grad_norm": NaN,
+      "learning_rate": 1.606504468718967e-05,
+      "loss": 0.0,
+      "step": 4755
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5467,
+      "eval_samples_per_second": 2004.26,
+      "eval_steps_per_second": 42.025,
+      "step": 4770
+    },
+    {
+      "epoch": 15.949685534591195,
+      "grad_norm": NaN,
+      "learning_rate": 1.5802714333002318e-05,
+      "loss": 0.0,
+      "step": 5072
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5421,
+      "eval_samples_per_second": 2010.27,
+      "eval_steps_per_second": 42.151,
+      "step": 5088
+    },
+    {
+      "epoch": 16.946540880503143,
+      "grad_norm": NaN,
+      "learning_rate": 1.5540383978814965e-05,
+      "loss": 0.0,
+      "step": 5389
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5512,
+      "eval_samples_per_second": 1998.496,
+      "eval_steps_per_second": 41.904,
+      "step": 5406
+    },
+    {
+      "epoch": 17.943396226415093,
+      "grad_norm": NaN,
+      "learning_rate": 1.5278053624627608e-05,
+      "loss": 0.0,
+      "step": 5706
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5483,
+      "eval_samples_per_second": 2002.15,
+      "eval_steps_per_second": 41.981,
+      "step": 5724
+    },
+    {
+      "epoch": 18.940251572327043,
+      "grad_norm": NaN,
+      "learning_rate": 1.5015723270440253e-05,
+      "loss": 0.0,
+      "step": 6023
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5501,
+      "eval_samples_per_second": 1999.815,
+      "eval_steps_per_second": 41.932,
+      "step": 6042
+    },
+    {
+      "epoch": 19.937106918238992,
+      "grad_norm": NaN,
+      "learning_rate": 1.4753392916252898e-05,
+      "loss": 0.0,
+      "step": 6340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.563,
+      "eval_samples_per_second": 1983.404,
+      "eval_steps_per_second": 41.588,
+      "step": 6360
+    },
+    {
+      "epoch": 20.933962264150942,
+      "grad_norm": NaN,
+      "learning_rate": 1.4491062562065543e-05,
+      "loss": 0.0,
+      "step": 6657
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5543,
+      "eval_samples_per_second": 1994.438,
+      "eval_steps_per_second": 41.819,
+      "step": 6678
+    },
+    {
+      "epoch": 21.930817610062892,
+      "grad_norm": NaN,
+      "learning_rate": 1.4228732207878186e-05,
+      "loss": 0.0,
+      "step": 6974
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5533,
+      "eval_samples_per_second": 1995.714,
+      "eval_steps_per_second": 41.846,
+      "step": 6996
+    },
+    {
+      "epoch": 22.927672955974842,
+      "grad_norm": NaN,
+      "learning_rate": 1.3966401853690831e-05,
+      "loss": 0.0,
+      "step": 7291
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5481,
+      "eval_samples_per_second": 2002.435,
+      "eval_steps_per_second": 41.987,
+      "step": 7314
+    },
+    {
+      "epoch": 23.92452830188679,
+      "grad_norm": NaN,
+      "learning_rate": 1.3704071499503478e-05,
+      "loss": 0.0,
+      "step": 7608
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.539,
+      "eval_samples_per_second": 2014.299,
+      "eval_steps_per_second": 42.235,
+      "step": 7632
+    },
+    {
+      "epoch": 24.92138364779874,
+      "grad_norm": NaN,
+      "learning_rate": 1.3441741145316121e-05,
+      "loss": 0.0,
+      "step": 7925
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5516,
+      "eval_samples_per_second": 1997.904,
+      "eval_steps_per_second": 41.892,
+      "step": 7950
+    },
+    {
+      "epoch": 25.91823899371069,
+      "grad_norm": NaN,
+      "learning_rate": 1.3179410791128766e-05,
+      "loss": 0.0,
+      "step": 8242
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5404,
+      "eval_samples_per_second": 2012.497,
+      "eval_steps_per_second": 42.198,
+      "step": 8268
+    },
+    {
+      "epoch": 26.91509433962264,
+      "grad_norm": NaN,
+      "learning_rate": 1.2917080436941411e-05,
+      "loss": 0.0,
+      "step": 8559
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5468,
+      "eval_samples_per_second": 2004.126,
+      "eval_steps_per_second": 42.022,
+      "step": 8586
+    },
+    {
+      "epoch": 27.91194968553459,
+      "grad_norm": NaN,
+      "learning_rate": 1.2654750082754058e-05,
+      "loss": 0.0,
+      "step": 8876
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5481,
+      "eval_samples_per_second": 2002.49,
+      "eval_steps_per_second": 41.988,
+      "step": 8904
+    },
+    {
+      "epoch": 28.90880503144654,
+      "grad_norm": NaN,
+      "learning_rate": 1.23924197285667e-05,
+      "loss": 0.0,
+      "step": 9193
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5508,
+      "eval_samples_per_second": 1999.025,
+      "eval_steps_per_second": 41.915,
+      "step": 9222
+    },
+    {
+      "epoch": 29.90566037735849,
+      "grad_norm": NaN,
+      "learning_rate": 1.2130089374379346e-05,
+      "loss": 0.0,
+      "step": 9510
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5591,
+      "eval_samples_per_second": 1988.293,
+      "eval_steps_per_second": 41.69,
+      "step": 9540
+    },
+    {
+      "epoch": 30.90251572327044,
+      "grad_norm": NaN,
+      "learning_rate": 1.1867759020191991e-05,
+      "loss": 0.0,
+      "step": 9827
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5452,
+      "eval_samples_per_second": 2006.189,
+      "eval_steps_per_second": 42.065,
+      "step": 9858
+    },
+    {
+      "epoch": 31.89937106918239,
+      "grad_norm": NaN,
+      "learning_rate": 1.1605428666004634e-05,
+      "loss": 0.0,
+      "step": 10144
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.549,
+      "eval_samples_per_second": 2001.291,
+      "eval_steps_per_second": 41.963,
+      "step": 10176
+    },
+    {
+      "epoch": 32.89622641509434,
+      "grad_norm": NaN,
+      "learning_rate": 1.134309831181728e-05,
+      "loss": 0.0,
+      "step": 10461
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5482,
+      "eval_samples_per_second": 2002.327,
+      "eval_steps_per_second": 41.984,
+      "step": 10494
+    },
+    {
+      "epoch": 33.893081761006286,
+      "grad_norm": NaN,
+      "learning_rate": 1.1080767957629926e-05,
+      "loss": 0.0,
+      "step": 10778
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.551,
+      "eval_samples_per_second": 1998.704,
+      "eval_steps_per_second": 41.908,
+      "step": 10812
+    },
+    {
+      "epoch": 34.88993710691824,
+      "grad_norm": NaN,
+      "learning_rate": 1.081843760344257e-05,
+      "loss": 0.0,
+      "step": 11095
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5487,
+      "eval_samples_per_second": 2001.682,
+      "eval_steps_per_second": 41.971,
+      "step": 11130
+    },
+    {
+      "epoch": 35.886792452830186,
+      "grad_norm": NaN,
+      "learning_rate": 1.0556107249255214e-05,
+      "loss": 0.0,
+      "step": 11412
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.542,
+      "eval_samples_per_second": 2010.376,
+      "eval_steps_per_second": 42.153,
+      "step": 11448
+    },
+    {
+      "epoch": 36.88364779874214,
+      "grad_norm": NaN,
+      "learning_rate": 1.029377689506786e-05,
+      "loss": 0.0,
+      "step": 11729
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5462,
+      "eval_samples_per_second": 2004.941,
+      "eval_steps_per_second": 42.039,
+      "step": 11766
+    },
+    {
+      "epoch": 37.880503144654085,
+      "grad_norm": NaN,
+      "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.0,
+      "step": 12046
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5538,
+      "eval_samples_per_second": 1995.139,
+      "eval_steps_per_second": 41.834,
+      "step": 12084
+    },
+    {
+      "epoch": 38.87735849056604,
+      "grad_norm": NaN,
+      "learning_rate": 9.769116186693148e-06,
+      "loss": 0.0,
+      "step": 12363
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.544,
+      "eval_samples_per_second": 2007.773,
+      "eval_steps_per_second": 42.098,
+      "step": 12402
+    },
+    {
+      "epoch": 39.874213836477985,
+      "grad_norm": NaN,
+      "learning_rate": 9.506785832505794e-06,
+      "loss": 0.0,
+      "step": 12680
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5472,
+      "eval_samples_per_second": 2003.631,
+      "eval_steps_per_second": 42.012,
+      "step": 12720
+    },
+    {
+      "epoch": 40.87106918238994,
+      "grad_norm": NaN,
+      "learning_rate": 9.244455478318438e-06,
+      "loss": 0.0,
+      "step": 12997
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5472,
+      "eval_samples_per_second": 2003.584,
+      "eval_steps_per_second": 42.011,
+      "step": 13038
+    },
+    {
+      "epoch": 41.867924528301884,
+      "grad_norm": NaN,
+      "learning_rate": 8.982125124131084e-06,
+      "loss": 0.0,
+      "step": 13314
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5517,
+      "eval_samples_per_second": 1997.766,
+      "eval_steps_per_second": 41.889,
+      "step": 13356
+    },
+    {
+      "epoch": 42.86477987421384,
+      "grad_norm": NaN,
+      "learning_rate": 8.719794769943728e-06,
+      "loss": 0.0,
+      "step": 13631
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5535,
+      "eval_samples_per_second": 1995.529,
+      "eval_steps_per_second": 41.842,
+      "step": 13674
+    },
+    {
+      "epoch": 43.861635220125784,
+      "grad_norm": NaN,
+      "learning_rate": 8.457464415756373e-06,
+      "loss": 0.0,
+      "step": 13948
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5578,
+      "eval_samples_per_second": 1989.984,
+      "eval_steps_per_second": 41.725,
+      "step": 13992
+    },
+    {
+      "epoch": 44.85849056603774,
+      "grad_norm": NaN,
+      "learning_rate": 8.195134061569018e-06,
+      "loss": 0.0,
+      "step": 14265
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.548,
+      "eval_samples_per_second": 2002.591,
+      "eval_steps_per_second": 41.99,
+      "step": 14310
+    },
+    {
+      "epoch": 45.855345911949684,
+      "grad_norm": NaN,
+      "learning_rate": 7.932803707381663e-06,
+      "loss": 0.0,
+      "step": 14582
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5507,
+      "eval_samples_per_second": 1999.086,
+      "eval_steps_per_second": 41.916,
+      "step": 14628
+    },
+    {
+      "epoch": 46.85220125786164,
+      "grad_norm": NaN,
+      "learning_rate": 7.670473353194308e-06,
+      "loss": 0.0,
+      "step": 14899
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5507,
+      "eval_samples_per_second": 1999.054,
+      "eval_steps_per_second": 41.916,
+      "step": 14946
+    },
+    {
+      "epoch": 47.84905660377358,
+      "grad_norm": NaN,
+      "learning_rate": 7.408142999006952e-06,
+      "loss": 0.0,
+      "step": 15216
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5435,
+      "eval_samples_per_second": 2008.361,
+      "eval_steps_per_second": 42.111,
+      "step": 15264
+    },
+    {
+      "epoch": 48.84591194968554,
+      "grad_norm": NaN,
+      "learning_rate": 7.145812644819597e-06,
+      "loss": 0.0,
+      "step": 15533
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5454,
+      "eval_samples_per_second": 2005.987,
+      "eval_steps_per_second": 42.061,
+      "step": 15582
+    },
+    {
+      "epoch": 49.84276729559748,
+      "grad_norm": NaN,
+      "learning_rate": 6.883482290632242e-06,
+      "loss": 0.0,
+      "step": 15850
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.555,
+      "eval_samples_per_second": 1993.568,
+      "eval_steps_per_second": 41.801,
+      "step": 15900
+    },
+    {
+      "epoch": 50.839622641509436,
+      "grad_norm": NaN,
+      "learning_rate": 6.621151936444886e-06,
+      "loss": 0.0,
+      "step": 16167
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5501,
+      "eval_samples_per_second": 1999.83,
+      "eval_steps_per_second": 41.932,
+      "step": 16218
+    },
+    {
+      "epoch": 51.83647798742138,
+      "grad_norm": NaN,
+      "learning_rate": 6.358821582257532e-06,
+      "loss": 0.0,
+      "step": 16484
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5506,
+      "eval_samples_per_second": 1999.181,
+      "eval_steps_per_second": 41.918,
+      "step": 16536
+    },
+    {
+      "epoch": 52.833333333333336,
+      "grad_norm": NaN,
+      "learning_rate": 6.096491228070176e-06,
+      "loss": 0.0,
+      "step": 16801
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5631,
+      "eval_samples_per_second": 1983.281,
+      "eval_steps_per_second": 41.585,
+      "step": 16854
+    },
+    {
+      "epoch": 53.83018867924528,
+      "grad_norm": NaN,
+      "learning_rate": 5.834160873882821e-06,
+      "loss": 0.0,
+      "step": 17118
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5457,
+      "eval_samples_per_second": 2005.561,
+      "eval_steps_per_second": 42.052,
+      "step": 17172
+    },
+    {
+      "epoch": 54.827044025157235,
+      "grad_norm": NaN,
+      "learning_rate": 5.571830519695466e-06,
+      "loss": 0.0,
+      "step": 17435
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5494,
+      "eval_samples_per_second": 2000.789,
+      "eval_steps_per_second": 41.952,
+      "step": 17490
+    },
+    {
+      "epoch": 55.82389937106918,
+      "grad_norm": NaN,
+      "learning_rate": 5.30950016550811e-06,
+      "loss": 0.0,
+      "step": 17752
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5572,
+      "eval_samples_per_second": 1990.807,
+      "eval_steps_per_second": 41.743,
+      "step": 17808
+    },
+    {
+      "epoch": 56.820754716981135,
+      "grad_norm": NaN,
+      "learning_rate": 5.047169811320756e-06,
+      "loss": 0.0,
+      "step": 18069
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5473,
+      "eval_samples_per_second": 2003.467,
+      "eval_steps_per_second": 42.008,
+      "step": 18126
+    },
+    {
+      "epoch": 57.81761006289308,
+      "grad_norm": NaN,
+      "learning_rate": 4.7848394571334e-06,
+      "loss": 0.0,
+      "step": 18386
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5472,
+      "eval_samples_per_second": 2003.565,
+      "eval_steps_per_second": 42.01,
+      "step": 18444
+    },
+    {
+      "epoch": 58.814465408805034,
+      "grad_norm": NaN,
+      "learning_rate": 4.522509102946045e-06,
+      "loss": 0.0,
+      "step": 18703
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5591,
+      "eval_samples_per_second": 1988.309,
+      "eval_steps_per_second": 41.69,
+      "step": 18762
+    },
+    {
+      "epoch": 59.81132075471698,
+      "grad_norm": NaN,
+      "learning_rate": 4.260178748758689e-06,
+      "loss": 0.0,
+      "step": 19020
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5461,
+      "eval_samples_per_second": 2005.092,
+      "eval_steps_per_second": 42.042,
+      "step": 19080
+    },
+    {
+      "epoch": 60.808176100628934,
+      "grad_norm": NaN,
+      "learning_rate": 3.997848394571334e-06,
+      "loss": 0.0,
+      "step": 19337
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5464,
+      "eval_samples_per_second": 2004.597,
+      "eval_steps_per_second": 42.032,
+      "step": 19398
+    },
+    {
+      "epoch": 61.80503144654088,
+      "grad_norm": NaN,
+      "learning_rate": 3.735518040383979e-06,
+      "loss": 0.0,
+      "step": 19654
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5593,
+      "eval_samples_per_second": 1988.116,
+      "eval_steps_per_second": 41.686,
+      "step": 19716
+    },
+    {
+      "epoch": 62.801886792452834,
+      "grad_norm": NaN,
+      "learning_rate": 3.473187686196624e-06,
+      "loss": 0.0,
+      "step": 19971
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5574,
+      "eval_samples_per_second": 1990.46,
+      "eval_steps_per_second": 41.735,
+      "step": 20034
+    },
+    {
+      "epoch": 63.79874213836478,
+      "grad_norm": NaN,
+      "learning_rate": 3.210857332009269e-06,
+      "loss": 0.0,
+      "step": 20288
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5504,
+      "eval_samples_per_second": 1999.508,
+      "eval_steps_per_second": 41.925,
+      "step": 20352
+    },
+    {
+      "epoch": 64.79559748427673,
+      "grad_norm": NaN,
+      "learning_rate": 2.9485269778219135e-06,
+      "loss": 0.0,
+      "step": 20605
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5516,
+      "eval_samples_per_second": 1997.884,
+      "eval_steps_per_second": 41.891,
+      "step": 20670
+    },
+    {
+      "epoch": 65.79245283018868,
+      "grad_norm": NaN,
+      "learning_rate": 2.686196623634558e-06,
+      "loss": 0.0,
+      "step": 20922
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5621,
+      "eval_samples_per_second": 1984.56,
+      "eval_steps_per_second": 41.612,
+      "step": 20988
+    },
+    {
+      "epoch": 66.78930817610063,
+      "grad_norm": NaN,
+      "learning_rate": 2.423866269447203e-06,
+      "loss": 0.0,
+      "step": 21239
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5469,
+      "eval_samples_per_second": 2004.011,
+      "eval_steps_per_second": 42.02,
+      "step": 21306
+    },
+    {
+      "epoch": 67.78616352201257,
+      "grad_norm": NaN,
+      "learning_rate": 2.1615359152598476e-06,
+      "loss": 0.0,
+      "step": 21556
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5535,
+      "eval_samples_per_second": 1995.435,
+      "eval_steps_per_second": 41.84,
+      "step": 21624
+    },
+    {
+      "epoch": 68.78301886792453,
+      "grad_norm": NaN,
+      "learning_rate": 1.8992055610724928e-06,
+      "loss": 0.0,
+      "step": 21873
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5443,
+      "eval_samples_per_second": 2007.325,
+      "eval_steps_per_second": 42.089,
+      "step": 21942
+    },
+    {
+      "epoch": 69.77987421383648,
+      "grad_norm": NaN,
+      "learning_rate": 1.6368752068851376e-06,
+      "loss": 0.0,
+      "step": 22190
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5594,
+      "eval_samples_per_second": 1987.916,
+      "eval_steps_per_second": 41.682,
+      "step": 22260
+    },
+    {
+      "epoch": 70.77672955974843,
+      "grad_norm": NaN,
+      "learning_rate": 1.3745448526977824e-06,
+      "loss": 0.0,
+      "step": 22507
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5504,
+      "eval_samples_per_second": 1999.547,
+      "eval_steps_per_second": 41.926,
+      "step": 22578
+    },
+    {
+      "epoch": 71.77358490566037,
+      "grad_norm": NaN,
+      "learning_rate": 1.1122144985104271e-06,
+      "loss": 0.0,
+      "step": 22824
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5487,
+      "eval_samples_per_second": 2001.694,
+      "eval_steps_per_second": 41.971,
+      "step": 22896
+    },
+    {
+      "epoch": 72.77044025157232,
+      "grad_norm": NaN,
+      "learning_rate": 8.498841443230719e-07,
+      "loss": 0.0,
+      "step": 23141
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5548,
+      "eval_samples_per_second": 1993.874,
+      "eval_steps_per_second": 41.807,
+      "step": 23214
+    },
+    {
+      "epoch": 73.76729559748428,
+      "grad_norm": NaN,
+      "learning_rate": 5.875537901357168e-07,
+      "loss": 0.0,
+      "step": 23458
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5427,
+      "eval_samples_per_second": 2009.409,
+      "eval_steps_per_second": 42.133,
+      "step": 23532
+    },
+    {
+      "epoch": 74.76415094339623,
+      "grad_norm": NaN,
+      "learning_rate": 3.252234359483615e-07,
+      "loss": 0.0,
+      "step": 23775
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.0064516129032258064,
+      "eval_loss": NaN,
+      "eval_runtime": 1.5505,
+      "eval_samples_per_second": 1999.347,
+      "eval_steps_per_second": 41.922,
+      "step": 23850
+    },
+    {
+      "epoch": 75.76100628930817,
+      "grad_norm": NaN,
+      "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0,
+      "step": 24092
+    }
+  ],
+  "logging_steps": 317,
+  "max_steps": 24168,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 76,
+  "save_steps": 1000000000.0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6263008648762236.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.12159569042558904,
+    "num_train_epochs": 76,
+    "temperature": 0
+  }
+}

run-1/checkpoint-24168/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3a41cece78d4d2e0dc66507c655f7b6250bdfa5a0cd8bd67ff5a19d5e73b5e9
+size 5304

run-1/checkpoint-24168/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-20670/config.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "restaurant_reviews",
+    "1": "nutrition_info",
+    "2": "account_blocked",
+    "3": "oil_change_how",
+    "4": "time",
+    "5": "weather",
+    "6": "redeem_rewards",
+    "7": "interest_rate",
+    "8": "gas_type",
+    "9": "accept_reservations",
+    "10": "smart_home",
+    "11": "user_name",
+    "12": "report_lost_card",
+    "13": "repeat",
+    "14": "whisper_mode",
+    "15": "what_are_your_hobbies",
+    "16": "order",
+    "17": "jump_start",
+    "18": "schedule_meeting",
+    "19": "meeting_schedule",
+    "20": "freeze_account",
+    "21": "what_song",
+    "22": "meaning_of_life",
+    "23": "restaurant_reservation",
+    "24": "traffic",
+    "25": "make_call",
+    "26": "text",
+    "27": "bill_balance",
+    "28": "improve_credit_score",
+    "29": "change_language",
+    "30": "no",
+    "31": "measurement_conversion",
+    "32": "timer",
+    "33": "flip_coin",
+    "34": "do_you_have_pets",
+    "35": "balance",
+    "36": "tell_joke",
+    "37": "last_maintenance",
+    "38": "exchange_rate",
+    "39": "uber",
+    "40": "car_rental",
+    "41": "credit_limit",
+    "42": "oos",
+    "43": "shopping_list",
+    "44": "expiration_date",
+    "45": "routing",
+    "46": "meal_suggestion",
+    "47": "tire_change",
+    "48": "todo_list",
+    "49": "card_declined",
+    "50": "rewards_balance",
+    "51": "change_accent",
+    "52": "vaccines",
+    "53": "reminder_update",
+    "54": "food_last",
+    "55": "change_ai_name",
+    "56": "bill_due",
+    "57": "who_do_you_work_for",
+    "58": "share_location",
+    "59": "international_visa",
+    "60": "calendar",
+    "61": "translate",
+    "62": "carry_on",
+    "63": "book_flight",
+    "64": "insurance_change",
+    "65": "todo_list_update",
+    "66": "timezone",
+    "67": "cancel_reservation",
+    "68": "transactions",
+    "69": "credit_score",
+    "70": "report_fraud",
+    "71": "spending_history",
+    "72": "directions",
+    "73": "spelling",
+    "74": "insurance",
+    "75": "what_is_your_name",
+    "76": "reminder",
+    "77": "where_are_you_from",
+    "78": "distance",
+    "79": "payday",
+    "80": "flight_status",
+    "81": "find_phone",
+    "82": "greeting",
+    "83": "alarm",
+    "84": "order_status",
+    "85": "confirm_reservation",
+    "86": "cook_time",
+    "87": "damaged_card",
+    "88": "reset_settings",
+    "89": "pin_change",
+    "90": "replacement_card_duration",
+    "91": "new_card",
+    "92": "roll_dice",
+    "93": "income",
+    "94": "taxes",
+    "95": "date",
+    "96": "who_made_you",
+    "97": "pto_request",
+    "98": "tire_pressure",
+    "99": "how_old_are_you",
+    "100": "rollover_401k",
+    "101": "pto_request_status",
+    "102": "how_busy",
+    "103": "application_status",
+    "104": "recipe",
+    "105": "calendar_update",
+    "106": "play_music",
+    "107": "yes",
+    "108": "direct_deposit",
+    "109": "credit_limit_change",
+    "110": "gas",
+    "111": "pay_bill",
+    "112": "ingredients_list",
+    "113": "lost_luggage",
+    "114": "goodbye",
+    "115": "what_can_i_ask_you",
+    "116": "book_hotel",
+    "117": "are_you_a_bot",
+    "118": "next_song",
+    "119": "change_speed",
+    "120": "plug_type",
+    "121": "maybe",
+    "122": "w2",
+    "123": "oil_change_when",
+    "124": "thank_you",
+    "125": "shopping_list_update",
+    "126": "pto_balance",
+    "127": "order_checks",
+    "128": "travel_alert",
+    "129": "fun_fact",
+    "130": "sync_device",
+    "131": "schedule_maintenance",
+    "132": "apr",
+    "133": "transfer",
+    "134": "ingredient_substitution",
+    "135": "calories",
+    "136": "current_location",
+    "137": "international_fees",
+    "138": "calculator",
+    "139": "definition",
+    "140": "next_holiday",
+    "141": "update_playlist",
+    "142": "mpg",
+    "143": "min_payment",
+    "144": "change_user_name",
+    "145": "restaurant_suggestion",
+    "146": "travel_notification",
+    "147": "cancel",
+    "148": "pto_used",
+    "149": "travel_suggestion",
+    "150": "change_volume"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "accept_reservations": 9,
+    "account_blocked": 2,
+    "alarm": 83,
+    "application_status": 103,
+    "apr": 132,
+    "are_you_a_bot": 117,
+    "balance": 35,
+    "bill_balance": 27,
+    "bill_due": 56,
+    "book_flight": 63,
+    "book_hotel": 116,
+    "calculator": 138,
+    "calendar": 60,
+    "calendar_update": 105,
+    "calories": 135,
+    "cancel": 147,
+    "cancel_reservation": 67,
+    "car_rental": 40,
+    "card_declined": 49,
+    "carry_on": 62,
+    "change_accent": 51,
+    "change_ai_name": 55,
+    "change_language": 29,
+    "change_speed": 119,
+    "change_user_name": 144,
+    "change_volume": 150,
+    "confirm_reservation": 85,
+    "cook_time": 86,
+    "credit_limit": 41,
+    "credit_limit_change": 109,
+    "credit_score": 69,
+    "current_location": 136,
+    "damaged_card": 87,
+    "date": 95,
+    "definition": 139,
+    "direct_deposit": 108,
+    "directions": 72,
+    "distance": 78,
+    "do_you_have_pets": 34,
+    "exchange_rate": 38,
+    "expiration_date": 44,
+    "find_phone": 81,
+    "flight_status": 80,
+    "flip_coin": 33,
+    "food_last": 54,
+    "freeze_account": 20,
+    "fun_fact": 129,
+    "gas": 110,
+    "gas_type": 8,
+    "goodbye": 114,
+    "greeting": 82,
+    "how_busy": 102,
+    "how_old_are_you": 99,
+    "improve_credit_score": 28,
+    "income": 93,
+    "ingredient_substitution": 134,
+    "ingredients_list": 112,
+    "insurance": 74,
+    "insurance_change": 64,
+    "interest_rate": 7,
+    "international_fees": 137,
+    "international_visa": 59,
+    "jump_start": 17,
+    "last_maintenance": 37,
+    "lost_luggage": 113,
+    "make_call": 25,
+    "maybe": 121,
+    "meal_suggestion": 46,
+    "meaning_of_life": 22,
+    "measurement_conversion": 31,
+    "meeting_schedule": 19,
+    "min_payment": 143,
+    "mpg": 142,
+    "new_card": 91,
+    "next_holiday": 140,
+    "next_song": 118,
+    "no": 30,
+    "nutrition_info": 1,
+    "oil_change_how": 3,
+    "oil_change_when": 123,
+    "oos": 42,
+    "order": 16,
+    "order_checks": 127,
+    "order_status": 84,
+    "pay_bill": 111,
+    "payday": 79,
+    "pin_change": 89,
+    "play_music": 106,
+    "plug_type": 120,
+    "pto_balance": 126,
+    "pto_request": 97,
+    "pto_request_status": 101,
+    "pto_used": 148,
+    "recipe": 104,
+    "redeem_rewards": 6,
+    "reminder": 76,
+    "reminder_update": 53,
+    "repeat": 13,
+    "replacement_card_duration": 90,
+    "report_fraud": 70,
+    "report_lost_card": 12,
+    "reset_settings": 88,
+    "restaurant_reservation": 23,
+    "restaurant_reviews": 0,
+    "restaurant_suggestion": 145,
+    "rewards_balance": 50,
+    "roll_dice": 92,
+    "rollover_401k": 100,
+    "routing": 45,
+    "schedule_maintenance": 131,
+    "schedule_meeting": 18,
+    "share_location": 58,
+    "shopping_list": 43,
+    "shopping_list_update": 125,
+    "smart_home": 10,
+    "spelling": 73,
+    "spending_history": 71,
+    "sync_device": 130,
+    "taxes": 94,
+    "tell_joke": 36,
+    "text": 26,
+    "thank_you": 124,
+    "time": 4,
+    "timer": 32,
+    "timezone": 66,
+    "tire_change": 47,
+    "tire_pressure": 98,
+    "todo_list": 48,
+    "todo_list_update": 65,
+    "traffic": 24,
+    "transactions": 68,
+    "transfer": 133,
+    "translate": 61,
+    "travel_alert": 128,
+    "travel_notification": 146,
+    "travel_suggestion": 149,
+    "uber": 39,
+    "update_playlist": 141,
+    "user_name": 11,
+    "vaccines": 52,
+    "w2": 122,
+    "weather": 5,
+    "what_are_your_hobbies": 15,
+    "what_can_i_ask_you": 115,
+    "what_is_your_name": 75,
+    "what_song": 21,
+    "where_are_you_from": 77,
+    "whisper_mode": 14,
+    "who_do_you_work_for": 57,
+    "who_made_you": 96,
+    "yes": 107
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

run-10/checkpoint-20670/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:744b9003a01b5dbac49a192b07d7ea152ac1018e4348b753960a2ac74b23f326
+size 268290900

run-10/checkpoint-20670/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8b0e1177b42431136fa09671a270f02c586044ba3c2dccb7b92015591975e6e
+size 536643898

run-10/checkpoint-20670/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8778887608feaac66ef895d461dee9594940d0493c8c35fe7020e00768acfac
+size 14244

run-10/checkpoint-20670/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:164e003ec7442091f601e3f5f9485a117ce41fe8f9140e192a7e7673dc00cb53
+size 1064

run-10/checkpoint-20670/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-20670/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-10/checkpoint-20670/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-10/checkpoint-20670/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1068 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 65.0,
+  "eval_steps": 500,
+  "global_step": 20670,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": 1.7892354726791382,
+      "learning_rate": 1.9693275278180943e-05,
+      "loss": 2.2558,
+      "step": 317
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7374193548387097,
+      "eval_loss": 1.617253303527832,
+      "eval_runtime": 1.5797,
+      "eval_samples_per_second": 1962.428,
+      "eval_steps_per_second": 41.148,
+      "step": 318
+    },
+    {
+      "epoch": 1.9937106918238994,
+      "grad_norm": 1.7214646339416504,
+      "learning_rate": 1.9386550556361877e-05,
+      "loss": 1.2223,
+      "step": 634
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8806451612903226,
+      "eval_loss": 0.7785580158233643,
+      "eval_runtime": 1.5855,
+      "eval_samples_per_second": 1955.164,
+      "eval_steps_per_second": 40.995,
+      "step": 636
+    },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": 2.026827812194824,
+      "learning_rate": 1.9079825834542818e-05,
+      "loss": 0.5979,
+      "step": 951
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9235483870967742,
+      "eval_loss": 0.4162185788154602,
+      "eval_runtime": 1.596,
+      "eval_samples_per_second": 1942.32,
+      "eval_steps_per_second": 40.726,
+      "step": 954
+    },
+    {
+      "epoch": 3.9874213836477987,
+      "grad_norm": 1.5834722518920898,
+      "learning_rate": 1.8773101112723755e-05,
+      "loss": 0.3243,
+      "step": 1268
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9380645161290323,
+      "eval_loss": 0.2845900356769562,
+      "eval_runtime": 1.584,
+      "eval_samples_per_second": 1957.074,
+      "eval_steps_per_second": 41.035,
+      "step": 1272
+    },
+    {
+      "epoch": 4.984276729559748,
+      "grad_norm": 0.5995246767997742,
+      "learning_rate": 1.8466376390904693e-05,
+      "loss": 0.2172,
+      "step": 1585
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9432258064516129,
+      "eval_loss": 0.24240821599960327,
+      "eval_runtime": 1.5902,
+      "eval_samples_per_second": 1949.469,
+      "eval_steps_per_second": 40.876,
+      "step": 1590
+    },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": 0.5339710712432861,
+      "learning_rate": 1.8159651669085634e-05,
+      "loss": 0.1736,
+      "step": 1902
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9438709677419355,
+      "eval_loss": 0.22936078906059265,
+      "eval_runtime": 1.597,
+      "eval_samples_per_second": 1941.162,
+      "eval_steps_per_second": 40.702,
+      "step": 1908
+    },
+    {
+      "epoch": 6.977987421383648,
+      "grad_norm": 0.650678813457489,
+      "learning_rate": 1.785292694726657e-05,
+      "loss": 0.1522,
+      "step": 2219
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9464516129032258,
+      "eval_loss": 0.2193584442138672,
+      "eval_runtime": 1.583,
+      "eval_samples_per_second": 1958.299,
+      "eval_steps_per_second": 41.061,
+      "step": 2226
+    },
+    {
+      "epoch": 7.9748427672955975,
+      "grad_norm": 0.3262224793434143,
+      "learning_rate": 1.754620222544751e-05,
+      "loss": 0.141,
+      "step": 2536
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.21464666724205017,
+      "eval_runtime": 1.6039,
+      "eval_samples_per_second": 1932.766,
+      "eval_steps_per_second": 40.526,
+      "step": 2544
+    },
+    {
+      "epoch": 8.971698113207546,
+      "grad_norm": 0.31927967071533203,
+      "learning_rate": 1.7239477503628447e-05,
+      "loss": 0.1338,
+      "step": 2853
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9458064516129032,
+      "eval_loss": 0.21053576469421387,
+      "eval_runtime": 1.5796,
+      "eval_samples_per_second": 1962.498,
+      "eval_steps_per_second": 41.149,
+      "step": 2862
+    },
+    {
+      "epoch": 9.968553459119496,
+      "grad_norm": 0.2677464783191681,
+      "learning_rate": 1.6932752781809388e-05,
+      "loss": 0.1285,
+      "step": 3170
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9458064516129032,
+      "eval_loss": 0.20650111138820648,
+      "eval_runtime": 1.5867,
+      "eval_samples_per_second": 1953.698,
+      "eval_steps_per_second": 40.965,
+      "step": 3180
+    },
+    {
+      "epoch": 10.965408805031446,
+      "grad_norm": 0.2738747000694275,
+      "learning_rate": 1.6626028059990325e-05,
+      "loss": 0.1249,
+      "step": 3487
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9451612903225807,
+      "eval_loss": 0.2075880914926529,
+      "eval_runtime": 1.5904,
+      "eval_samples_per_second": 1949.165,
+      "eval_steps_per_second": 40.87,
+      "step": 3498
+    },
+    {
+      "epoch": 11.962264150943396,
+      "grad_norm": 0.1720859259366989,
+      "learning_rate": 1.6319303338171263e-05,
+      "loss": 0.1224,
+      "step": 3804
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9487096774193549,
+      "eval_loss": 0.20247511565685272,
+      "eval_runtime": 1.5789,
+      "eval_samples_per_second": 1963.422,
+      "eval_steps_per_second": 41.169,
+      "step": 3816
+    },
+    {
+      "epoch": 12.959119496855346,
+      "grad_norm": 0.18272709846496582,
+      "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.1195,
+      "step": 4121
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9461290322580646,
+      "eval_loss": 0.20313145220279694,
+      "eval_runtime": 1.586,
+      "eval_samples_per_second": 1954.586,
+      "eval_steps_per_second": 40.983,
+      "step": 4134
+    },
+    {
+      "epoch": 13.955974842767295,
+      "grad_norm": 0.169128879904747,
+      "learning_rate": 1.570585389453314e-05,
+      "loss": 0.1178,
+      "step": 4438
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9470967741935484,
+      "eval_loss": 0.2029477208852768,
+      "eval_runtime": 1.5852,
+      "eval_samples_per_second": 1955.55,
+      "eval_steps_per_second": 41.003,
+      "step": 4452
+    },
+    {
+      "epoch": 14.952830188679245,
+      "grad_norm": 0.23086608946323395,
+      "learning_rate": 1.539912917271408e-05,
+      "loss": 0.1164,
+      "step": 4755
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.19893775880336761,
+      "eval_runtime": 1.5901,
+      "eval_samples_per_second": 1949.554,
+      "eval_steps_per_second": 40.878,
+      "step": 4770
+    },
+    {
+      "epoch": 15.949685534591195,
+      "grad_norm": 0.162359818816185,
+      "learning_rate": 1.5092404450895017e-05,
+      "loss": 0.1148,
+      "step": 5072
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9448387096774193,
+      "eval_loss": 0.2043694704771042,
+      "eval_runtime": 1.5835,
+      "eval_samples_per_second": 1957.683,
+      "eval_steps_per_second": 41.048,
+      "step": 5088
+    },
+    {
+      "epoch": 16.946540880503143,
+      "grad_norm": 0.19157171249389648,
+      "learning_rate": 1.4785679729075956e-05,
+      "loss": 0.1136,
+      "step": 5389
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9464516129032258,
+      "eval_loss": 0.20171256363391876,
+      "eval_runtime": 1.591,
+      "eval_samples_per_second": 1948.448,
+      "eval_steps_per_second": 40.855,
+      "step": 5406
+    },
+    {
+      "epoch": 17.943396226415093,
+      "grad_norm": 0.1393335908651352,
+      "learning_rate": 1.4478955007256896e-05,
+      "loss": 0.1125,
+      "step": 5706
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.19980596005916595,
+      "eval_runtime": 1.5855,
+      "eval_samples_per_second": 1955.186,
+      "eval_steps_per_second": 40.996,
+      "step": 5724
+    },
+    {
+      "epoch": 18.940251572327043,
+      "grad_norm": 0.17489531636238098,
+      "learning_rate": 1.4172230285437833e-05,
+      "loss": 0.1115,
+      "step": 6023
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.19913578033447266,
+      "eval_runtime": 1.5874,
+      "eval_samples_per_second": 1952.884,
+      "eval_steps_per_second": 40.948,
+      "step": 6042
+    },
+    {
+      "epoch": 19.937106918238992,
+      "grad_norm": 0.14055393636226654,
+      "learning_rate": 1.3865505563618772e-05,
+      "loss": 0.1104,
+      "step": 6340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.1966058611869812,
+      "eval_runtime": 1.5873,
+      "eval_samples_per_second": 1953.007,
+      "eval_steps_per_second": 40.95,
+      "step": 6360
+    },
+    {
+      "epoch": 20.933962264150942,
+      "grad_norm": 0.15471237897872925,
+      "learning_rate": 1.355878084179971e-05,
+      "loss": 0.11,
+      "step": 6657
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.1969558149576187,
+      "eval_runtime": 1.5977,
+      "eval_samples_per_second": 1940.313,
+      "eval_steps_per_second": 40.684,
+      "step": 6678
+    },
+    {
+      "epoch": 21.930817610062892,
+      "grad_norm": 0.13617640733718872,
+      "learning_rate": 1.325205611998065e-05,
+      "loss": 0.109,
+      "step": 6974
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.19681183993816376,
+      "eval_runtime": 1.5836,
+      "eval_samples_per_second": 1957.549,
+      "eval_steps_per_second": 41.045,
+      "step": 6996
+    },
+    {
+      "epoch": 22.927672955974842,
+      "grad_norm": 0.12482684850692749,
+      "learning_rate": 1.2945331398161587e-05,
+      "loss": 0.1086,
+      "step": 7291
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.19712504744529724,
+      "eval_runtime": 1.5908,
+      "eval_samples_per_second": 1948.729,
+      "eval_steps_per_second": 40.86,
+      "step": 7314
+    },
+    {
+      "epoch": 23.92452830188679,
+      "grad_norm": 0.1342603862285614,
+      "learning_rate": 1.2638606676342526e-05,
+      "loss": 0.1081,
+      "step": 7608
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19047369062900543,
+      "eval_runtime": 1.583,
+      "eval_samples_per_second": 1958.273,
+      "eval_steps_per_second": 41.061,
+      "step": 7632
+    },
+    {
+      "epoch": 24.92138364779874,
+      "grad_norm": 0.12532541155815125,
+      "learning_rate": 1.2331881954523466e-05,
+      "loss": 0.1076,
+      "step": 7925
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.19533421099185944,
+      "eval_runtime": 1.5923,
+      "eval_samples_per_second": 1946.876,
+      "eval_steps_per_second": 40.822,
+      "step": 7950
+    },
+    {
+      "epoch": 25.91823899371069,
+      "grad_norm": 0.10873907059431076,
+      "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.1071,
+      "step": 8242
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.19298453629016876,
+      "eval_runtime": 1.5821,
+      "eval_samples_per_second": 1959.435,
+      "eval_steps_per_second": 41.085,
+      "step": 8268
+    },
+    {
+      "epoch": 26.91509433962264,
+      "grad_norm": 0.13738222420215607,
+      "learning_rate": 1.1718432510885342e-05,
+      "loss": 0.1065,
+      "step": 8559
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.19757185876369476,
+      "eval_runtime": 1.5903,
+      "eval_samples_per_second": 1949.304,
+      "eval_steps_per_second": 40.873,
+      "step": 8586
+    },
+    {
+      "epoch": 27.91194968553459,
+      "grad_norm": 0.11282658576965332,
+      "learning_rate": 1.141170778906628e-05,
+      "loss": 0.1063,
+      "step": 8876
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.1946183145046234,
+      "eval_runtime": 1.5849,
+      "eval_samples_per_second": 1955.904,
+      "eval_steps_per_second": 41.011,
+      "step": 8904
+    },
+    {
+      "epoch": 28.90880503144654,
+      "grad_norm": 0.11028722673654556,
+      "learning_rate": 1.110498306724722e-05,
+      "loss": 0.1057,
+      "step": 9193
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.1943337470293045,
+      "eval_runtime": 1.5802,
+      "eval_samples_per_second": 1961.812,
+      "eval_steps_per_second": 41.135,
+      "step": 9222
+    },
+    {
+      "epoch": 29.90566037735849,
+      "grad_norm": 0.14671742916107178,
+      "learning_rate": 1.0798258345428159e-05,
+      "loss": 0.1054,
+      "step": 9510
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.1915769875049591,
+      "eval_runtime": 1.5847,
+      "eval_samples_per_second": 1956.259,
+      "eval_steps_per_second": 41.018,
+      "step": 9540
+    },
+    {
+      "epoch": 30.90251572327044,
+      "grad_norm": 0.14922679960727692,
+      "learning_rate": 1.0491533623609096e-05,
+      "loss": 0.1051,
+      "step": 9827
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.19569595158100128,
+      "eval_runtime": 1.5802,
+      "eval_samples_per_second": 1961.721,
+      "eval_steps_per_second": 41.133,
+      "step": 9858
+    },
+    {
+      "epoch": 31.89937106918239,
+      "grad_norm": 0.10370077192783356,
+      "learning_rate": 1.0184808901790036e-05,
+      "loss": 0.105,
+      "step": 10144
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.19266918301582336,
+      "eval_runtime": 1.5815,
+      "eval_samples_per_second": 1960.158,
+      "eval_steps_per_second": 41.1,
+      "step": 10176
+    },
+    {
+      "epoch": 32.89622641509434,
+      "grad_norm": 0.0962880551815033,
+      "learning_rate": 9.878084179970973e-06,
+      "loss": 0.1047,
+      "step": 10461
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19326689839363098,
+      "eval_runtime": 1.579,
+      "eval_samples_per_second": 1963.275,
+      "eval_steps_per_second": 41.165,
+      "step": 10494
+    },
+    {
+      "epoch": 33.893081761006286,
+      "grad_norm": 0.10902892053127289,
+      "learning_rate": 9.571359458151912e-06,
+      "loss": 0.1043,
+      "step": 10778
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.1923554390668869,
+      "eval_runtime": 1.5857,
+      "eval_samples_per_second": 1954.952,
+      "eval_steps_per_second": 40.991,
+      "step": 10812
+    },
+    {
+      "epoch": 34.88993710691824,
+      "grad_norm": 0.12455958127975464,
+      "learning_rate": 9.26463473633285e-06,
+      "loss": 0.1043,
+      "step": 11095
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.19354650378227234,
+      "eval_runtime": 1.5891,
+      "eval_samples_per_second": 1950.802,
+      "eval_steps_per_second": 40.904,
+      "step": 11130
+    },
+    {
+      "epoch": 35.886792452830186,
+      "grad_norm": 0.1168413907289505,
+      "learning_rate": 8.95791001451379e-06,
+      "loss": 0.1039,
+      "step": 11412
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19258633255958557,
+      "eval_runtime": 1.582,
+      "eval_samples_per_second": 1959.532,
+      "eval_steps_per_second": 41.087,
+      "step": 11448
+    },
+    {
+      "epoch": 36.88364779874214,
+      "grad_norm": 0.11007039248943329,
+      "learning_rate": 8.651185292694727e-06,
+      "loss": 0.104,
+      "step": 11729
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.19169464707374573,
+      "eval_runtime": 1.5851,
+      "eval_samples_per_second": 1955.757,
+      "eval_steps_per_second": 41.008,
+      "step": 11766
+    },
+    {
+      "epoch": 37.880503144654085,
+      "grad_norm": 0.10598143190145493,
+      "learning_rate": 8.344460570875665e-06,
+      "loss": 0.1037,
+      "step": 12046
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19138343632221222,
+      "eval_runtime": 1.5756,
+      "eval_samples_per_second": 1967.531,
+      "eval_steps_per_second": 41.255,
+      "step": 12084
+    },
+    {
+      "epoch": 38.87735849056604,
+      "grad_norm": 0.12342941761016846,
+      "learning_rate": 8.037735849056606e-06,
+      "loss": 0.1031,
+      "step": 12363
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.1933196783065796,
+      "eval_runtime": 1.5808,
+      "eval_samples_per_second": 1961.015,
+      "eval_steps_per_second": 41.118,
+      "step": 12402
+    },
+    {
+      "epoch": 39.874213836477985,
+      "grad_norm": 0.10500668734312057,
+      "learning_rate": 7.731011127237543e-06,
+      "loss": 0.1032,
+      "step": 12680
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.18965306878089905,
+      "eval_runtime": 1.5814,
+      "eval_samples_per_second": 1960.237,
+      "eval_steps_per_second": 41.102,
+      "step": 12720
+    },
+    {
+      "epoch": 40.87106918238994,
+      "grad_norm": 0.11004229635000229,
+      "learning_rate": 7.424286405418482e-06,
+      "loss": 0.103,
+      "step": 12997
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.19283445179462433,
+      "eval_runtime": 1.5854,
+      "eval_samples_per_second": 1955.382,
+      "eval_steps_per_second": 41.0,
+      "step": 13038
+    },
+    {
+      "epoch": 41.867924528301884,
+      "grad_norm": 0.08491053432226181,
+      "learning_rate": 7.11756168359942e-06,
+      "loss": 0.1027,
+      "step": 13314
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19381901621818542,
+      "eval_runtime": 1.5827,
+      "eval_samples_per_second": 1958.66,
+      "eval_steps_per_second": 41.069,
+      "step": 13356
+    },
+    {
+      "epoch": 42.86477987421384,
+      "grad_norm": 0.10829228907823563,
+      "learning_rate": 6.8108369617803585e-06,
+      "loss": 0.1026,
+      "step": 13631
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19210335612297058,
+      "eval_runtime": 1.5793,
+      "eval_samples_per_second": 1962.945,
+      "eval_steps_per_second": 41.159,
+      "step": 13674
+    },
+    {
+      "epoch": 43.861635220125784,
+      "grad_norm": 0.08409814536571503,
+      "learning_rate": 6.504112239961297e-06,
+      "loss": 0.1026,
+      "step": 13948
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.19112293422222137,
+      "eval_runtime": 1.5829,
+      "eval_samples_per_second": 1958.426,
+      "eval_steps_per_second": 41.064,
+      "step": 13992
+    },
+    {
+      "epoch": 44.85849056603774,
+      "grad_norm": 0.09595589339733124,
+      "learning_rate": 6.197387518142236e-06,
+      "loss": 0.1025,
+      "step": 14265
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19056861102581024,
+      "eval_runtime": 1.592,
+      "eval_samples_per_second": 1947.236,
+      "eval_steps_per_second": 40.829,
+      "step": 14310
+    },
+    {
+      "epoch": 45.855345911949684,
+      "grad_norm": 0.09873504191637039,
+      "learning_rate": 5.890662796323175e-06,
+      "loss": 0.102,
+      "step": 14582
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.1900680810213089,
+      "eval_runtime": 1.5864,
+      "eval_samples_per_second": 1954.141,
+      "eval_steps_per_second": 40.974,
+      "step": 14628
+    },
+    {
+      "epoch": 46.85220125786164,
+      "grad_norm": 0.11340785026550293,
+      "learning_rate": 5.583938074504112e-06,
+      "loss": 0.102,
+      "step": 14899
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.19092942774295807,
+      "eval_runtime": 1.5847,
+      "eval_samples_per_second": 1956.237,
+      "eval_steps_per_second": 41.018,
+      "step": 14946
+    },
+    {
+      "epoch": 47.84905660377358,
+      "grad_norm": 0.10237148404121399,
+      "learning_rate": 5.277213352685051e-06,
+      "loss": 0.1019,
+      "step": 15216
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.1910076141357422,
+      "eval_runtime": 1.5896,
+      "eval_samples_per_second": 1950.15,
+      "eval_steps_per_second": 40.89,
+      "step": 15264
+    },
+    {
+      "epoch": 48.84591194968554,
+      "grad_norm": 0.1059408113360405,
+      "learning_rate": 4.97048863086599e-06,
+      "loss": 0.102,
+      "step": 15533
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19144326448440552,
+      "eval_runtime": 1.5991,
+      "eval_samples_per_second": 1938.605,
+      "eval_steps_per_second": 40.648,
+      "step": 15582
+    },
+    {
+      "epoch": 49.84276729559748,
+      "grad_norm": 0.12535175681114197,
+      "learning_rate": 4.6637639090469286e-06,
+      "loss": 0.1016,
+      "step": 15850
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.19012872874736786,
+      "eval_runtime": 1.579,
+      "eval_samples_per_second": 1963.268,
+      "eval_steps_per_second": 41.165,
+      "step": 15900
+    },
+    {
+      "epoch": 50.839622641509436,
+      "grad_norm": 0.1147344708442688,
+      "learning_rate": 4.357039187227867e-06,
+      "loss": 0.1016,
+      "step": 16167
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.19135929644107819,
+      "eval_runtime": 1.5886,
+      "eval_samples_per_second": 1951.429,
+      "eval_steps_per_second": 40.917,
+      "step": 16218
+    },
+    {
+      "epoch": 51.83647798742138,
+      "grad_norm": 0.09682757407426834,
+      "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.1017,
+      "step": 16484
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19057147204875946,
+      "eval_runtime": 1.5852,
+      "eval_samples_per_second": 1955.562,
+      "eval_steps_per_second": 41.004,
+      "step": 16536
+    },
+    {
+      "epoch": 52.833333333333336,
+      "grad_norm": 0.08178399503231049,
+      "learning_rate": 3.743589743589744e-06,
+      "loss": 0.1015,
+      "step": 16801
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.1907467395067215,
+      "eval_runtime": 1.5863,
+      "eval_samples_per_second": 1954.248,
+      "eval_steps_per_second": 40.976,
+      "step": 16854
+    },
+    {
+      "epoch": 53.83018867924528,
+      "grad_norm": 0.11521653831005096,
+      "learning_rate": 3.4368650217706824e-06,
+      "loss": 0.1014,
+      "step": 17118
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.1901290863752365,
+      "eval_runtime": 1.5866,
+      "eval_samples_per_second": 1953.871,
+      "eval_steps_per_second": 40.968,
+      "step": 17172
+    },
+    {
+      "epoch": 54.827044025157235,
+      "grad_norm": 0.09569505602121353,
+      "learning_rate": 3.1301402999516213e-06,
+      "loss": 0.1014,
+      "step": 17435
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.19127020239830017,
+      "eval_runtime": 1.5853,
+      "eval_samples_per_second": 1955.414,
+      "eval_steps_per_second": 41.001,
+      "step": 17490
+    },
+    {
+      "epoch": 55.82389937106918,
+      "grad_norm": 0.1354704350233078,
+      "learning_rate": 2.8234155781325597e-06,
+      "loss": 0.1014,
+      "step": 17752
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19035856425762177,
+      "eval_runtime": 1.5818,
+      "eval_samples_per_second": 1959.757,
+      "eval_steps_per_second": 41.092,
+      "step": 17808
+    },
+    {
+      "epoch": 56.820754716981135,
+      "grad_norm": 0.10605770349502563,
+      "learning_rate": 2.5166908563134977e-06,
+      "loss": 0.101,
+      "step": 18069
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19088035821914673,
+      "eval_runtime": 1.5926,
+      "eval_samples_per_second": 1946.458,
+      "eval_steps_per_second": 40.813,
+      "step": 18126
+    },
+    {
+      "epoch": 57.81761006289308,
+      "grad_norm": 0.09835700690746307,
+      "learning_rate": 2.2099661344944366e-06,
+      "loss": 0.1012,
+      "step": 18386
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.18963685631752014,
+      "eval_runtime": 1.5851,
+      "eval_samples_per_second": 1955.697,
+      "eval_steps_per_second": 41.007,
+      "step": 18444
+    },
+    {
+      "epoch": 58.814465408805034,
+      "grad_norm": 0.1112636849284172,
+      "learning_rate": 1.903241412675375e-06,
+      "loss": 0.101,
+      "step": 18703
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.18980875611305237,
+      "eval_runtime": 1.5835,
+      "eval_samples_per_second": 1957.658,
+      "eval_steps_per_second": 41.048,
+      "step": 18762
+    },
+    {
+      "epoch": 59.81132075471698,
+      "grad_norm": 0.0956527441740036,
+      "learning_rate": 1.5965166908563137e-06,
+      "loss": 0.1012,
+      "step": 19020
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19082389771938324,
+      "eval_runtime": 1.583,
+      "eval_samples_per_second": 1958.298,
+      "eval_steps_per_second": 41.061,
+      "step": 19080
+    },
+    {
+      "epoch": 60.808176100628934,
+      "grad_norm": 0.11568117886781693,
+      "learning_rate": 1.289791969037252e-06,
+      "loss": 0.101,
+      "step": 19337
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19020406901836395,
+      "eval_runtime": 1.5863,
+      "eval_samples_per_second": 1954.251,
+      "eval_steps_per_second": 40.976,
+      "step": 19398
+    },
+    {
+      "epoch": 61.80503144654088,
+      "grad_norm": 0.10544057190418243,
+      "learning_rate": 9.830672472181907e-07,
+      "loss": 0.101,
+      "step": 19654
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.18987761437892914,
+      "eval_runtime": 1.5906,
+      "eval_samples_per_second": 1948.959,
+      "eval_steps_per_second": 40.865,
+      "step": 19716
+    },
+    {
+      "epoch": 62.801886792452834,
+      "grad_norm": 0.10238124430179596,
+      "learning_rate": 6.763425253991292e-07,
+      "loss": 0.101,
+      "step": 19971
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.18937255442142487,
+      "eval_runtime": 1.5952,
+      "eval_samples_per_second": 1943.308,
+      "eval_steps_per_second": 40.747,
+      "step": 20034
+    },
+    {
+      "epoch": 63.79874213836478,
+      "grad_norm": 0.08944712579250336,
+      "learning_rate": 3.696178035800677e-07,
+      "loss": 0.1009,
+      "step": 20288
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.18973702192306519,
+      "eval_runtime": 1.591,
+      "eval_samples_per_second": 1948.431,
+      "eval_steps_per_second": 40.854,
+      "step": 20352
+    },
+    {
+      "epoch": 64.79559748427673,
+      "grad_norm": 0.09156543016433716,
+      "learning_rate": 6.289308176100629e-08,
+      "loss": 0.1009,
+      "step": 20605
+    }
+  ],
+  "logging_steps": 317,
+  "max_steps": 20670,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 65,
+  "save_steps": 1000000000.0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5356831747911420.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.4628195497376964,
+    "num_train_epochs": 65,
+    "temperature": 4
+  }
+}

run-10/checkpoint-20670/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5d0e048ad3243f3df054d98952bd88da3e255967a5b0c48dd11bcc42248d7f0
+size 5304

run-10/checkpoint-20670/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-20034/config.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "restaurant_reviews",
+    "1": "nutrition_info",
+    "2": "account_blocked",
+    "3": "oil_change_how",
+    "4": "time",
+    "5": "weather",
+    "6": "redeem_rewards",
+    "7": "interest_rate",
+    "8": "gas_type",
+    "9": "accept_reservations",
+    "10": "smart_home",
+    "11": "user_name",
+    "12": "report_lost_card",
+    "13": "repeat",
+    "14": "whisper_mode",
+    "15": "what_are_your_hobbies",
+    "16": "order",
+    "17": "jump_start",
+    "18": "schedule_meeting",
+    "19": "meeting_schedule",
+    "20": "freeze_account",
+    "21": "what_song",
+    "22": "meaning_of_life",
+    "23": "restaurant_reservation",
+    "24": "traffic",
+    "25": "make_call",
+    "26": "text",
+    "27": "bill_balance",
+    "28": "improve_credit_score",
+    "29": "change_language",
+    "30": "no",
+    "31": "measurement_conversion",
+    "32": "timer",
+    "33": "flip_coin",
+    "34": "do_you_have_pets",
+    "35": "balance",
+    "36": "tell_joke",
+    "37": "last_maintenance",
+    "38": "exchange_rate",
+    "39": "uber",
+    "40": "car_rental",
+    "41": "credit_limit",
+    "42": "oos",
+    "43": "shopping_list",
+    "44": "expiration_date",
+    "45": "routing",
+    "46": "meal_suggestion",
+    "47": "tire_change",
+    "48": "todo_list",
+    "49": "card_declined",
+    "50": "rewards_balance",
+    "51": "change_accent",
+    "52": "vaccines",
+    "53": "reminder_update",
+    "54": "food_last",
+    "55": "change_ai_name",
+    "56": "bill_due",
+    "57": "who_do_you_work_for",
+    "58": "share_location",
+    "59": "international_visa",
+    "60": "calendar",
+    "61": "translate",
+    "62": "carry_on",
+    "63": "book_flight",
+    "64": "insurance_change",
+    "65": "todo_list_update",
+    "66": "timezone",
+    "67": "cancel_reservation",
+    "68": "transactions",
+    "69": "credit_score",
+    "70": "report_fraud",
+    "71": "spending_history",
+    "72": "directions",
+    "73": "spelling",
+    "74": "insurance",
+    "75": "what_is_your_name",
+    "76": "reminder",
+    "77": "where_are_you_from",
+    "78": "distance",
+    "79": "payday",
+    "80": "flight_status",
+    "81": "find_phone",
+    "82": "greeting",
+    "83": "alarm",
+    "84": "order_status",
+    "85": "confirm_reservation",
+    "86": "cook_time",
+    "87": "damaged_card",
+    "88": "reset_settings",
+    "89": "pin_change",
+    "90": "replacement_card_duration",
+    "91": "new_card",
+    "92": "roll_dice",
+    "93": "income",
+    "94": "taxes",
+    "95": "date",
+    "96": "who_made_you",
+    "97": "pto_request",
+    "98": "tire_pressure",
+    "99": "how_old_are_you",
+    "100": "rollover_401k",
+    "101": "pto_request_status",
+    "102": "how_busy",
+    "103": "application_status",
+    "104": "recipe",
+    "105": "calendar_update",
+    "106": "play_music",
+    "107": "yes",
+    "108": "direct_deposit",
+    "109": "credit_limit_change",
+    "110": "gas",
+    "111": "pay_bill",
+    "112": "ingredients_list",
+    "113": "lost_luggage",
+    "114": "goodbye",
+    "115": "what_can_i_ask_you",
+    "116": "book_hotel",
+    "117": "are_you_a_bot",
+    "118": "next_song",
+    "119": "change_speed",
+    "120": "plug_type",
+    "121": "maybe",
+    "122": "w2",
+    "123": "oil_change_when",
+    "124": "thank_you",
+    "125": "shopping_list_update",
+    "126": "pto_balance",
+    "127": "order_checks",
+    "128": "travel_alert",
+    "129": "fun_fact",
+    "130": "sync_device",
+    "131": "schedule_maintenance",
+    "132": "apr",
+    "133": "transfer",
+    "134": "ingredient_substitution",
+    "135": "calories",
+    "136": "current_location",
+    "137": "international_fees",
+    "138": "calculator",
+    "139": "definition",
+    "140": "next_holiday",
+    "141": "update_playlist",
+    "142": "mpg",
+    "143": "min_payment",
+    "144": "change_user_name",
+    "145": "restaurant_suggestion",
+    "146": "travel_notification",
+    "147": "cancel",
+    "148": "pto_used",
+    "149": "travel_suggestion",
+    "150": "change_volume"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "accept_reservations": 9,
+    "account_blocked": 2,
+    "alarm": 83,
+    "application_status": 103,
+    "apr": 132,
+    "are_you_a_bot": 117,
+    "balance": 35,
+    "bill_balance": 27,
+    "bill_due": 56,
+    "book_flight": 63,
+    "book_hotel": 116,
+    "calculator": 138,
+    "calendar": 60,
+    "calendar_update": 105,
+    "calories": 135,
+    "cancel": 147,
+    "cancel_reservation": 67,
+    "car_rental": 40,
+    "card_declined": 49,
+    "carry_on": 62,
+    "change_accent": 51,
+    "change_ai_name": 55,
+    "change_language": 29,
+    "change_speed": 119,
+    "change_user_name": 144,
+    "change_volume": 150,
+    "confirm_reservation": 85,
+    "cook_time": 86,
+    "credit_limit": 41,
+    "credit_limit_change": 109,
+    "credit_score": 69,
+    "current_location": 136,
+    "damaged_card": 87,
+    "date": 95,
+    "definition": 139,
+    "direct_deposit": 108,
+    "directions": 72,
+    "distance": 78,
+    "do_you_have_pets": 34,
+    "exchange_rate": 38,
+    "expiration_date": 44,
+    "find_phone": 81,
+    "flight_status": 80,
+    "flip_coin": 33,
+    "food_last": 54,
+    "freeze_account": 20,
+    "fun_fact": 129,
+    "gas": 110,
+    "gas_type": 8,
+    "goodbye": 114,
+    "greeting": 82,
+    "how_busy": 102,
+    "how_old_are_you": 99,
+    "improve_credit_score": 28,
+    "income": 93,
+    "ingredient_substitution": 134,
+    "ingredients_list": 112,
+    "insurance": 74,
+    "insurance_change": 64,
+    "interest_rate": 7,
+    "international_fees": 137,
+    "international_visa": 59,
+    "jump_start": 17,
+    "last_maintenance": 37,
+    "lost_luggage": 113,
+    "make_call": 25,
+    "maybe": 121,
+    "meal_suggestion": 46,
+    "meaning_of_life": 22,
+    "measurement_conversion": 31,
+    "meeting_schedule": 19,
+    "min_payment": 143,
+    "mpg": 142,
+    "new_card": 91,
+    "next_holiday": 140,
+    "next_song": 118,
+    "no": 30,
+    "nutrition_info": 1,
+    "oil_change_how": 3,
+    "oil_change_when": 123,
+    "oos": 42,
+    "order": 16,
+    "order_checks": 127,
+    "order_status": 84,
+    "pay_bill": 111,
+    "payday": 79,
+    "pin_change": 89,
+    "play_music": 106,
+    "plug_type": 120,
+    "pto_balance": 126,
+    "pto_request": 97,
+    "pto_request_status": 101,
+    "pto_used": 148,
+    "recipe": 104,
+    "redeem_rewards": 6,
+    "reminder": 76,
+    "reminder_update": 53,
+    "repeat": 13,
+    "replacement_card_duration": 90,
+    "report_fraud": 70,
+    "report_lost_card": 12,
+    "reset_settings": 88,
+    "restaurant_reservation": 23,
+    "restaurant_reviews": 0,
+    "restaurant_suggestion": 145,
+    "rewards_balance": 50,
+    "roll_dice": 92,
+    "rollover_401k": 100,
+    "routing": 45,
+    "schedule_maintenance": 131,
+    "schedule_meeting": 18,
+    "share_location": 58,
+    "shopping_list": 43,
+    "shopping_list_update": 125,
+    "smart_home": 10,
+    "spelling": 73,
+    "spending_history": 71,
+    "sync_device": 130,
+    "taxes": 94,
+    "tell_joke": 36,
+    "text": 26,
+    "thank_you": 124,
+    "time": 4,
+    "timer": 32,
+    "timezone": 66,
+    "tire_change": 47,
+    "tire_pressure": 98,
+    "todo_list": 48,
+    "todo_list_update": 65,
+    "traffic": 24,
+    "transactions": 68,
+    "transfer": 133,
+    "translate": 61,
+    "travel_alert": 128,
+    "travel_notification": 146,
+    "travel_suggestion": 149,
+    "uber": 39,
+    "update_playlist": 141,
+    "user_name": 11,
+    "vaccines": 52,
+    "w2": 122,
+    "weather": 5,
+    "what_are_your_hobbies": 15,
+    "what_can_i_ask_you": 115,
+    "what_is_your_name": 75,
+    "what_song": 21,
+    "where_are_you_from": 77,
+    "whisper_mode": 14,
+    "who_do_you_work_for": 57,
+    "who_made_you": 96,
+    "yes": 107
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

run-12/checkpoint-20034/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef3ae8b006a1eb27181fa9b110b28531f4878b49b9b39450027f12306c979f54
+size 268290900

run-12/checkpoint-20034/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8081143cd35e2983c46d504e342dcac99b07aeac8f9356ef8bfcb386630f7445
+size 536643898

run-12/checkpoint-20034/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f4832671dc909dae4ef67b1908ecdd2d91a8035ca871f57971390aa62b8d5ea
+size 14244

run-12/checkpoint-20034/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d63d59f0a622b88321e4168ab1d9091f9648ac72f53082b2ec881163e975be34
+size 1064

run-12/checkpoint-20034/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-20034/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-20034/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-20034/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1036 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 63.0,
+  "eval_steps": 500,
+  "global_step": 20034,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": 1.8778293132781982,
+      "learning_rate": 1.9683537985424778e-05,
+      "loss": 2.3675,
+      "step": 317
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7393548387096774,
+      "eval_loss": 1.7057816982269287,
+      "eval_runtime": 1.5983,
+      "eval_samples_per_second": 1939.591,
+      "eval_steps_per_second": 40.669,
+      "step": 318
+    },
+    {
+      "epoch": 1.9937106918238994,
+      "grad_norm": 1.8159964084625244,
+      "learning_rate": 1.9367075970849558e-05,
+      "loss": 1.2883,
+      "step": 634
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.8210179805755615,
+      "eval_runtime": 1.5815,
+      "eval_samples_per_second": 1960.208,
+      "eval_steps_per_second": 41.101,
+      "step": 636
+    },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": 2.137014865875244,
+      "learning_rate": 1.9050613956274335e-05,
+      "loss": 0.6277,
+      "step": 951
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9216129032258065,
+      "eval_loss": 0.4372541308403015,
+      "eval_runtime": 1.5878,
+      "eval_samples_per_second": 1952.368,
+      "eval_steps_per_second": 40.937,
+      "step": 954
+    },
+    {
+      "epoch": 3.9874213836477987,
+      "grad_norm": 1.6517659425735474,
+      "learning_rate": 1.873415194169911e-05,
+      "loss": 0.3377,
+      "step": 1268
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9374193548387096,
+      "eval_loss": 0.2971399426460266,
+      "eval_runtime": 1.5915,
+      "eval_samples_per_second": 1947.808,
+      "eval_steps_per_second": 40.841,
+      "step": 1272
+    },
+    {
+      "epoch": 4.984276729559748,
+      "grad_norm": 0.6481015086174011,
+      "learning_rate": 1.841768992712389e-05,
+      "loss": 0.223,
+      "step": 1585
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9425806451612904,
+      "eval_loss": 0.2514994442462921,
+      "eval_runtime": 1.5856,
+      "eval_samples_per_second": 1955.111,
+      "eval_steps_per_second": 40.994,
+      "step": 1590
+    },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": 0.5463038682937622,
+      "learning_rate": 1.8101227912548668e-05,
+      "loss": 0.1761,
+      "step": 1902
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.944516129032258,
+      "eval_loss": 0.23758269846439362,
+      "eval_runtime": 1.5787,
+      "eval_samples_per_second": 1963.585,
+      "eval_steps_per_second": 41.172,
+      "step": 1908
+    },
+    {
+      "epoch": 6.977987421383648,
+      "grad_norm": 0.6665645837783813,
+      "learning_rate": 1.7784765897973445e-05,
+      "loss": 0.1533,
+      "step": 2219
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.22703349590301514,
+      "eval_runtime": 1.5867,
+      "eval_samples_per_second": 1953.7,
+      "eval_steps_per_second": 40.965,
+      "step": 2226
+    },
+    {
+      "epoch": 7.9748427672955975,
+      "grad_norm": 0.3181888461112976,
+      "learning_rate": 1.7468303883398225e-05,
+      "loss": 0.1416,
+      "step": 2536
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.22196610271930695,
+      "eval_runtime": 1.584,
+      "eval_samples_per_second": 1957.081,
+      "eval_steps_per_second": 41.036,
+      "step": 2544
+    },
+    {
+      "epoch": 8.971698113207546,
+      "grad_norm": 0.31845995783805847,
+      "learning_rate": 1.7151841868823e-05,
+      "loss": 0.1339,
+      "step": 2853
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.21790818870067596,
+      "eval_runtime": 1.603,
+      "eval_samples_per_second": 1933.897,
+      "eval_steps_per_second": 40.549,
+      "step": 2862
+    },
+    {
+      "epoch": 9.968553459119496,
+      "grad_norm": 0.2679583430290222,
+      "learning_rate": 1.6835379854247778e-05,
+      "loss": 0.1284,
+      "step": 3170
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9441935483870968,
+      "eval_loss": 0.21365021169185638,
+      "eval_runtime": 1.5889,
+      "eval_samples_per_second": 1951.025,
+      "eval_steps_per_second": 40.909,
+      "step": 3180
+    },
+    {
+      "epoch": 10.965408805031446,
+      "grad_norm": 0.2746322751045227,
+      "learning_rate": 1.6518917839672558e-05,
+      "loss": 0.1247,
+      "step": 3487
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9454838709677419,
+      "eval_loss": 0.21490098536014557,
+      "eval_runtime": 1.5913,
+      "eval_samples_per_second": 1948.133,
+      "eval_steps_per_second": 40.848,
+      "step": 3498
+    },
+    {
+      "epoch": 11.962264150943396,
+      "grad_norm": 0.17256155610084534,
+      "learning_rate": 1.6202455825097335e-05,
+      "loss": 0.1222,
+      "step": 3804
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.20987379550933838,
+      "eval_runtime": 1.5991,
+      "eval_samples_per_second": 1938.633,
+      "eval_steps_per_second": 40.649,
+      "step": 3816
+    },
+    {
+      "epoch": 12.959119496855346,
+      "grad_norm": 0.18696637451648712,
+      "learning_rate": 1.5885993810522115e-05,
+      "loss": 0.1192,
+      "step": 4121
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9454838709677419,
+      "eval_loss": 0.20995916426181793,
+      "eval_runtime": 1.591,
+      "eval_samples_per_second": 1948.425,
+      "eval_steps_per_second": 40.854,
+      "step": 4134
+    },
+    {
+      "epoch": 13.955974842767295,
+      "grad_norm": 0.16687585413455963,
+      "learning_rate": 1.556953179594689e-05,
+      "loss": 0.1175,
+      "step": 4438
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9470967741935484,
+      "eval_loss": 0.20942126214504242,
+      "eval_runtime": 1.5854,
+      "eval_samples_per_second": 1955.322,
+      "eval_steps_per_second": 40.999,
+      "step": 4452
+    },
+    {
+      "epoch": 14.952830188679245,
+      "grad_norm": 0.2222217470407486,
+      "learning_rate": 1.525306978137167e-05,
+      "loss": 0.116,
+      "step": 4755
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.20641160011291504,
+      "eval_runtime": 1.5853,
+      "eval_samples_per_second": 1955.458,
+      "eval_steps_per_second": 41.002,
+      "step": 4770
+    },
+    {
+      "epoch": 15.949685534591195,
+      "grad_norm": 0.15665258467197418,
+      "learning_rate": 1.4936607766796446e-05,
+      "loss": 0.1147,
+      "step": 5072
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.944516129032258,
+      "eval_loss": 0.21185828745365143,
+      "eval_runtime": 1.5843,
+      "eval_samples_per_second": 1956.641,
+      "eval_steps_per_second": 41.026,
+      "step": 5088
+    },
+    {
+      "epoch": 16.946540880503143,
+      "grad_norm": 0.21620287001132965,
+      "learning_rate": 1.4620145752221225e-05,
+      "loss": 0.1132,
+      "step": 5389
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.20680664479732513,
+      "eval_runtime": 1.579,
+      "eval_samples_per_second": 1963.269,
+      "eval_steps_per_second": 41.165,
+      "step": 5406
+    },
+    {
+      "epoch": 17.943396226415093,
+      "grad_norm": 0.13292711973190308,
+      "learning_rate": 1.4303683737646003e-05,
+      "loss": 0.1121,
+      "step": 5706
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.20597019791603088,
+      "eval_runtime": 1.5863,
+      "eval_samples_per_second": 1954.265,
+      "eval_steps_per_second": 40.977,
+      "step": 5724
+    },
+    {
+      "epoch": 18.940251572327043,
+      "grad_norm": 0.17331534624099731,
+      "learning_rate": 1.3987221723070781e-05,
+      "loss": 0.1112,
+      "step": 6023
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.20577199757099152,
+      "eval_runtime": 1.593,
+      "eval_samples_per_second": 1946.01,
+      "eval_steps_per_second": 40.803,
+      "step": 6042
+    },
+    {
+      "epoch": 19.937106918238992,
+      "grad_norm": 0.179490864276886,
+      "learning_rate": 1.3670759708495558e-05,
+      "loss": 0.1098,
+      "step": 6340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.20335346460342407,
+      "eval_runtime": 1.5965,
+      "eval_samples_per_second": 1941.713,
+      "eval_steps_per_second": 40.713,
+      "step": 6360
+    },
+    {
+      "epoch": 20.933962264150942,
+      "grad_norm": 0.1514139026403427,
+      "learning_rate": 1.3354297693920338e-05,
+      "loss": 0.1095,
+      "step": 6657
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9467741935483871,
+      "eval_loss": 0.2035306692123413,
+      "eval_runtime": 1.5835,
+      "eval_samples_per_second": 1957.701,
+      "eval_steps_per_second": 41.049,
+      "step": 6678
+    },
+    {
+      "epoch": 21.930817610062892,
+      "grad_norm": 0.13116957247257233,
+      "learning_rate": 1.3037835679345115e-05,
+      "loss": 0.1086,
+      "step": 6974
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.20538054406642914,
+      "eval_runtime": 1.5892,
+      "eval_samples_per_second": 1950.626,
+      "eval_steps_per_second": 40.9,
+      "step": 6996
+    },
+    {
+      "epoch": 22.927672955974842,
+      "grad_norm": 0.13380903005599976,
+      "learning_rate": 1.2721373664769891e-05,
+      "loss": 0.1083,
+      "step": 7291
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.2019556611776352,
+      "eval_runtime": 1.5887,
+      "eval_samples_per_second": 1951.225,
+      "eval_steps_per_second": 40.913,
+      "step": 7314
+    },
+    {
+      "epoch": 23.92452830188679,
+      "grad_norm": 0.1300133466720581,
+      "learning_rate": 1.2404911650194671e-05,
+      "loss": 0.1077,
+      "step": 7608
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.2024136185646057,
+      "eval_runtime": 1.5799,
+      "eval_samples_per_second": 1962.185,
+      "eval_steps_per_second": 41.143,
+      "step": 7632
+    },
+    {
+      "epoch": 24.92138364779874,
+      "grad_norm": 0.14925934374332428,
+      "learning_rate": 1.2088449635619448e-05,
+      "loss": 0.107,
+      "step": 7925
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.2033989429473877,
+      "eval_runtime": 1.5892,
+      "eval_samples_per_second": 1950.644,
+      "eval_steps_per_second": 40.901,
+      "step": 7950
+    },
+    {
+      "epoch": 25.91823899371069,
+      "grad_norm": 0.11126036942005157,
+      "learning_rate": 1.1771987621044224e-05,
+      "loss": 0.1068,
+      "step": 8242
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.20260857045650482,
+      "eval_runtime": 1.5864,
+      "eval_samples_per_second": 1954.067,
+      "eval_steps_per_second": 40.972,
+      "step": 8268
+    },
+    {
+      "epoch": 26.91509433962264,
+      "grad_norm": 0.12588472664356232,
+      "learning_rate": 1.1455525606469004e-05,
+      "loss": 0.1061,
+      "step": 8559
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.2059621959924698,
+      "eval_runtime": 1.5915,
+      "eval_samples_per_second": 1947.843,
+      "eval_steps_per_second": 40.842,
+      "step": 8586
+    },
+    {
+      "epoch": 27.91194968553459,
+      "grad_norm": 0.11613517254590988,
+      "learning_rate": 1.1139063591893781e-05,
+      "loss": 0.1058,
+      "step": 8876
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.20328474044799805,
+      "eval_runtime": 1.5805,
+      "eval_samples_per_second": 1961.399,
+      "eval_steps_per_second": 41.126,
+      "step": 8904
+    },
+    {
+      "epoch": 28.90880503144654,
+      "grad_norm": 0.10675258934497833,
+      "learning_rate": 1.082260157731856e-05,
+      "loss": 0.1054,
+      "step": 9193
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.20192357897758484,
+      "eval_runtime": 1.5798,
+      "eval_samples_per_second": 1962.226,
+      "eval_steps_per_second": 41.143,
+      "step": 9222
+    },
+    {
+      "epoch": 29.90566037735849,
+      "grad_norm": 0.16315770149230957,
+      "learning_rate": 1.0506139562743338e-05,
+      "loss": 0.105,
+      "step": 9510
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.19851729273796082,
+      "eval_runtime": 1.5919,
+      "eval_samples_per_second": 1947.418,
+      "eval_steps_per_second": 40.833,
+      "step": 9540
+    },
+    {
+      "epoch": 30.90251572327044,
+      "grad_norm": 0.1677229255437851,
+      "learning_rate": 1.0189677548168116e-05,
+      "loss": 0.1049,
+      "step": 9827
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.20081491768360138,
+      "eval_runtime": 1.5792,
+      "eval_samples_per_second": 1963.049,
+      "eval_steps_per_second": 41.161,
+      "step": 9858
+    },
+    {
+      "epoch": 31.89937106918239,
+      "grad_norm": 0.10275265574455261,
+      "learning_rate": 9.873215533592893e-06,
+      "loss": 0.1045,
+      "step": 10144
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.19913455843925476,
+      "eval_runtime": 1.5774,
+      "eval_samples_per_second": 1965.226,
+      "eval_steps_per_second": 41.206,
+      "step": 10176
+    },
+    {
+      "epoch": 32.89622641509434,
+      "grad_norm": 0.09303146600723267,
+      "learning_rate": 9.556753519017671e-06,
+      "loss": 0.1041,
+      "step": 10461
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.2002706229686737,
+      "eval_runtime": 1.5858,
+      "eval_samples_per_second": 1954.895,
+      "eval_steps_per_second": 40.99,
+      "step": 10494
+    },
+    {
+      "epoch": 33.893081761006286,
+      "grad_norm": 0.10777819156646729,
+      "learning_rate": 9.24029150444245e-06,
+      "loss": 0.104,
+      "step": 10778
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9474193548387096,
+      "eval_loss": 0.20254099369049072,
+      "eval_runtime": 1.5867,
+      "eval_samples_per_second": 1953.68,
+      "eval_steps_per_second": 40.964,
+      "step": 10812
+    },
+    {
+      "epoch": 34.88993710691824,
+      "grad_norm": 0.12207500636577606,
+      "learning_rate": 8.923829489867226e-06,
+      "loss": 0.1039,
+      "step": 11095
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.1988000124692917,
+      "eval_runtime": 1.5822,
+      "eval_samples_per_second": 1959.306,
+      "eval_steps_per_second": 41.082,
+      "step": 11130
+    },
+    {
+      "epoch": 35.886792452830186,
+      "grad_norm": 0.11546960473060608,
+      "learning_rate": 8.607367475292004e-06,
+      "loss": 0.1036,
+      "step": 11412
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9480645161290323,
+      "eval_loss": 0.2011515349149704,
+      "eval_runtime": 1.5802,
+      "eval_samples_per_second": 1961.837,
+      "eval_steps_per_second": 41.135,
+      "step": 11448
+    },
+    {
+      "epoch": 36.88364779874214,
+      "grad_norm": 0.11202769726514816,
+      "learning_rate": 8.290905460716781e-06,
+      "loss": 0.1037,
+      "step": 11729
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.19893702864646912,
+      "eval_runtime": 1.5862,
+      "eval_samples_per_second": 1954.403,
+      "eval_steps_per_second": 40.979,
+      "step": 11766
+    },
+    {
+      "epoch": 37.880503144654085,
+      "grad_norm": 0.1050727367401123,
+      "learning_rate": 7.97444344614156e-06,
+      "loss": 0.1033,
+      "step": 12046
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.1999415010213852,
+      "eval_runtime": 1.5888,
+      "eval_samples_per_second": 1951.155,
+      "eval_steps_per_second": 40.911,
+      "step": 12084
+    },
+    {
+      "epoch": 38.87735849056604,
+      "grad_norm": 0.11297059059143066,
+      "learning_rate": 7.657981431566338e-06,
+      "loss": 0.1028,
+      "step": 12363
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9487096774193549,
+      "eval_loss": 0.20117522776126862,
+      "eval_runtime": 1.5892,
+      "eval_samples_per_second": 1950.712,
+      "eval_steps_per_second": 40.902,
+      "step": 12402
+    },
+    {
+      "epoch": 39.874213836477985,
+      "grad_norm": 0.10458573698997498,
+      "learning_rate": 7.341519416991115e-06,
+      "loss": 0.1029,
+      "step": 12680
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.1978650689125061,
+      "eval_runtime": 1.5862,
+      "eval_samples_per_second": 1954.371,
+      "eval_steps_per_second": 40.979,
+      "step": 12720
+    },
+    {
+      "epoch": 40.87106918238994,
+      "grad_norm": 0.1049540638923645,
+      "learning_rate": 7.025057402415893e-06,
+      "loss": 0.1027,
+      "step": 12997
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19904379546642303,
+      "eval_runtime": 1.5886,
+      "eval_samples_per_second": 1951.406,
+      "eval_steps_per_second": 40.917,
+      "step": 13038
+    },
+    {
+      "epoch": 41.867924528301884,
+      "grad_norm": 0.08443975448608398,
+      "learning_rate": 6.708595387840672e-06,
+      "loss": 0.1024,
+      "step": 13314
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.947741935483871,
+      "eval_loss": 0.1994916945695877,
+      "eval_runtime": 1.5833,
+      "eval_samples_per_second": 1957.947,
+      "eval_steps_per_second": 41.054,
+      "step": 13356
+    },
+    {
+      "epoch": 42.86477987421384,
+      "grad_norm": 0.10657757520675659,
+      "learning_rate": 6.392133373265449e-06,
+      "loss": 0.1024,
+      "step": 13631
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19779588282108307,
+      "eval_runtime": 1.6024,
+      "eval_samples_per_second": 1934.587,
+      "eval_steps_per_second": 40.564,
+      "step": 13674
+    },
+    {
+      "epoch": 43.861635220125784,
+      "grad_norm": 0.09864117950201035,
+      "learning_rate": 6.0756713586902274e-06,
+      "loss": 0.1023,
+      "step": 13948
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.1969560831785202,
+      "eval_runtime": 1.5862,
+      "eval_samples_per_second": 1954.296,
+      "eval_steps_per_second": 40.977,
+      "step": 13992
+    },
+    {
+      "epoch": 44.85849056603774,
+      "grad_norm": 0.09396997094154358,
+      "learning_rate": 5.759209344115006e-06,
+      "loss": 0.1022,
+      "step": 14265
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.9487096774193549,
+      "eval_loss": 0.19702459871768951,
+      "eval_runtime": 1.6077,
+      "eval_samples_per_second": 1928.217,
+      "eval_steps_per_second": 40.43,
+      "step": 14310
+    },
+    {
+      "epoch": 45.855345911949684,
+      "grad_norm": 0.09406633675098419,
+      "learning_rate": 5.442747329539782e-06,
+      "loss": 0.1018,
+      "step": 14582
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.1965072900056839,
+      "eval_runtime": 1.5917,
+      "eval_samples_per_second": 1947.581,
+      "eval_steps_per_second": 40.836,
+      "step": 14628
+    },
+    {
+      "epoch": 46.85220125786164,
+      "grad_norm": 0.11108892410993576,
+      "learning_rate": 5.126285314964561e-06,
+      "loss": 0.1018,
+      "step": 14899
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9512903225806452,
+      "eval_loss": 0.1974688321352005,
+      "eval_runtime": 1.5999,
+      "eval_samples_per_second": 1937.681,
+      "eval_steps_per_second": 40.629,
+      "step": 14946
+    },
+    {
+      "epoch": 47.84905660377358,
+      "grad_norm": 0.09912719577550888,
+      "learning_rate": 4.809823300389338e-06,
+      "loss": 0.1017,
+      "step": 15216
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.19748900830745697,
+      "eval_runtime": 1.5807,
+      "eval_samples_per_second": 1961.164,
+      "eval_steps_per_second": 41.121,
+      "step": 15264
+    },
+    {
+      "epoch": 48.84591194968554,
+      "grad_norm": 0.10613682121038437,
+      "learning_rate": 4.4933612858141165e-06,
+      "loss": 0.1018,
+      "step": 15533
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9516129032258065,
+      "eval_loss": 0.19778111577033997,
+      "eval_runtime": 1.5919,
+      "eval_samples_per_second": 1947.314,
+      "eval_steps_per_second": 40.831,
+      "step": 15582
+    },
+    {
+      "epoch": 49.84276729559748,
+      "grad_norm": 0.12485523521900177,
+      "learning_rate": 4.176899271238895e-06,
+      "loss": 0.1014,
+      "step": 15850
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9509677419354838,
+      "eval_loss": 0.19711264967918396,
+      "eval_runtime": 1.5852,
+      "eval_samples_per_second": 1955.593,
+      "eval_steps_per_second": 41.004,
+      "step": 15900
+    },
+    {
+      "epoch": 50.839622641509436,
+      "grad_norm": 0.10598266869783401,
+      "learning_rate": 3.860437256663672e-06,
+      "loss": 0.1013,
+      "step": 16167
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.19864656031131744,
+      "eval_runtime": 1.5959,
+      "eval_samples_per_second": 1942.538,
+      "eval_steps_per_second": 40.731,
+      "step": 16218
+    },
+    {
+      "epoch": 51.83647798742138,
+      "grad_norm": 0.09576704353094101,
+      "learning_rate": 3.5439752420884498e-06,
+      "loss": 0.1014,
+      "step": 16484
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.1968703716993332,
+      "eval_runtime": 1.5849,
+      "eval_samples_per_second": 1955.923,
+      "eval_steps_per_second": 41.011,
+      "step": 16536
+    },
+    {
+      "epoch": 52.833333333333336,
+      "grad_norm": 0.08170927315950394,
+      "learning_rate": 3.2275132275132277e-06,
+      "loss": 0.1013,
+      "step": 16801
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.19717678427696228,
+      "eval_runtime": 1.5789,
+      "eval_samples_per_second": 1963.405,
+      "eval_steps_per_second": 41.168,
+      "step": 16854
+    },
+    {
+      "epoch": 53.83018867924528,
+      "grad_norm": 0.10985760390758514,
+      "learning_rate": 2.911051212938006e-06,
+      "loss": 0.1012,
+      "step": 17118
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9496774193548387,
+      "eval_loss": 0.19691714644432068,
+      "eval_runtime": 1.5823,
+      "eval_samples_per_second": 1959.168,
+      "eval_steps_per_second": 41.079,
+      "step": 17172
+    },
+    {
+      "epoch": 54.827044025157235,
+      "grad_norm": 0.09639162570238113,
+      "learning_rate": 2.5945891983627835e-06,
+      "loss": 0.1012,
+      "step": 17435
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19801288843154907,
+      "eval_runtime": 1.5937,
+      "eval_samples_per_second": 1945.19,
+      "eval_steps_per_second": 40.786,
+      "step": 17490
+    },
+    {
+      "epoch": 55.82389937106918,
+      "grad_norm": 0.14052703976631165,
+      "learning_rate": 2.2781271837875614e-06,
+      "loss": 0.1012,
+      "step": 17752
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9493548387096774,
+      "eval_loss": 0.19718502461910248,
+      "eval_runtime": 1.5839,
+      "eval_samples_per_second": 1957.213,
+      "eval_steps_per_second": 41.038,
+      "step": 17808
+    },
+    {
+      "epoch": 56.820754716981135,
+      "grad_norm": 0.1034596860408783,
+      "learning_rate": 1.9616651692123393e-06,
+      "loss": 0.1008,
+      "step": 18069
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19776946306228638,
+      "eval_runtime": 1.5849,
+      "eval_samples_per_second": 1955.947,
+      "eval_steps_per_second": 41.012,
+      "step": 18126
+    },
+    {
+      "epoch": 57.81761006289308,
+      "grad_norm": 0.09913316369056702,
+      "learning_rate": 1.645203154637117e-06,
+      "loss": 0.101,
+      "step": 18386
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.19688402116298676,
+      "eval_runtime": 1.5713,
+      "eval_samples_per_second": 1972.827,
+      "eval_steps_per_second": 41.366,
+      "step": 18444
+    },
+    {
+      "epoch": 58.814465408805034,
+      "grad_norm": 0.10723335295915604,
+      "learning_rate": 1.3287411400618948e-06,
+      "loss": 0.1008,
+      "step": 18703
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.95,
+      "eval_loss": 0.1969434767961502,
+      "eval_runtime": 1.6034,
+      "eval_samples_per_second": 1933.451,
+      "eval_steps_per_second": 40.54,
+      "step": 18762
+    },
+    {
+      "epoch": 59.81132075471698,
+      "grad_norm": 0.09432651847600937,
+      "learning_rate": 1.0122791254866727e-06,
+      "loss": 0.101,
+      "step": 19020
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.19751064479351044,
+      "eval_runtime": 1.5841,
+      "eval_samples_per_second": 1956.971,
+      "eval_steps_per_second": 41.033,
+      "step": 19080
+    },
+    {
+      "epoch": 60.808176100628934,
+      "grad_norm": 0.11219661682844162,
+      "learning_rate": 6.958171109114506e-07,
+      "loss": 0.1008,
+      "step": 19337
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.9503225806451613,
+      "eval_loss": 0.1971895694732666,
+      "eval_runtime": 1.582,
+      "eval_samples_per_second": 1959.513,
+      "eval_steps_per_second": 41.087,
+      "step": 19398
+    },
+    {
+      "epoch": 61.80503144654088,
+      "grad_norm": 0.10517913103103638,
+      "learning_rate": 3.7935509633622843e-07,
+      "loss": 0.1009,
+      "step": 19654
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.9506451612903226,
+      "eval_loss": 0.19690674543380737,
+      "eval_runtime": 1.5839,
+      "eval_samples_per_second": 1957.163,
+      "eval_steps_per_second": 41.037,
+      "step": 19716
+    },
+    {
+      "epoch": 62.801886792452834,
+      "grad_norm": 0.10251986980438232,
+      "learning_rate": 6.289308176100629e-08,
+      "loss": 0.1008,
+      "step": 19971
+    }
+  ],
+  "logging_steps": 317,
+  "max_steps": 20034,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 63,
+  "save_steps": 1000000000.0,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5194179875913420.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.4920075736426351,
+    "num_train_epochs": 63,
+    "temperature": 4
+  }
+}

run-12/checkpoint-20034/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27e5c70a607e87b053e47e411669b95ad09cdf8b3876ae9671e3e06c72f4f7f4
+size 5304

run-12/checkpoint-20034/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-12402/config.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "restaurant_reviews",
+    "1": "nutrition_info",
+    "2": "account_blocked",
+    "3": "oil_change_how",
+    "4": "time",
+    "5": "weather",
+    "6": "redeem_rewards",
+    "7": "interest_rate",
+    "8": "gas_type",
+    "9": "accept_reservations",
+    "10": "smart_home",
+    "11": "user_name",
+    "12": "report_lost_card",
+    "13": "repeat",
+    "14": "whisper_mode",
+    "15": "what_are_your_hobbies",
+    "16": "order",
+    "17": "jump_start",
+    "18": "schedule_meeting",
+    "19": "meeting_schedule",
+    "20": "freeze_account",
+    "21": "what_song",
+    "22": "meaning_of_life",
+    "23": "restaurant_reservation",
+    "24": "traffic",
+    "25": "make_call",
+    "26": "text",
+    "27": "bill_balance",
+    "28": "improve_credit_score",
+    "29": "change_language",
+    "30": "no",
+    "31": "measurement_conversion",
+    "32": "timer",
+    "33": "flip_coin",
+    "34": "do_you_have_pets",
+    "35": "balance",
+    "36": "tell_joke",
+    "37": "last_maintenance",
+    "38": "exchange_rate",
+    "39": "uber",
+    "40": "car_rental",
+    "41": "credit_limit",
+    "42": "oos",
+    "43": "shopping_list",
+    "44": "expiration_date",
+    "45": "routing",
+    "46": "meal_suggestion",
+    "47": "tire_change",
+    "48": "todo_list",
+    "49": "card_declined",
+    "50": "rewards_balance",
+    "51": "change_accent",
+    "52": "vaccines",
+    "53": "reminder_update",
+    "54": "food_last",
+    "55": "change_ai_name",
+    "56": "bill_due",
+    "57": "who_do_you_work_for",
+    "58": "share_location",
+    "59": "international_visa",
+    "60": "calendar",
+    "61": "translate",
+    "62": "carry_on",
+    "63": "book_flight",
+    "64": "insurance_change",
+    "65": "todo_list_update",
+    "66": "timezone",
+    "67": "cancel_reservation",
+    "68": "transactions",
+    "69": "credit_score",
+    "70": "report_fraud",
+    "71": "spending_history",
+    "72": "directions",
+    "73": "spelling",
+    "74": "insurance",
+    "75": "what_is_your_name",
+    "76": "reminder",
+    "77": "where_are_you_from",
+    "78": "distance",
+    "79": "payday",
+    "80": "flight_status",
+    "81": "find_phone",
+    "82": "greeting",
+    "83": "alarm",
+    "84": "order_status",
+    "85": "confirm_reservation",
+    "86": "cook_time",
+    "87": "damaged_card",
+    "88": "reset_settings",
+    "89": "pin_change",
+    "90": "replacement_card_duration",
+    "91": "new_card",
+    "92": "roll_dice",
+    "93": "income",
+    "94": "taxes",
+    "95": "date",
+    "96": "who_made_you",
+    "97": "pto_request",
+    "98": "tire_pressure",
+    "99": "how_old_are_you",
+    "100": "rollover_401k",
+    "101": "pto_request_status",
+    "102": "how_busy",
+    "103": "application_status",
+    "104": "recipe",
+    "105": "calendar_update",
+    "106": "play_music",
+    "107": "yes",
+    "108": "direct_deposit",
+    "109": "credit_limit_change",
+    "110": "gas",
+    "111": "pay_bill",
+    "112": "ingredients_list",
+    "113": "lost_luggage",
+    "114": "goodbye",
+    "115": "what_can_i_ask_you",
+    "116": "book_hotel",
+    "117": "are_you_a_bot",
+    "118": "next_song",
+    "119": "change_speed",
+    "120": "plug_type",
+    "121": "maybe",
+    "122": "w2",
+    "123": "oil_change_when",
+    "124": "thank_you",
+    "125": "shopping_list_update",
+    "126": "pto_balance",
+    "127": "order_checks",
+    "128": "travel_alert",
+    "129": "fun_fact",
+    "130": "sync_device",
+    "131": "schedule_maintenance",
+    "132": "apr",
+    "133": "transfer",
+    "134": "ingredient_substitution",
+    "135": "calories",
+    "136": "current_location",
+    "137": "international_fees",
+    "138": "calculator",
+    "139": "definition",
+    "140": "next_holiday",
+    "141": "update_playlist",
+    "142": "mpg",
+    "143": "min_payment",
+    "144": "change_user_name",
+    "145": "restaurant_suggestion",
+    "146": "travel_notification",
+    "147": "cancel",
+    "148": "pto_used",
+    "149": "travel_suggestion",
+    "150": "change_volume"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "accept_reservations": 9,
+    "account_blocked": 2,
+    "alarm": 83,
+    "application_status": 103,
+    "apr": 132,
+    "are_you_a_bot": 117,
+    "balance": 35,
+    "bill_balance": 27,
+    "bill_due": 56,
+    "book_flight": 63,
+    "book_hotel": 116,
+    "calculator": 138,
+    "calendar": 60,
+    "calendar_update": 105,
+    "calories": 135,
+    "cancel": 147,
+    "cancel_reservation": 67,
+    "car_rental": 40,
+    "card_declined": 49,
+    "carry_on": 62,
+    "change_accent": 51,
+    "change_ai_name": 55,
+    "change_language": 29,
+    "change_speed": 119,
+    "change_user_name": 144,
+    "change_volume": 150,
+    "confirm_reservation": 85,
+    "cook_time": 86,
+    "credit_limit": 41,
+    "credit_limit_change": 109,
+    "credit_score": 69,
+    "current_location": 136,
+    "damaged_card": 87,
+    "date": 95,
+    "definition": 139,
+    "direct_deposit": 108,
+    "directions": 72,
+    "distance": 78,
+    "do_you_have_pets": 34,
+    "exchange_rate": 38,
+    "expiration_date": 44,
+    "find_phone": 81,
+    "flight_status": 80,
+    "flip_coin": 33,
+    "food_last": 54,
+    "freeze_account": 20,
+    "fun_fact": 129,
+    "gas": 110,
+    "gas_type": 8,
+    "goodbye": 114,
+    "greeting": 82,
+    "how_busy": 102,
+    "how_old_are_you": 99,
+    "improve_credit_score": 28,
+    "income": 93,
+    "ingredient_substitution": 134,
+    "ingredients_list": 112,
+    "insurance": 74,
+    "insurance_change": 64,
+    "interest_rate": 7,
+    "international_fees": 137,
+    "international_visa": 59,
+    "jump_start": 17,
+    "last_maintenance": 37,
+    "lost_luggage": 113,
+    "make_call": 25,
+    "maybe": 121,
+    "meal_suggestion": 46,
+    "meaning_of_life": 22,
+    "measurement_conversion": 31,
+    "meeting_schedule": 19,
+    "min_payment": 143,
+    "mpg": 142,
+    "new_card": 91,
+    "next_holiday": 140,
+    "next_song": 118,
+    "no": 30,
+    "nutrition_info": 1,
+    "oil_change_how": 3,
+    "oil_change_when": 123,
+    "oos": 42,
+    "order": 16,
+    "order_checks": 127,
+    "order_status": 84,
+    "pay_bill": 111,
+    "payday": 79,
+    "pin_change": 89,
+    "play_music": 106,
+    "plug_type": 120,
+    "pto_balance": 126,
+    "pto_request": 97,
+    "pto_request_status": 101,
+    "pto_used": 148,
+    "recipe": 104,
+    "redeem_rewards": 6,
+    "reminder": 76,
+    "reminder_update": 53,
+    "repeat": 13,
+    "replacement_card_duration": 90,
+    "report_fraud": 70,
+    "report_lost_card": 12,
+    "reset_settings": 88,
+    "restaurant_reservation": 23,
+    "restaurant_reviews": 0,
+    "restaurant_suggestion": 145,
+    "rewards_balance": 50,
+    "roll_dice": 92,
+    "rollover_401k": 100,
+    "routing": 45,
+    "schedule_maintenance": 131,
+    "schedule_meeting": 18,
+    "share_location": 58,
+    "shopping_list": 43,
+    "shopping_list_update": 125,
+    "smart_home": 10,
+    "spelling": 73,
+    "spending_history": 71,
+    "sync_device": 130,
+    "taxes": 94,
+    "tell_joke": 36,
+    "text": 26,
+    "thank_you": 124,
+    "time": 4,
+    "timer": 32,
+    "timezone": 66,
+    "tire_change": 47,
+    "tire_pressure": 98,
+    "todo_list": 48,
+    "todo_list_update": 65,
+    "traffic": 24,
+    "transactions": 68,
+    "transfer": 133,
+    "translate": 61,
+    "travel_alert": 128,
+    "travel_notification": 146,
+    "travel_suggestion": 149,
+    "uber": 39,
+    "update_playlist": 141,
+    "user_name": 11,
+    "vaccines": 52,
+    "w2": 122,
+    "weather": 5,
+    "what_are_your_hobbies": 15,
+    "what_can_i_ask_you": 115,
+    "what_is_your_name": 75,
+    "what_song": 21,
+    "where_are_you_from": 77,
+    "whisper_mode": 14,
+    "who_do_you_work_for": 57,
+    "who_made_you": 96,
+    "yes": 107
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

run-2/checkpoint-12402/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad3a7f5ea7ebc74dc8716d8f00c605df72236c5c013949d1aea504f2db8ae81f
+size 268290900

run-2/checkpoint-12402/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:241ceac887a0e24c2eeb83c59a904fdaf4ea2410a1dd2a9359dadb728a4a0e12
+size 536643898

run-2/checkpoint-12402/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5ea40b3ef1c8cbccb37bb4ed27c88154d280adaa70c2f4b06de9a9a00f45c4c
+size 14244

run-2/checkpoint-12402/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2cc569715520ce44b4e7b901367f7e4bb95b8f9aabf6d6fb54daa7769f31e30
+size 1064