prasadmathangi2233
/

instruct

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 2994,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019989878688605225,
+      "loss": 1.6802,
+      "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019959535242609772,
+      "loss": 1.5884,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001990903108510678,
+      "loss": 1.5617,
+      "step": 150
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019838468449757217,
+      "loss": 1.5139,
+      "step": 200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019747990173842118,
+      "loss": 1.5259,
+      "step": 250
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019637779409122493,
+      "loss": 1.4783,
+      "step": 300
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00019508059251092087,
+      "loss": 1.5202,
+      "step": 350
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001935909228737363,
+      "loss": 1.7727,
+      "step": 400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00019191180066172584,
+      "loss": 1.8033,
+      "step": 450
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00019004662485864503,
+      "loss": 1.7674,
+      "step": 500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00018799917106951565,
+      "loss": 1.3627,
+      "step": 550
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00018577358387781095,
+      "loss": 1.3747,
+      "step": 600
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001833743684557316,
+      "loss": 1.3806,
+      "step": 650
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00018080638144455567,
+      "loss": 1.3878,
+      "step": 700
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00017807482112352263,
+      "loss": 1.3824,
+      "step": 750
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001751852168871531,
+      "loss": 1.4058,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00017214341805230388,
+      "loss": 1.4329,
+      "step": 850
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0001689555820176165,
+      "loss": 1.4325,
+      "step": 900
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00016562816179932748,
+      "loss": 1.4175,
+      "step": 950
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001621678929686709,
+      "loss": 1.4092,
+      "step": 1000
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00015858178001731577,
+      "loss": 0.969,
+      "step": 1050
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.00015487708217843755,
+      "loss": 0.9795,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0001510612987321264,
+      "loss": 0.991,
+      "step": 1150
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00014714215382487735,
+      "loss": 1.0001,
+      "step": 1200
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00014312758083389192,
+      "loss": 1.0092,
+      "step": 1250
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00013902570630784184,
+      "loss": 1.0274,
+      "step": 1300
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00013484483351660324,
+      "loss": 1.0369,
+      "step": 1350
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00013059342564326052,
+      "loss": 1.043,
+      "step": 1400
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00012628008865240412,
+      "loss": 1.0355,
+      "step": 1450
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 0.00012191355386940109,
+      "loss": 1.0137,
+      "step": 1500
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 0.0001175912552720942,
+      "loss": 0.5538,
+      "step": 1550
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.00011314555233691659,
+      "loss": 0.5644,
+      "step": 1600
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.00010867323935600735,
+      "loss": 0.5862,
+      "step": 1650
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.00010418336946383338,
+      "loss": 0.595,
+      "step": 1700
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 9.968503133465485e-05,
+      "loss": 0.5974,
+      "step": 1750
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 9.518733078466463e-05,
+      "loss": 0.5951,
+      "step": 1800
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 9.069937233942807e-05,
+      "loss": 0.5998,
+      "step": 1850
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.623024080393546e-05,
+      "loss": 0.5986,
+      "step": 1900
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 8.178898287257368e-05,
+      "loss": 0.5888,
+      "step": 1950
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 7.738458881624441e-05,
+      "loss": 0.576,
+      "step": 2000
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 7.302597428369742e-05,
+      "loss": 0.271,
+      "step": 2050
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 6.872196225391955e-05,
+      "loss": 0.2735,
+      "step": 2100
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 6.448126517611075e-05,
+      "loss": 0.2818,
+      "step": 2150
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 6.031246733340219e-05,
+      "loss": 0.2814,
+      "step": 2200
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 5.6224007466015405e-05,
+      "loss": 0.277,
+      "step": 2250
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 5.2224161689038975e-05,
+      "loss": 0.275,
+      "step": 2300
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 4.8321026739400875e-05,
+      "loss": 0.2763,
+      "step": 2350
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 4.4522503585949327e-05,
+      "loss": 0.2766,
+      "step": 2400
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 4.083628143581959e-05,
+      "loss": 0.2775,
+      "step": 2450
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 3.726982216946203e-05,
+      "loss": 0.264,
+      "step": 2500
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 3.383034523583898e-05,
+      "loss": 0.1316,
+      "step": 2550
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 3.052481303836647e-05,
+      "loss": 0.1326,
+      "step": 2600
+    },
+    {
+      "epoch": 5.31,
+      "learning_rate": 2.7359916841183754e-05,
+      "loss": 0.1349,
+      "step": 2650
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 2.4342063224279566e-05,
+      "loss": 0.1344,
+      "step": 2700
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 2.1477361114894035e-05,
+      "loss": 0.1326,
+      "step": 2750
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 1.8771609421447622e-05,
+      "loss": 0.1278,
+      "step": 2800
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 1.6230285295029556e-05,
+      "loss": 0.129,
+      "step": 2850
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 1.3858533042207633e-05,
+      "loss": 0.1282,
+      "step": 2900
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 1.166115371160218e-05,
+      "loss": 0.1285,
+      "step": 2950
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 3491,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 2.316912930642985e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}