Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/scheduler.pt +1 -1
checkpoint-100/trainer_state.json +66 -66
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "k_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "k_proj",
+    "o_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d31aa50d03f21c55365c2e7dc36ad5fd2f5538b6a67f01a4fe4caa60de043c06
 size 54560368

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb566d484b0610d6187a6fbc6101a35d7772ec94ff1d072f6a19043b8154fc96
 size 54560368

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af3be30a2128176cc41b81bad3e48de0cea8155454a888fd51470c651d33177b
 size 109267450

 version https://git-lfs.github.com/spec/v1
+oid sha256:0526d3102e720416875bf7ce7c44f8adceb2bcb24599db29507f3dba1ceda178
 size 109267450

checkpoint-100/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99cdf514d195ace594a247b30bc61c0b0ccb08b6431f56f75e4d6b9fc7392b92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:081169a810650fc9c95f030ebe03523d399ed7bbdce143b990084dbe080d837c
 size 1064

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.4733360707759857,
   "best_model_checkpoint": "./mixstral/05-04-24-Weni-WeniGPT-Agents-Mixstral-Instruct-2.0.1-KTO_KTO with Agents 1.2.0 dataset and Mixstral model, with tokenization zephyr chat template-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": Infinity,
-      "kl": 16.759851455688477,
-      "learning_rate": 0.00018,
-      "logps/chosen": -217.2803497314453,
-      "logps/rejected": -266.78955078125,
-      "loss": 0.4135,
-      "rewards/chosen": 2.8302645683288574,
-      "rewards/margins": 1.9116979837417603,
-      "rewards/rejected": 1.01555597782135,
       "step": 20
     },
     {
       "epoch": 0.27,
-      "grad_norm": 4.954351902008057,
-      "kl": 0.40393954515457153,
-      "learning_rate": 0.00015142857142857143,
-      "logps/chosen": -323.0667419433594,
-      "logps/rejected": -331.9349365234375,
-      "loss": 0.427,
-      "rewards/chosen": -5.341065883636475,
-      "rewards/margins": 2.56813383102417,
-      "rewards/rejected": -8.01456356048584,
       "step": 40
     },
     {
       "epoch": 0.34,
-      "eval_kl": 0.31787964701652527,
-      "eval_logps/chosen": -276.96771240234375,
-      "eval_logps/rejected": -285.83453369140625,
-      "eval_loss": 0.4442897439002991,
-      "eval_rewards/chosen": -2.62730073928833,
-      "eval_rewards/margins": 1.0439932346343994,
-      "eval_rewards/rejected": -3.7775051593780518,
-      "eval_runtime": 357.2813,
-      "eval_samples_per_second": 0.84,
-      "eval_steps_per_second": 0.21,
       "step": 50
     },
     {
       "epoch": 0.41,
-      "grad_norm": 1.9756174879148602e-05,
-      "kl": 0.9693483114242554,
-      "learning_rate": 0.00012571428571428572,
-      "logps/chosen": -549.1575927734375,
-      "logps/rejected": -583.3649291992188,
-      "loss": 0.4167,
-      "rewards/chosen": -29.825927734375,
-      "rewards/margins": 3.2253201007843018,
-      "rewards/rejected": -32.24267578125,
       "step": 60
     },
     {
       "epoch": 0.55,
-      "grad_norm": 1.4999230870671454e-06,
-      "kl": 0.0,
-      "learning_rate": 9.714285714285715e-05,
-      "logps/chosen": -1577.5938720703125,
-      "logps/rejected": -1497.0914306640625,
-      "loss": 0.4625,
-      "rewards/chosen": -132.58737182617188,
-      "rewards/margins": -8.486028671264648,
-      "rewards/rejected": -123.95598602294922,
       "step": 80
     },
     {
       "epoch": 0.68,
-      "grad_norm": 0.0,
-      "kl": 0.0,
-      "learning_rate": 6.857142857142858e-05,
-      "logps/chosen": -1709.744140625,
-      "logps/rejected": -1653.6820068359375,
-      "loss": 0.425,
-      "rewards/chosen": -144.38365173339844,
-      "rewards/margins": -5.729578971862793,
-      "rewards/rejected": -138.68692016601562,
       "step": 100
     },
     {
       "epoch": 0.68,
-      "eval_kl": 0.0,
-      "eval_logps/chosen": -1588.1917724609375,
-      "eval_logps/rejected": -1473.307373046875,
-      "eval_loss": 0.4733360707759857,
-      "eval_rewards/chosen": -133.74969482421875,
-      "eval_rewards/margins": -10.205015182495117,
-      "eval_rewards/rejected": -122.52478790283203,
-      "eval_runtime": 356.0942,
-      "eval_samples_per_second": 0.842,
-      "eval_steps_per_second": 0.211,
       "step": 100
     }
   ],

 {
+  "best_metric": 0.3698837161064148,
   "best_model_checkpoint": "./mixstral/05-04-24-Weni-WeniGPT-Agents-Mixstral-Instruct-2.0.1-KTO_KTO with Agents 1.2.0 dataset and Mixstral model, with tokenization zephyr chat template-3_max_steps-145_batch_16_2024-04-05_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 4.052237033843994,
+      "kl": 10.023146629333496,
+      "learning_rate": 0.0001785714285714286,
+      "logps/chosen": -232.72720336914062,
+      "logps/rejected": -241.88575744628906,
+      "loss": 0.4316,
+      "rewards/chosen": 1.2224007844924927,
+      "rewards/margins": 1.0828871726989746,
+      "rewards/rejected": 0.279308944940567,
       "step": 20
     },
     {
       "epoch": 0.27,
+      "grad_norm": 2.734194278717041,
+      "kl": 10.954643249511719,
+      "learning_rate": 0.00015000000000000001,
+      "logps/chosen": -228.13992309570312,
+      "logps/rejected": -270.3298034667969,
+      "loss": 0.4077,
+      "rewards/chosen": 1.687286615371704,
+      "rewards/margins": 1.9949144124984741,
+      "rewards/rejected": -0.2780403196811676,
       "step": 40
     },
     {
       "epoch": 0.34,
+      "eval_kl": 0.0,
+      "eval_logps/chosen": -315.1575927734375,
+      "eval_logps/rejected": -328.9866027832031,
+      "eval_loss": 0.466037392616272,
+      "eval_rewards/chosen": -7.166321754455566,
+      "eval_rewards/margins": 2.8236684799194336,
+      "eval_rewards/rejected": -10.133459091186523,
+      "eval_runtime": 353.626,
+      "eval_samples_per_second": 0.848,
+      "eval_steps_per_second": 0.212,
       "step": 50
     },
     {
       "epoch": 0.41,
+      "grad_norm": 1.9602097272872925,
+      "kl": 1.5916956663131714,
+      "learning_rate": 0.00012142857142857143,
+      "logps/chosen": -268.18023681640625,
+      "logps/rejected": -304.6438903808594,
+      "loss": 0.4028,
+      "rewards/chosen": -2.1896169185638428,
+      "rewards/margins": 4.930688858032227,
+      "rewards/rejected": -6.980587482452393,
       "step": 60
     },
     {
       "epoch": 0.55,
+      "grad_norm": 1.9362258911132812,
+      "kl": 3.6249618530273438,
+      "learning_rate": 9.285714285714286e-05,
+      "logps/chosen": -263.2818603515625,
+      "logps/rejected": -308.0414733886719,
+      "loss": 0.3873,
+      "rewards/chosen": -0.1703629493713379,
+      "rewards/margins": 5.487633228302002,
+      "rewards/rejected": -5.359496116638184,
       "step": 80
     },
     {
       "epoch": 0.68,
+      "grad_norm": 2.322431802749634,
+      "kl": 0.9517351388931274,
+      "learning_rate": 6.428571428571429e-05,
+      "logps/chosen": -240.21408081054688,
+      "logps/rejected": -329.3759765625,
+      "loss": 0.3351,
+      "rewards/chosen": 0.027771174907684326,
+      "rewards/margins": 7.602840423583984,
+      "rewards/rejected": -7.7202911376953125,
       "step": 100
     },
     {
       "epoch": 0.68,
+      "eval_kl": 0.48766180872917175,
+      "eval_logps/chosen": -261.78826904296875,
+      "eval_logps/rejected": -295.7093505859375,
+      "eval_loss": 0.3698837161064148,
+      "eval_rewards/chosen": -1.8293884992599487,
+      "eval_rewards/margins": 4.808248043060303,
+      "eval_rewards/rejected": -6.805734634399414,
+      "eval_runtime": 352.0516,
+      "eval_samples_per_second": 0.852,
+      "eval_steps_per_second": 0.213,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48c1d2ff27fc85582789e23e09bfc9597b564ecdbe5db0b91b68b324bb1290f0
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:e79b6a8f4655d052842d9d7abce8bef41fb97b532d7202e19512d995cc23d94c
 size 5752