Model save

Browse files

Files changed (7) hide show

README.md +62 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
emissions.csv +2 -0
runs/Sep10_15-50-31_gpu4-119-5/events.out.tfevents.1725947769.gpu4-119-5.605072.0 +2 -2
train_results.json +8 -0
trainer_state.json +478 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/phi-2-dpo-chatml-merged
+model-index:
+- name: phi-2-dpo-chatml-lora-i1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-dpo-chatml-lora-i1
+This model is a fine-tuned version of [DUAL-GPO/phi-2-dpo-chatml-merged](https://huggingface.co/DUAL-GPO/phi-2-dpo-chatml-merged) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4e5809bfc80035436a4e26758583729cb5e4a62d46126d717629da2e65a071f
 size 167807296

 version https://git-lfs.github.com/spec/v1
+oid sha256:10fd983aaf64c3d7928e0b40894ee454af401bde5ca0008895b9e981b9672d2d
 size 167807296

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6665561169198474,
+    "train_runtime": 4180.8924,
+    "train_samples": 20378,
+    "train_samples_per_second": 4.874,
+    "train_steps_per_second": 0.076
+}

emissions.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2024-09-10T17:05:50,codecarbon,17448811-59dc-446c-b419-8adc8b1216c5,4180.905763626099,0.003907930783756967,9.347091287624764e-07,42.5,1134.73,188.74309015274048,0.049357304409808546,1.3756144027881374,0.21893714960478902,1.6439088568027338,Canada,CAN,quebec,,,Linux-5.15.0-84-generic-x86_64-with-glibc2.35,3.10.14,2.2.3,32,Intel(R) Xeon(R) W-3335 CPU @ 3.40GHz,4,4 x NVIDIA GeForce RTX 4090,-71.2,46.8,503.3149070739746,machine,N,1.0

runs/Sep10_15-50-31_gpu4-119-5/events.out.tfevents.1725947769.gpu4-119-5.605072.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998b396e55e9e6c0ff15ea9968f883b0a1b11c9fc8e67a28d36cbe877e6ab258
-size 24413

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dfeb098eee7b325e7c38e173ee8339ba273e5456794156550fe8c7226d0f295
+size 25401

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6665561169198474,
+    "train_runtime": 4180.8924,
+    "train_samples": 20378,
+    "train_samples_per_second": 4.874,
+    "train_steps_per_second": 0.076
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,478 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984301412872841,
+  "eval_steps": 500,
+  "global_step": 318,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.5625e-07,
+      "logits/chosen": 0.1065371111035347,
+      "logits/rejected": 0.2458750307559967,
+      "logps/chosen": -576.7586669921875,
+      "logps/rejected": -601.521240234375,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.5625e-06,
+      "logits/chosen": 0.2651256322860718,
+      "logits/rejected": 0.24446943402290344,
+      "logps/chosen": -421.94403076171875,
+      "logps/rejected": -430.0181884765625,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.3819444477558136,
+      "rewards/chosen": 0.00013627602311316878,
+      "rewards/margins": -4.138438089285046e-05,
+      "rewards/rejected": 0.00017766041855793446,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": 0.19487406313419342,
+      "logits/rejected": 0.27559036016464233,
+      "logps/chosen": -469.13458251953125,
+      "logps/rejected": -477.4700622558594,
+      "loss": 0.693,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.0018459655111655593,
+      "rewards/margins": 0.0005293375579640269,
+      "rewards/rejected": -0.00237530330196023,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.6875000000000004e-06,
+      "logits/chosen": 0.25393253564834595,
+      "logits/rejected": 0.32423219084739685,
+      "logps/chosen": -524.4780883789062,
+      "logps/rejected": -515.9963989257812,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.010388225317001343,
+      "rewards/margins": 0.0017380230128765106,
+      "rewards/rejected": -0.012126248329877853,
+      "step": 30
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9903533134293035e-06,
+      "logits/chosen": 0.188622385263443,
+      "logits/rejected": 0.23987522721290588,
+      "logps/chosen": -524.7830810546875,
+      "logps/rejected": -532.3538208007812,
+      "loss": 0.6904,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.038737986236810684,
+      "rewards/margins": 0.007083290722221136,
+      "rewards/rejected": -0.04582127556204796,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.95129120635556e-06,
+      "logits/chosen": 0.2065356969833374,
+      "logits/rejected": 0.21540746092796326,
+      "logps/chosen": -557.65283203125,
+      "logps/rejected": -602.3500366210938,
+      "loss": 0.6886,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.081453338265419,
+      "rewards/margins": 0.008762759156525135,
+      "rewards/rejected": -0.09021610021591187,
+      "step": 50
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.882681251368549e-06,
+      "logits/chosen": 0.1865241825580597,
+      "logits/rejected": 0.25268620252609253,
+      "logps/chosen": -651.5568237304688,
+      "logps/rejected": -646.779296875,
+      "loss": 0.6882,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.10856065899133682,
+      "rewards/margins": 0.00851230975240469,
+      "rewards/rejected": -0.11707296222448349,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.785350472409792e-06,
+      "logits/chosen": 0.12973304092884064,
+      "logits/rejected": 0.15445570647716522,
+      "logps/chosen": -573.20361328125,
+      "logps/rejected": -620.1366577148438,
+      "loss": 0.6862,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.11544144153594971,
+      "rewards/margins": 0.014589125290513039,
+      "rewards/rejected": -0.130030557513237,
+      "step": 70
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.660472094042121e-06,
+      "logits/chosen": 0.13113337755203247,
+      "logits/rejected": 0.16033154726028442,
+      "logps/chosen": -604.9552001953125,
+      "logps/rejected": -617.4078369140625,
+      "loss": 0.6848,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.12029469013214111,
+      "rewards/margins": 0.01667841710150242,
+      "rewards/rejected": -0.13697311282157898,
+      "step": 80
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.509551399408598e-06,
+      "logits/chosen": 0.09812867641448975,
+      "logits/rejected": 0.18707698583602905,
+      "logps/chosen": -654.7269897460938,
+      "logps/rejected": -692.5885009765625,
+      "loss": 0.6818,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.16067926585674286,
+      "rewards/margins": 0.029583226889371872,
+      "rewards/rejected": -0.19026246666908264,
+      "step": 90
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.33440758555951e-06,
+      "logits/chosen": 0.09072402864694595,
+      "logits/rejected": 0.11204621940851212,
+      "logps/chosen": -659.927734375,
+      "logps/rejected": -693.5866088867188,
+      "loss": 0.6779,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.20416970551013947,
+      "rewards/margins": 0.037873029708862305,
+      "rewards/rejected": -0.24204275012016296,
+      "step": 100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.137151834863213e-06,
+      "logits/chosen": 0.07093264162540436,
+      "logits/rejected": 0.03249276801943779,
+      "logps/chosen": -743.2816162109375,
+      "logps/rejected": -755.5554809570312,
+      "loss": 0.6775,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.2279289960861206,
+      "rewards/margins": 0.02968643605709076,
+      "rewards/rejected": -0.25761544704437256,
+      "step": 110
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.92016186682789e-06,
+      "logits/chosen": 0.003220717655494809,
+      "logits/rejected": 0.05324220657348633,
+      "logps/chosen": -742.3509521484375,
+      "logps/rejected": -809.758544921875,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.2514348328113556,
+      "rewards/margins": 0.04873809963464737,
+      "rewards/rejected": -0.30017292499542236,
+      "step": 120
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.686053277086401e-06,
+      "logits/chosen": 0.015957411378622055,
+      "logits/rejected": 0.034166835248470306,
+      "logps/chosen": -800.9042358398438,
+      "logps/rejected": -877.7219848632812,
+      "loss": 0.6688,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.3339093327522278,
+      "rewards/margins": 0.05545445531606674,
+      "rewards/rejected": -0.3893638253211975,
+      "step": 130
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.437648009023905e-06,
+      "logits/chosen": -0.06793640553951263,
+      "logits/rejected": 0.012782419100403786,
+      "logps/chosen": -928.662109375,
+      "logps/rejected": -970.1724853515625,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.40538254380226135,
+      "rewards/margins": 0.05219917744398117,
+      "rewards/rejected": -0.45758169889450073,
+      "step": 140
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.177940338091043e-06,
+      "logits/chosen": -0.07451646029949188,
+      "logits/rejected": 0.017870059236884117,
+      "logps/chosen": -945.6070556640625,
+      "logps/rejected": -1063.8753662109375,
+      "loss": 0.6552,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.47644931077957153,
+      "rewards/margins": 0.11226899921894073,
+      "rewards/rejected": -0.5887182950973511,
+      "step": 150
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9100607788275547e-06,
+      "logits/chosen": -0.013520196080207825,
+      "logits/rejected": 0.03256853669881821,
+      "logps/chosen": -1152.884521484375,
+      "logps/rejected": -1294.5550537109375,
+      "loss": 0.6459,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.629438579082489,
+      "rewards/margins": 0.12635770440101624,
+      "rewards/rejected": -0.7557963132858276,
+      "step": 160
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.637238349660819e-06,
+      "logits/chosen": -0.03625180199742317,
+      "logits/rejected": 0.10911421477794647,
+      "logps/chosen": -1153.629638671875,
+      "logps/rejected": -1299.8240966796875,
+      "loss": 0.6485,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.6664064526557922,
+      "rewards/margins": 0.15015219151973724,
+      "rewards/rejected": -0.8165585398674011,
+      "step": 170
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.3627616503391813e-06,
+      "logits/chosen": 0.02950824238359928,
+      "logits/rejected": 0.05250490829348564,
+      "logps/chosen": -1152.2685546875,
+      "logps/rejected": -1324.5938720703125,
+      "loss": 0.6529,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.6731899380683899,
+      "rewards/margins": 0.13111469149589539,
+      "rewards/rejected": -0.8043045997619629,
+      "step": 180
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.089939221172446e-06,
+      "logits/chosen": 0.04129552096128464,
+      "logits/rejected": 0.1471545547246933,
+      "logps/chosen": -1160.955810546875,
+      "logps/rejected": -1316.416259765625,
+      "loss": 0.6554,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.6231328845024109,
+      "rewards/margins": 0.14521253108978271,
+      "rewards/rejected": -0.7683453559875488,
+      "step": 190
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8220596619089576e-06,
+      "logits/chosen": 0.06950052827596664,
+      "logits/rejected": 0.114873506128788,
+      "logps/chosen": -1067.883056640625,
+      "logps/rejected": -1257.954345703125,
+      "loss": 0.6662,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.580407977104187,
+      "rewards/margins": 0.15041552484035492,
+      "rewards/rejected": -0.7308235168457031,
+      "step": 200
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5623519909760953e-06,
+      "logits/chosen": 0.05648995563387871,
+      "logits/rejected": 0.09691180288791656,
+      "logps/chosen": -965.3287963867188,
+      "logps/rejected": -1081.1578369140625,
+      "loss": 0.651,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.5061975717544556,
+      "rewards/margins": 0.0916539654135704,
+      "rewards/rejected": -0.5978515148162842,
+      "step": 210
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3139467229135999e-06,
+      "logits/chosen": 0.051130689680576324,
+      "logits/rejected": 0.04953103885054588,
+      "logps/chosen": -984.7945556640625,
+      "logps/rejected": -1096.2000732421875,
+      "loss": 0.6587,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.5363761186599731,
+      "rewards/margins": 0.09475774317979813,
+      "rewards/rejected": -0.6311338543891907,
+      "step": 220
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.079838133172111e-06,
+      "logits/chosen": 0.05980740860104561,
+      "logits/rejected": 0.09383749216794968,
+      "logps/chosen": -1028.142822265625,
+      "logps/rejected": -1146.3697509765625,
+      "loss": 0.6478,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.537701427936554,
+      "rewards/margins": 0.12060447037220001,
+      "rewards/rejected": -0.6583058834075928,
+      "step": 230
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.628481651367876e-07,
+      "logits/chosen": 0.014723904430866241,
+      "logits/rejected": 0.06809697300195694,
+      "logps/chosen": -1050.84716796875,
+      "logps/rejected": -1169.0181884765625,
+      "loss": 0.6523,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.5698201060295105,
+      "rewards/margins": 0.10493580996990204,
+      "rewards/rejected": -0.6747559309005737,
+      "step": 240
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.655924144404907e-07,
+      "logits/chosen": 0.058697450906038284,
+      "logits/rejected": 0.18674160540103912,
+      "logps/chosen": -1031.38330078125,
+      "logps/rejected": -1151.7845458984375,
+      "loss": 0.6503,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.5323927998542786,
+      "rewards/margins": 0.12208826839923859,
+      "rewards/rejected": -0.654481053352356,
+      "step": 250
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.904486005914027e-07,
+      "logits/chosen": 0.038037996739149094,
+      "logits/rejected": 0.1984243094921112,
+      "logps/chosen": -1104.4632568359375,
+      "logps/rejected": -1201.5025634765625,
+      "loss": 0.6687,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.6090129613876343,
+      "rewards/margins": 0.08677474409341812,
+      "rewards/rejected": -0.6957876086235046,
+      "step": 260
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.3952790595787986e-07,
+      "logits/chosen": 0.08488737046718597,
+      "logits/rejected": 0.08265082538127899,
+      "logps/chosen": -1128.706787109375,
+      "logps/rejected": -1274.176513671875,
+      "loss": 0.6428,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.5869961977005005,
+      "rewards/margins": 0.14979645609855652,
+      "rewards/rejected": -0.7367926836013794,
+      "step": 270
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.1464952759020857e-07,
+      "logits/chosen": 0.0698360875248909,
+      "logits/rejected": 0.20901212096214294,
+      "logps/chosen": -1054.747802734375,
+      "logps/rejected": -1169.133544921875,
+      "loss": 0.6518,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.5615522265434265,
+      "rewards/margins": 0.09707958251237869,
+      "rewards/rejected": -0.6586318612098694,
+      "step": 280
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1731874863145143e-07,
+      "logits/chosen": 0.051002971827983856,
+      "logits/rejected": 0.1305128037929535,
+      "logps/chosen": -1106.5140380859375,
+      "logps/rejected": -1212.6392822265625,
+      "loss": 0.6598,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.6055802702903748,
+      "rewards/margins": 0.09625270962715149,
+      "rewards/rejected": -0.7018329501152039,
+      "step": 290
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.870879364444109e-08,
+      "logits/chosen": 0.07181545346975327,
+      "logits/rejected": 0.10806989669799805,
+      "logps/chosen": -1016.3053588867188,
+      "logps/rejected": -1113.5516357421875,
+      "loss": 0.6518,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.551072895526886,
+      "rewards/margins": 0.10785824060440063,
+      "rewards/rejected": -0.6589311361312866,
+      "step": 300
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 9.646686570697062e-09,
+      "logits/chosen": 0.059725649654865265,
+      "logits/rejected": 0.14064475893974304,
+      "logps/chosen": -1115.263427734375,
+      "logps/rejected": -1200.1612548828125,
+      "loss": 0.6489,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.5870085954666138,
+      "rewards/margins": 0.10603809356689453,
+      "rewards/rejected": -0.6930466890335083,
+      "step": 310
+    },
+    {
+      "epoch": 1.0,
+      "step": 318,
+      "total_flos": 0.0,
+      "train_loss": 0.6665561169198474,
+      "train_runtime": 4180.8924,
+      "train_samples_per_second": 4.874,
+      "train_steps_per_second": 0.076
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 318,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}