Weni
/

ZeroShot-3.4.0-Mistral-7b-DPO-1.0.0

@@ -16,7 +16,7 @@ language: ['en', 'es', 'pt']
 This model is a fine-tuned version of [Weni/ZeroShot-3.3.14-Mistral-7b-Multilanguage-3.2.0-merged] on the dataset Weni/zeroshot-dpo-1.0.0 with the DPO trainer. It is part of the ZeroShot project for [Weni](https://weni.ai/).
 It achieves the following results on the evaluation set:
-{'eval_loss': 0.11184482276439667, 'eval_runtime': 26.2705, 'eval_samples_per_second': 2.322, 'eval_steps_per_second': 0.305, 'eval_rewards/chosen': 5.812995433807373, 'eval_rewards/rejected': -2.4983203411102295, 'eval_rewards/accuracies': 0.9437500238418579, 'eval_rewards/margins': 8.311315536499023, 'eval_logps/rejected': -16.0378475189209, 'eval_logps/chosen': -10.56441879272461, 'eval_logits/rejected': -1.2986871004104614, 'eval_logits/chosen': -1.3477466106414795, 'epoch': 0.94}
 ## Intended uses & limitations
@@ -72,14 +72,14 @@ Rejected_response:
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
-- per_device_train_batch_size: 8
-- per_device_eval_batch_size: 8
 - gradient_accumulation_steps: 4
 - num_gpus: 1
-- total_train_batch_size: 32
 - optimizer: AdamW
 - lr_scheduler_type: cosine
-- num_steps: 16
 - quantization_type: bitsandbytes
 - LoRA: ("\n  - bits: 4\n  - use_exllama: True\n  - device_map: auto\n  - use_cache: False\n  - lora_r: 8\n  - lora_alpha: 16\n  - lora_dropout: 0.1\n  - bias: none\n  - target_modules: ['q_proj', 'k_proj', 'v_proj', 'o_proj']\n  - task_type: CAUSAL_LM",)

 This model is a fine-tuned version of [Weni/ZeroShot-3.3.14-Mistral-7b-Multilanguage-3.2.0-merged] on the dataset Weni/zeroshot-dpo-1.0.0 with the DPO trainer. It is part of the ZeroShot project for [Weni](https://weni.ai/).
 It achieves the following results on the evaluation set:
+{'eval_loss': 0.5391563177108765, 'eval_runtime': 23.7839, 'eval_samples_per_second': 2.565, 'eval_steps_per_second': 1.303, 'eval_rewards/chosen': -4.273996829986572, 'eval_rewards/rejected': -11.652483940124512, 'eval_rewards/accuracies': 0.8870967626571655, 'eval_rewards/margins': 7.378485679626465, 'eval_logps/rejected': -25.808551788330078, 'eval_logps/chosen': -20.536710739135742, 'eval_logits/rejected': -1.4332084655761719, 'eval_logits/chosen': -1.4393092393875122, 'epoch': 0.99}
 ## Intended uses & limitations
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
+- per_device_train_batch_size: 2
+- per_device_eval_batch_size: 2
 - gradient_accumulation_steps: 4
 - num_gpus: 1
+- total_train_batch_size: 8
 - optimizer: AdamW
 - lr_scheduler_type: cosine
+- num_steps: 67
 - quantization_type: bitsandbytes
 - LoRA: ("\n  - bits: 4\n  - use_exllama: True\n  - device_map: auto\n  - use_cache: False\n  - lora_r: 8\n  - lora_alpha: 16\n  - lora_dropout: 0.1\n  - bias: none\n  - target_modules: ['q_proj', 'k_proj', 'v_proj', 'o_proj']\n  - task_type: CAUSAL_LM",)