Weni
/

ZeroShot-3.4.0-Mistral-7b-DPO-1.0.0

@@ -16,7 +16,7 @@ language: ['en', 'es', 'pt']
 This model is a fine-tuned version of [Weni/ZeroShot-3.3.14-Mistral-7b-Multilanguage-3.2.0-merged] on the dataset Weni/zeroshot-dpo-1.0.0 with the DPO trainer. It is part of the ZeroShot project for [Weni](https://weni.ai/).
 It achieves the following results on the evaluation set:
-{'eval_loss': 0.3499229848384857, 'eval_runtime': 27.5778, 'eval_samples_per_second': 2.212, 'eval_steps_per_second': 0.29, 'eval_rewards/chosen': 2.9649205207824707, 'eval_rewards/rejected': -3.157733678817749, 'eval_rewards/accuracies': 0.890625, 'eval_rewards/margins': 6.122654438018799, 'eval_logps/rejected': -16.82097053527832, 'eval_logps/chosen': -13.01504898071289, 'eval_logits/rejected': -1.4320036172866821, 'eval_logits/chosen': -1.460217833518982, 'epoch': 0.94}
 ## Intended uses & limitations

 This model is a fine-tuned version of [Weni/ZeroShot-3.3.14-Mistral-7b-Multilanguage-3.2.0-merged] on the dataset Weni/zeroshot-dpo-1.0.0 with the DPO trainer. It is part of the ZeroShot project for [Weni](https://weni.ai/).
 It achieves the following results on the evaluation set:
+{'eval_loss': 0.11184482276439667, 'eval_runtime': 26.2705, 'eval_samples_per_second': 2.322, 'eval_steps_per_second': 0.305, 'eval_rewards/chosen': 5.812995433807373, 'eval_rewards/rejected': -2.4983203411102295, 'eval_rewards/accuracies': 0.9437500238418579, 'eval_rewards/margins': 8.311315536499023, 'eval_logps/rejected': -16.0378475189209, 'eval_logps/chosen': -10.56441879272461, 'eval_logits/rejected': -1.2986871004104614, 'eval_logits/chosen': -1.3477466106414795, 'epoch': 0.94}
 ## Intended uses & limitations