README.md · gupta-tanish/llama-7b-dpo-baseline at main

metadata

license: apache-2.0
datasets:
  - HuggingFaceH4/ultrafeedback_binarized
language:
  - en
  - fr
base_model:
  - NousResearch/Nous-Hermes-llama-2-7b
  - meta-llama/Llama-2-7b
pipeline_tag: text-generation
metrics:
  - accuracy
  - bertscore
  - bleurt
  - brier_score
tags:
  - biology
  - chemistry

Trained NousResearch/Nous-Hermes-llama-2-7b on UltraFeedback for Direct Preference Optimization on the preference data created on Ultrafeedback having difference b/w chosen score and rejected score>=5