zkshan2002
/

DPO-uf-llama3-8B-OpenRLHF

Create README.md

b878162 verified 3 months ago

103 Bytes

metadata

datasets:
  - HuggingFaceH4/ultrafeedback_binarized
base_model:
  - OpenRLHF/Llama-3-8b-sft-mixture