zkshan2002
/

RewardModel-uf-llama3.2-1B-OpenRLHF

Create README.md

fc742d5 verified 5 months ago

101 Bytes

metadata

datasets:
  - HuggingFaceH4/ultrafeedback_binarized
base_model:
  - unsloth/Llama-3.2-1B-Instruct