RTO-RL
/

Llama3.2-1B-RewardModel

Model card Files Files and versions Community

zkshan2002 commited on Feb 11

Commit

219c19c

·

verified ·

1 Parent(s): 6cffcae

Update README.md

Files changed (1) hide show

README.md +5 -1

README.md CHANGED Viewed

@@ -4,4 +4,8 @@ datasets:
 base_model:
 - unsloth/Llama-3.2-1B-Instruct
 ---
-Trained with tokenizer of [OpenRLHF/Llama-3-8b-sft-mixture](https://huggingface.co/OpenRLHF/Llama-3-8b-sft-mixture).

 base_model:
 - unsloth/Llama-3.2-1B-Instruct
 ---
+Base mode: [unsloth/Llama-3.2-1B-Instruct](https://huggingface.co/unsloth/Llama-3.2-1B-Instruct)
+Tokenizer: [OpenRLHF/Llama-3-8b-sft-mixture](https://huggingface.co/OpenRLHF/Llama-3-8b-sft-mixture)
+Preference dataset: [HuggingFaceH4/ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized)