RTO-RL
/

Llama3-8B-RTO

Model card Files Files and versions Community

zkshan2002 commited on Feb 11

Commit

76e1665

·

verified ·

1 Parent(s): 71c49be

Update README.md

Files changed (1) hide show

README.md +4 -5

README.md CHANGED Viewed

@@ -3,8 +3,7 @@ datasets:
 - weqweasdas/ultra_train
 base_model:
 - OpenRLHF/Llama-3-8b-sft-mixture
-reward_model:
-- zkshan2002/r1B-sft_tokenizer
-dpo_model:
-- zkshan2002/DPO-uf-llama3-8B-OpenRLHF
----

 - weqweasdas/ultra_train
 base_model:
 - OpenRLHF/Llama-3-8b-sft-mixture
+---
+DPO model: [RTO-RL/Llama3-8B-DPO](https://huggingface.co/RTO-RL/Llama3-8B-DPO)
+Reward model: [RTO-RL/Llama3.2-1B-RewardModel](https://huggingface.co/RTO-RL/Llama3.2-1B-RewardModel)