RTO-RL
/

Llama3-8B-PPO

Model card Files Files and versions Community

Llama3-8B-PPO / README.md

zkshan2002's picture

Create README.md

f7897f4 verified about 1 month ago

|

history blame contribute delete

387 Bytes

	---
	datasets:
	- weqweasdas/ultra_train
	base_model:
	- OpenRLHF/Llama-3-8b-sft-mixture
	---
	Base Model: [OpenRLHF/Llama-3-8b-sft-mixture](https://huggingface.co/OpenRLHF/Llama-3-8b-sft-mixture)

	Reward model: [RTO-RL/Llama3-8B-RewardModel](https://huggingface.co/RTO-RL/Llama3-8B-RewardModel)

	Prompt dataset: [weqweasdas/ultra_train](https://huggingface.co/datasets/weqweasdas/ultra_train)