PKU-Alignment
/

beaver-7b-v1.0-reward

Reinforcement Learning

reinforcement-learning-from-human-feedback

Model card Files Files and versions Community

beaver-7b-v1.0-reward / config.json

Commit History

Convert model checkpoint to safetensors

4d1016a

XuehaiPan commited on Apr 19

Update architecture name in config.json

24c97e2

XuehaiPan commited on Dec 15, 2023

hello beaver reward model

bcc4f5e

RuiyangSun commited on Jul 10, 2023