CharlesLi
/

OpenELM-1_1B-DPO-full-max-reward-most-similar

Text Generation

alignment-handbook

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

OpenELM-1_1B-DPO-full-max-reward-most-similar / train_results.json

Commit History

Model save

3cad9f4
verified

CharlesLi commited on Oct 3, 2024

Model save

f673df2
verified

CharlesLi commited on Sep 23, 2024

Model save

b7fb1f2
verified

CharlesLi commited on Sep 22, 2024

Model save

7466a89
verified

CharlesLi commited on Sep 10, 2024