sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-1-rpo-gamma-05

Commit History

Model save

fe476bf
verified

sfulay commited on Sep 3, 2024

Training in progress, step 436

85db60e
verified

sfulay commited on Sep 3, 2024

Training in progress, step 400

d30bcf8
verified

sfulay commited on Sep 3, 2024

Training in progress, step 300

7ad34e1
verified

sfulay commited on Sep 3, 2024

Training in progress, step 200

a97386d
verified

sfulay commited on Sep 3, 2024

Training in progress, step 100

51f2bed
verified

sfulay commited on Sep 3, 2024

initial commit

148eb5e
verified

sfulay commited on Sep 3, 2024