sfulay
/

zephyr-7b-dpo-full-gpt_consistent-reward-scale-05

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-gpt_consistent-reward-scale-05 / model-00003-of-00003.safetensors

Commit History

Training in progress, step 436

a4b7e39
verified

sfulay commited on Sep 3, 2024

Training in progress, step 400

1501126
verified

sfulay commited on Sep 3, 2024

Training in progress, step 300

fc2c415
verified

sfulay commited on Sep 3, 2024

Training in progress, step 200

3394f33
verified

sfulay commited on Sep 3, 2024

Training in progress, step 100

251193f
verified

sfulay commited on Sep 3, 2024

Training in progress, step 100

4574324
verified

sfulay commited on Sep 3, 2024