rasdani
/

qwen2-math-7b-step-dpo

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

qwen2-math-7b-step-dpo / model-00001-of-00004.safetensors

Commit History

Training in progress, step 1344

bc3e90a
verified

rasdani commited on Aug 29

Training in progress, step 1200

04081db
verified

rasdani commited on Aug 29

Training in progress, step 800

a0c1076
verified

rasdani commited on Aug 29

Training in progress, step 400

88a3813
verified

rasdani commited on Aug 29