ShenaoZhang
/

0.001_4iters_bs256_nodpo_only4w_userresponse_iter_1

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

0.001_4iters_bs256_nodpo_only4w_userresponse_iter_1

Commit History

End of training

e07557f
verified

ShenaoZhang commited on Apr 26

Model save

9e22356
verified

ShenaoZhang commited on Apr 26

initial commit

4795d3d
verified

ShenaoZhang commited on Apr 26