ShenaoZ
/

0.001_3iters_bs256_declr_nodpo_userresponse_iter_1

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

0.001_3iters_bs256_declr_nodpo_userresponse_iter_1 / README.md

Commit History

End of training

0503d11
verified

ShenaoZ commited on Apr 26

Model save

33e1fe1
verified

ShenaoZ commited on Apr 26

End of training

3fd58d1
verified

ShenaoZ commited on Apr 26

Model save

bf5f215
verified

ShenaoZ commited on Apr 26