rl-llm-agent
/

Llama-3.2-3B-Instruct-online-dpo-alfworld-iter2

Model card Files Files and versions

Resources

View closed (0)

Adding `safetensors` variant of this model

#1 opened 7 months ago by