Bolian Li's picture

Bolian Li

lblaoke

·

https://lblaoke.github.io/

AI & ML interests

None yet

Organizations

None yet

lblaoke 's models 44

lblaoke/opt-350m-hh-rlhf-rm-trl-v5

0.3B • Updated May 12 • 1

lblaoke/opt-350m-hh-rlhf-dpo-trl-v5

0.3B • Updated May 12 • 2

lblaoke/opt-350m-hh-rlhf-chosen-sft-trl-v5

0.3B • Updated May 11 • 4

lblaoke/opt-125m-hh-rlhf-rm-trl-v5

0.1B • Updated May 9 • 3

lblaoke/opt-125m-hh-rlhf-dpo-trl-v5

0.1B • Updated May 8 • 3

lblaoke/opt-125m-hh-rlhf-chosen-sft-trl-v5

0.1B • Updated May 7 • 4

lblaoke/qwama-0.5b-hh-rlhf-sft-chosen-trl-v4

0.5B • Updated Apr 8 • 3

lblaoke/qwama-0.5b-skywork-pref-sft-chosen-dpo-trl-v3

0.5B • Updated Mar 28 • 2

lblaoke/qwama-0.5b-skywork-pref-sft-rejected-chosen-trl-v3

0.5B • Updated Mar 28 • 3

lblaoke/qwama-0.5b-skywork-pref-sft-chosen-trl-v3

0.5B • Updated Mar 28 • 4

lblaoke/qwama-0.5b-skywork-pref-sft-rejected-trl-v3

0.5B • Updated Mar 28 • 3

lblaoke/qwama-0.5b-skywork-pref-dpo-trl-v2

0.5B • Updated Mar 21 • 3

lblaoke/qwama-0.5b-skywork-pref-dpo-llama-factory-v1

0.5B • Updated Mar 19 • 3

lblaoke/qwama-0.5b-skywork-pref-dpo-trl-v1

0.5B • Updated Mar 19 • 2

lblaoke/mistral-v0.3-7b-ppo-self-human

7B • Updated Mar 1 • 2

lblaoke/mistral-v0.3-7b-ppo-self

7B • Updated Feb 28 • 2

lblaoke/mistral-v0.3-7b-ppo-human

7B • Updated Feb 28 • 3

lblaoke/qwen2.5-7b-ppo-self

8B • Updated Feb 27 • 3

lblaoke/qwen2.5-7b-ppo-self-human

8B • Updated Feb 27 • 3

lblaoke/qwen2.5-7b-ppo-human

8B • Updated Feb 26 • 3

lblaoke/llama-3.1-8b-ppo-self-human

8B • Updated Feb 24 • 3

lblaoke/qwen2.5-7b-rm-human

7B • Updated Feb 24 • 3

lblaoke/qwen2.5-7b-rm-self-human

7B • Updated Feb 23 • 3

lblaoke/qwen2.5-7b-rm-self

7B • Updated Feb 23 • 3

lblaoke/llama-3.1-8b-ppo-self

8B • Updated Feb 22 • 3

lblaoke/llama-3.1-8b-ppo-human

8B • Updated Feb 21 • 3

lblaoke/llama-3.1-8b-rm-self-human

8B • Updated Feb 20 • 3

lblaoke/llama-3.1-8b-rm-self

8B • Updated Feb 20 • 3

lblaoke/llama-3.1-8b-rm-human

8B • Updated Feb 20 • 3

lblaoke/mistral-v0.1-7b-ppo-self-human

7B • Updated Feb 4 • 2