2 5 6

Zhaolin Gao

GitBag

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Recent Activity

updated a dataset 17 days ago

GitBag/qwen2.5-1.5b-1.5b-math500-value

published a dataset about 1 month ago

GitBag/qwen2.5-1.5b-1.5b-math500-value

updated a dataset 2 months ago

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

View all activity

Organizations

Articles 1

Article

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 8

models 328

datasets 468

GitBag/qwen2.5-1.5b-1.5b-math500-value

Viewer • Updated 17 days ago • 32k • 193

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 6

GitBag/math_qwen2.5_3B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 4

GitBag/math_qwen2.5_1.5B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 7

GitBag/math_qwen3_4B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 6

GitBag/math_qwen2.5_7B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 5

GitBag/math_qwen3_8B_8192_n_128_eval_len

Viewer • Updated Jun 16 • 7.5k • 16

GitBag/math_qwen2.5_1.5B_8192_n_128_eval

Viewer • Updated Jun 16 • 7.5k • 4

GitBag/math_qwen3_1.7B_8192_n_128_eval

Viewer • Updated Jun 16 • 7.5k • 4

GitBag/math_qwen2.5_3B_8192_n_128_eval

Viewer • Updated Jun 16 • 7.5k • 7

View 468 datasets

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

Papers 8

models 328

GitBag/a_star_final_a_star_math_1.5_random_reward_actor

GitBag/a_star_final_a_star_math_1.5_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_random_reward_actor

GitBag/a_star_final_a_star_math_7_wrong_reward_actor

GitBag/a_star_final_a_star_math_7_random_reward_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-a-star-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-grpo-2-kl-1e-4-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_critic

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_actor

datasets 468

GitBag/qwen2.5-1.5b-1.5b-math500-value

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

GitBag/math_qwen2.5_3B_8192_n_128_eval_len

GitBag/math_qwen2.5_1.5B_8192_n_128_eval_len

GitBag/math_qwen3_4B_8192_n_128_eval_len

GitBag/math_qwen2.5_7B_8192_n_128_eval_len

GitBag/math_qwen3_8B_8192_n_128_eval_len

GitBag/math_qwen2.5_1.5B_8192_n_128_eval

GitBag/math_qwen3_1.7B_8192_n_128_eval

GitBag/math_qwen2.5_3B_8192_n_128_eval

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 8

models 328 Sort: Recently updated

datasets 468 Sort: Recently updated

models 328

datasets 468