Zhaolin Gao's picture

2 5 6

Zhaolin Gao

GitBag

·

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Recent Activity

updated a dataset 5 days ago

GitBag/qwen2.5-1.5b-1.5b-math500-value

published a dataset 11 days ago

GitBag/qwen2.5-1.5b-1.5b-math500-value

updated a dataset about 1 month ago

GitBag/math_qwen3_1.7B_8192_n_128_eval_len

View all activity

Organizations

GitBag 's datasets 468

GitBag/ultrainteract_multiturn_5_turns_only

Viewer • Updated Sep 6, 2024 • 123k • 10

GitBag/ultrainteract_multiturn_5_turns_only_ckp_4

Viewer • Updated Sep 6, 2024 • 123k • 9

GitBag/llama3-ultrainteract-last-turn-reward

Viewer • Updated Sep 6, 2024 • 123k • 10

GitBag/ultrainteract_multiturn_5_turns_only_ckp_3

Viewer • Updated Sep 5, 2024 • 123k • 10

GitBag/ultrainteract_multiturn_5_turns_only_ckp_2

Viewer • Updated Sep 5, 2024 • 123k • 10

GitBag/llama3-ultrainteract-last-turn

Viewer • Updated Sep 5, 2024 • 123k • 10

GitBag/ultrainteract_multiturn_5_turns_only_ckp_1

Viewer • Updated Sep 5, 2024 • 123k • 10

GitBag/ultrainteract_multiturn_5_turns_only_ckp_0

Viewer • Updated Sep 5, 2024 • 123k • 9

GitBag/llama_3_llm_as_user

Viewer • Updated Aug 29, 2024 • 500 • 12

GitBag/rebel_multi_llm_as_user

Viewer • Updated Aug 29, 2024 • 500 • 9

GitBag/rebel_llm_as_user

Viewer • Updated Aug 29, 2024 • 500 • 10

GitBag/refuel_llm_as_user

Viewer • Updated Aug 29, 2024 • 500 • 9

GitBag/temp_222_processed

Viewer • Updated Aug 26, 2024 • 40 • 7

GitBag/temp_222

Viewer • Updated Aug 26, 2024 • 40 • 8

GitBag/temp_111

Viewer • Updated Aug 26, 2024 • 40 • 9

GitBag/tldr_temp_processed

Viewer • Updated Aug 26, 2024 • 600 • 6

GitBag/tldr_temp

Viewer • Updated Aug 25, 2024 • 600 • 5

GitBag/llama3-ultrafeedback-armo-1024-20k-base-20k-1723066371_harvard

Viewer • Updated Aug 14, 2024 • 39.4k • 7

GitBag/llama3-ultrafeedback-armo-1024-20k-base-20k-1723066371

Viewer • Updated Aug 14, 2024 • 39.4k • 7

GitBag/llama3-ultrafeedback-armo-1024-chosen_sample-reject_won_harvard

Viewer • Updated Aug 14, 2024 • 55.9k • 10

GitBag/llama3-ultrafeedback-armo-1024-chosen_bon-reject_sample_harvard

Viewer • Updated Aug 13, 2024 • 55.9k • 11

GitBag/llama3-ultrafeedback-armo-1024-chosen_sample-reject_won

Viewer • Updated Aug 13, 2024 • 55.9k • 7

GitBag/llama3-ultrafeedback-armo-1024-chosen_bon-reject_sample

Viewer • Updated Aug 13, 2024 • 55.9k • 11

GitBag/llama3-ultrafeedback-armo-1024-iter_2_1723079513_harvard

Viewer • Updated Aug 13, 2024 • 56.7k • 7

GitBag/llama3-ultrafeedback-armo-1024-20k-iter_1_1723066371_harvard

Viewer • Updated Aug 12, 2024 • 19.4k • 8

GitBag/llama3-ultrafeedback-armo-1024-iter_2_1723079513

Viewer • Updated Aug 12, 2024 • 56.7k • 8

GitBag/llama3-ultrafeedback-pair_6

Viewer • Updated Aug 12, 2024 • 63.1k • 11

GitBag/llama3-ultrafeedback-iter_2_1723079513

Viewer • Updated Aug 12, 2024 • 63.1k • 8

GitBag/llama3-ultrafeedback-armo-1024-20k-iter_1_1723066371

Viewer • Updated Aug 12, 2024 • 19.4k • 6

GitBag/llama3-ultrafeedback-20k-iter_1_1723066371

Viewer • Updated Aug 12, 2024 • 22k • 6