Zhihan Liu

ZHLiu627

AI & ML interests

LLMs

Recent Activity

upvoted a paper 3 days ago

Self-rewarding correction for mathematical reasoning

updated a dataset 4 days ago

ZHLiu627/updated_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212__self_correction_iter1_v1

updated a dataset 4 days ago

ZHLiu627/dataset_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212_2_global_step_70filtered_v1_v1

View all activity

Organizations

None yet

ZHLiu627's activity

upvoted a paper 3 days ago

Self-rewarding correction for mathematical reasoning

Paper • 2502.19613 • Published 5 days ago • 63

updated 2 datasets 4 days ago

ZHLiu627/updated_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212__self_correction_iter1_v1

Viewer • Updated 4 days ago • 29.3k • 34

ZHLiu627/dataset_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212_2_global_step_70filtered_v1_v1

Viewer • Updated 4 days ago • 29.3k • 8

published a dataset 4 days ago

ZHLiu627/dataset_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212_2_global_step_70filtered_v1_v1

Viewer • Updated 4 days ago • 29.3k • 8

upvoted a paper 4 days ago

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

Paper • 2405.16436 • Published May 26, 2024 • 1

updated a collection 4 days ago

Regularized-Preference-Optimization

Collection

The models trained in https://github.com/YSLIU627/Regularized-Preference-Optimization • 4 items • Updated 4 days ago

updated 2 models 6 days ago

ZHLiu627/zephyr-7b-gemma-dpo-avg

Updated 6 days ago • 15

ZHLiu627/zephyr-7b-gemma-rpo-avg

Updated 6 days ago • 31

updated a collection 6 days ago

Regularized-Preference-Optimization

Collection

The models trained in https://github.com/YSLIU627/Regularized-Preference-Optimization • 4 items • Updated 4 days ago

updated a model 7 days ago

ZHLiu627/beta_ultra_dpo_full_beta0.01_new

Updated 7 days ago • 2

published a model 7 days ago

ZHLiu627/beta_ultra_dpo_full_beta0.01_new

Updated 7 days ago • 2

updated a model 7 days ago

ZHLiu627/beta_ultra_rdpo_full_eta0.005_beta0.01_no_decay_new

Updated 7 days ago • 5

published a model 7 days ago

ZHLiu627/beta_ultra_rdpo_full_eta0.005_beta0.01_no_decay_new

Updated 7 days ago • 5

published 2 models 8 days ago

ZHLiu627/zephyr-7b-gemma-dpo-avg

Updated 6 days ago • 15

ZHLiu627/zephyr-7b-gemma-rpo-avg

Updated 6 days ago • 31

updated a dataset 10 days ago

ZHLiu627/dataset_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212_2_global_step_70filtered_v1

Viewer • Updated 10 days ago • 29.3k • 171

published a dataset 10 days ago

ZHLiu627/dataset_qwen2.5_code_1.5b_grpo_iter0_full_data_miao_0212_2_global_step_70filtered_v1

Viewer • Updated 10 days ago • 29.3k • 171

updated a dataset 10 days ago

ZHLiu627/updated-code-qwen7-edufiltered

Viewer • Updated 10 days ago • 43k • 25