Shentao Yang's picture

2

Shentao Yang

shentaoyang

https://scholar.google.com/citations?hl=en&user=jxxSLbkAAAAJ&view_op=list_works

AI & ML interests

Generative AI, Large Language Models, RLHF, RLAIF, Reinforcement Learning

Recent Activity

authored a paper 4 days ago

Preference-grounded Token-level Guidance for Language Model Fine-tuning

authored a paper 4 days ago

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference

authored a paper 4 days ago

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

View all activity

Organizations

None yet

shentaoyang's activity

authored 3 papers 4 days ago

Preference-grounded Token-level Guidance for Language Model Fine-tuning

Paper • 2306.00398 • Published Jun 1, 2023

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference

Paper • 2402.08265 • Published Feb 13, 2024

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Paper • 2501.02790 • Published 6 days ago • 8

upvoted a collection 4 days ago

DenseRewardRLHF-PPO

This repository contains the released models for our paper Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model. • 18 items • Updated 1 day ago • 1

upvoted a paper 4 days ago

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Paper • 2501.02790 • Published 6 days ago • 8