Nguyễn Minh Phúc's picture

4

Nguyễn Minh Phúc

DatPySci

·

AI & ML interests

Reinforcement learning, NLP

Organizations

upvoted a paper about 1 year ago

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published May 19, 2024 • 159

upvoted 3 papers over 1 year ago

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 62

Weak-to-Strong Jailbreaking on Large Language Models

Paper • 2401.17256 • Published Jan 30, 2024 • 16

WARM: On the Benefits of Weight Averaged Reward Models

Paper • 2401.12187 • Published Jan 22, 2024 • 20