rm-robustness

community

AI & ML interests

None defined yet.

Recent Activity

JW17 authored a paper 19 days ago

AlphaPO -- Reward shape matters for LLM alignment

JW17 authored a paper 19 days ago

Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

JW17 authored a paper 2 months ago

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research

View all activity

rm-robustness 's datasets 5

rm-robustness/ultrafeedback-valid-4-mutual-ood

Viewer • Updated May 11 • 11.1k • 19

rm-robustness/ultrafeedback-valid-3-response-ood

Viewer • Updated May 11 • 51.2k • 10

rm-robustness/ultrafeedback-valid-2-prompt-ood

Viewer • Updated May 11 • 11.1k • 12

rm-robustness/ultrafeedback-valid-1-in-domain

Viewer • Updated May 11 • 51.2k • 12

rm-robustness/ultrafeedback-train

Viewer • Updated May 11 • 51.2k • 12