PM-pair - a RLHFlow Collection

RLHFlow 's Collections

Decision-Tree Reward Models

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

PM-pair

updated May 10, 2024

This is a collection of materials for training pairwise preference model.

RLHFlow/pair-preference-dataset-mix1

Viewer • Updated May 6, 2024 • 548k • 64 • 3
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated Oct 14, 2024 • 226 • 38
RLHFlow/pair_preference_model_dataset

Viewer • Updated Apr 20, 2024 • 699k • 200 • 5