FedPPO-Pythia - a RLHF-And-Friends Collection

RLHF-And-Friends 's Collections

Llama-3.2-3B-DPO-Math

Llama-3

FedPPO-Pythia

updated 15 days ago

RLHF-And-Friends/FedPPO-Collaborative-Pythia-70M-a0

Text Generation • Updated 15 days ago • 22
RLHF-And-Friends/FedPPO-Collaborative-Pythia-70M-a1

Text Generation • Updated 15 days ago • 17
RLHF-And-Friends/FedPPO-Isolated-Pythia-70M-a0

Text Generation • Updated 15 days ago • 16
RLHF-And-Friends/FedPPO-Isolated-Pythia-70M-a1

Text Generation • Updated 15 days ago • 22
RLHF-And-Friends/FedPPO-Confused-Pythia-70M-a1

Text Generation • Updated 15 days ago • 17
RLHF-And-Friends/FedPPO-Confused-Pythia-70M-a0

Text Generation • Updated 15 days ago • 20