lm-human-preference-details (lm-human-preference-details)

vwxyzjn

authored 5 papers 3 months ago

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

Paper • 2403.17031 • Published Mar 24, 2024 • 6

vwxyzjn

authored a paper about 1 year ago

Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement Learning

Paper • 2402.03046 • Published Feb 5, 2024 • 6

vwxyzjn

authored 2 papers over 1 year ago

Zephyr: Direct Distillation of LM Alignment

Paper • 2310.16944 • Published Oct 25, 2023 • 123

Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning Platform

Paper • 2310.00036 • Published Sep 29, 2023 • 2

vwxyzjn

updated a Space over 1 year ago

4

Rlhf Demo

💻

Generate code snippets from a prompt

vwxyzjn

updated 11 models over 1 year ago

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed1

Text Generation • Updated Oct 6, 2023 • 5

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed5

Text Generation • Updated Oct 6, 2023 • 5

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed3

Text Generation • Updated Oct 6, 2023 • 6

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed4

Text Generation • Updated Oct 6, 2023 • 6

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed2

Text Generation • Updated Oct 6, 2023 • 9

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed3

Text Generation • Updated Oct 6, 2023 • 16

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed5

Text Generation • Updated Oct 6, 2023 • 15

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed2

Text Generation • Updated Oct 6, 2023 • 9

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed4

Text Generation • Updated Oct 6, 2023 • 16

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2__sentiment_offline_5k.json__seed5

Text Generation • Updated Oct 6, 2023 • 9

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2__sentiment_offline_5k.json__seed2

Text Generation • Updated Oct 5, 2023 • 8

lm-human-preference-details

AI & ML interests

lm-human-preference-details's activity

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

A2C is a special case of PPO

Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

2 OLMo 2 Furious

Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement Learning

Zephyr: Direct Distillation of LM Alignment

Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning Platform

Rlhf Demo

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed1

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed5

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed3

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed4

lm-human-preference-details/train_policy_accelerate_tf_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed2

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed3

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed5

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed2

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2_xl_grad_accu__sentiment_offline_5k.json__seed4

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2__sentiment_offline_5k.json__seed5

lm-human-preference-details/train_policy_accelerate_pt_adam_gpt2__sentiment_offline_5k.json__seed2

AI & ML interests

Team members 1

lm-human-preference-details's activity

Rlhf Demo