9 10 21

Shengyi Costa Huang

vwxyzjn

http://costa.sh

vwxyzjn

AI & ML interests

None yet

Articles

Organizations

Collections 2

Papers 5

spaces 3

Runtime error

🔥

Aim

Sleeping

😻

Vwxyzjn Testyes4

Runtime error

📊

Pyserini Wikipedia Kilt Doc

models 361

vwxyzjn/ppo1

Text Generation • Updated 3 days ago

vwxyzjn/trace

Updated 3 days ago

vwxyzjn/rm_160m2

Updated 13 days ago

vwxyzjn/rm_160m1

Updated 13 days ago

vwxyzjn/rm_1b

Text Classification • Updated 13 days ago

vwxyzjn/ppo

Text Generation • Updated 13 days ago

vwxyzjn/rm

Text Classification • Updated 13 days ago • 6

vwxyzjn/ppo_zephyr_vllm_1e-6_kl_0.02_num_mini_batches_2

Text Generation • Updated 20 days ago

vwxyzjn/ppo_zephyr_vllm_1e-6_kl_0.02_num_mini_batches_1

Text Generation • Updated 20 days ago

vwxyzjn/ppo_zephyr_vllm_2e-6_kl_0.03_num_mini_batches_4

Text Generation • Updated 21 days ago • 16

datasets 160

vwxyzjn/tldr-preference-sft-trl-style

Viewer • Updated 8 days ago • 130k • 3

vwxyzjn/tldr-preference-trl-style

Viewer • Updated 8 days ago • 179k • 1

vwxyzjn/sentiment-trl-style

Viewer • Updated 13 days ago • 100 • 3

vwxyzjn/costaprompt

Viewer • Updated Apr 23 • 1 • 4

vwxyzjn/summarize_from_feedback_oai_preprocessing_1711138793

Viewer • Updated Mar 22 • 179k • 3

vwxyzjn/summarize_from_feedback_tldr_3_filtered_oai_preprocessing_1711138793

Viewer • Updated Mar 22 • 130k • 1

vwxyzjn/summarize_from_feedback_oai_preprocessing_1711138537

Viewer • Updated Mar 22 • 179k • 2

vwxyzjn/summarize_from_feedback_oai_preprocessing_1711138084

Viewer • Updated Mar 22 • 179k • 4

vwxyzjn/summarize_from_feedback_tldr_3_filtered_oai_preprocessing_1711138084

Viewer • Updated Mar 22 • 130k • 3

vwxyzjn/hh-rlhf-trl-style

Viewer • Updated Mar 13 • 100 • 4

Shengyi Costa Huang

AI & ML interests

Articles

Putting RL back in RLHF

Constitutional AI with Open LLMs

The N Implementation Details of RLHF with PPO

Organizations

Collections 2

Papers 5

spaces 3 Sort: Recently updated

Aim

Vwxyzjn Testyes4

Pyserini Wikipedia Kilt Doc

models 361 Sort: Recently updated

datasets 160 Sort: Recently updated

spaces 3

models 361

datasets 160