PM-pair - a RLHFlow Collection

RLHFlow 's Collections

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

PM-pair

updated May 10

This is a collection of materials for training pairwise preference model.

RLHFlow/pair-preference-dataset-mix1

Viewer • Updated May 6 • 548k • 40 • 1
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated May 24 • 2.56k • 32
RLHFlow/pair_preference_model_dataset

Viewer • Updated Apr 20 • 699k • 200 • 1