metadata

license: gemma
base_model: tanliboy/zephyr-gemma-2-9b-sft
tags:
  - alignment-handbook
  - trl
  - dpo
  - generated_from_trainer
  - trl
  - dpo
  - generated_from_trainer
datasets:
  - HuggingFaceH4/ultrafeedback_binarized
model-index:
  - name: zephyr-gemma-2-9b-dpo-2
    results: []

zephyr-gemma-2-9b-dpo-2

This model is a fine-tuned version of tanliboy/zephyr-gemma-2-9b-sft on the HuggingFaceH4/ultrafeedback_binarized dataset. It achieves the following results on the evaluation set:

Loss: 0.5277
Rewards/chosen: -0.6084
Rewards/rejected: -1.2304
Rewards/accuracies: 0.6880
Rewards/margins: 0.6220
Logps/rejected: -407.4499
Logps/chosen: -375.1572
Logits/rejected: -14.2928
Logits/chosen: -14.1056

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-07
train_batch_size: 2
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 8
gradient_accumulation_steps: 4
total_train_batch_size: 64
total_eval_batch_size: 16
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 1

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6677	0.1047	100	0.6651	0.0269	-0.0301	0.6440	0.0570	-287.4193	-311.6301	-9.5213	-9.2788
0.5915	0.2094	200	0.5920	-0.3361	-0.6472	0.6880	0.3110	-349.1276	-347.9349	-11.9562	-11.6561
0.5723	0.3141	300	0.5674	-0.3955	-0.7898	0.6880	0.3943	-363.3917	-353.8749	-12.6873	-12.4526
0.5622	0.4187	400	0.5468	-0.5688	-1.0827	0.6800	0.5139	-392.6759	-371.2007	-14.2367	-13.9401
0.5441	0.5234	500	0.5363	-0.6274	-1.2091	0.6680	0.5817	-405.3189	-377.0607	-14.3976	-14.1308
0.5125	0.6281	600	0.5344	-0.5757	-1.1705	0.6840	0.5948	-401.4605	-371.8937	-14.3713	-14.1120
0.5158	0.7328	700	0.5316	-0.6220	-1.2328	0.6760	0.6108	-407.6867	-376.5182	-14.2832	-14.1010
0.5133	0.8375	800	0.5278	-0.6258	-1.2452	0.6800	0.6193	-408.9254	-376.9043	-14.2747	-14.0908
0.5098	0.9422	900	0.5276	-0.6043	-1.2270	0.6960	0.6227	-407.1073	-374.7531	-14.2849	-14.1010

Framework versions

Transformers 4.43.1
Pytorch 2.3.1+cu121
Datasets 2.19.1
Tokenizers 0.19.1