t5-abs-2209-2245-lr-0.001-bs-5-maxep-20

This model is a fine-tuned version of google-t5/t5-base on the None dataset. It achieves the following results on the evaluation set:

Loss: 2.3529
Rouge/rouge1: 0.4351
Rouge/rouge2: 0.1856
Rouge/rougel: 0.3628
Rouge/rougelsum: 0.3635
Bertscore/bertscore-precision: 0.8903
Bertscore/bertscore-recall: 0.8895
Bertscore/bertscore-f1: 0.8895
Meteor: 0.3786
Gen Len: 39.1091

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.001
train_batch_size: 5
eval_batch_size: 5
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 10
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 20
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Rouge/rouge1	Rouge/rouge2	Rouge/rougel	Rouge/rougelsum	Bertscore/bertscore-precision	Bertscore/bertscore-recall	Bertscore/bertscore-f1	Meteor	Gen Len
1.8988	1.0	87	1.7718	0.4358	0.2026	0.3713	0.3725	0.8968	0.8886	0.8925	0.3812	36.0364
1.6396	2.0	174	1.8159	0.4602	0.2124	0.3899	0.3907	0.8947	0.8923	0.8933	0.4147	38.8455
1.4382	3.0	261	1.8736	0.4566	0.207	0.3863	0.387	0.8972	0.892	0.8944	0.4039	37.6091
1.1395	4.0	348	1.8182	0.4505	0.197	0.3856	0.3852	0.8976	0.89	0.8937	0.3893	35.1455
1.4623	5.0	435	2.2330	0.4078	0.1637	0.3412	0.342	0.8953	0.8848	0.8898	0.3459	33.8182
1.5783	6.0	522	2.1105	0.4348	0.1859	0.365	0.3656	0.8955	0.889	0.892	0.3802	36.4
1.4249	7.0	609	2.1361	0.4364	0.1875	0.3675	0.3685	0.8962	0.8894	0.8926	0.3808	36.0909
1.3649	8.0	696	2.1641	0.4348	0.1822	0.3672	0.3677	0.8939	0.8886	0.891	0.3777	36.8364
1.3433	9.0	783	2.2002	0.4382	0.183	0.3703	0.3707	0.8932	0.8888	0.8907	0.3833	37.2
1.3906	10.0	870	2.2522	0.4359	0.1854	0.3644	0.3648	0.895	0.8897	0.8922	0.3804	37.1091
1.4484	11.0	957	2.3514	0.4343	0.1854	0.3628	0.3632	0.89	0.8892	0.8892	0.3767	38.7273
1.4984	12.0	1044	2.3529	0.4351	0.1853	0.3626	0.3632	0.8903	0.8895	0.8895	0.3783	39.1091
1.5084	13.0	1131	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.4992	14.0	1218	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.5098	15.0	1305	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.5147	16.0	1392	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.494	17.0	1479	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.5169	18.0	1566	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.5183	19.0	1653	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091
1.5101	20.0	1740	2.3529	0.4351	0.1856	0.3628	0.3635	0.8903	0.8895	0.8895	0.3786	39.1091

Framework versions

Transformers 4.44.0
Pytorch 2.4.0
Datasets 2.21.0
Tokenizers 0.19.1

roequitz
/

t5-abs-2209-2245-lr-0.001-bs-5-maxep-20

t5-abs-2209-2245-lr-0.001-bs-5-maxep-20

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for roequitz/t5-abs-2209-2245-lr-0.001-bs-5-maxep-20

Evaluation results