BAAI/bge-large-zh-v1.5 · 实测效果不好

yuyijiong

Dec 7, 2023

•

edited Dec 7, 2023

经过对比，效果完全不如intfloat/multilingual-e5-large，甚至简单任务也难以正确召回。

zl101

Beijing Academy of Artificial Intelligence org Dec 7, 2023

e5-large is for EN, bge-large-zh-v1.5 is for ZH. double check it? or perpahs you may post your cases in the thread. many thanks :)

Shitao

Beijing Academy of Artificial Intelligence org Dec 7, 2023

您好，不同模型训练策略不一致，在不同任务上任务效果不同，您可以选择适合您的模型，也可以选择微调一个自己的向量模型。
另外，如果简单任务也做不好，有可能是使用方式有些问题，建议核查一下，包括是否是正确的语言模型，中文用中文，英文用英文；是否使用了指令；推理方式是否正确，bge和e5的pooling方式不同等。

yuyijiong changed discussion status to closed Dec 7, 2023

Alanxc

Jul 29

提问，我的业务目标是针对n份成对的产品描述（比较长）进行微调，我使用了llama index提供的微调方法去做，即构造QA问答对的方式，还有直接把成对的文本分别放在queries和corpus里一一对应的方式，其召回效果都不太理想。想问下如果想按照BGE里面提供的微调方式去做的话，我该怎么构造我的训练和验证数据，因为实际上对于我的目标来说，我只是希望通过微调bge来识别我输入的长文本可以对应到我自己的哪款产品上，达到一个比较高的召回精度。