您好,add_token.json内容和models不匹配,这个应该怎么修改

#22
by redauzhang - opened

这个地方出现,vocab和 add_token 不匹配,应该怎么修改。
我是需要把这个bin改成其他格式的文件,比如让 llama.cpp 进行驱动
image.png

Fengshenbang-LM org
edited Jun 7, 2023

实际词表 39410,config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行(需被128整除)自动给 embedding 增加了 dummy token ,这部分参数没有意义。

具体怎么修改需要看下 llama.cpp 脚本,可以尝试加 added_token 到 39424,或者如果没有类似需要切分补全的操作,在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.

相关 issue 可能有用 https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/5

实际词表 39410,config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行(需被128整除)自动给 embedding 增加了 dummy token ,这部分参数没有意义。

具体怎么修改需要看下 llama.cpp 脚本,可以尝试加 added_token 到 39424,或者如果没有类似需要切分补全的操作,在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.

相关 issue 可能有用 https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/5

好的,你帮了大忙了,我再研究下。

redauzhang changed discussion status to closed

Sign up or log in to comment