Why there are not only one token_Id for some tokens?

by Sev777 - opened Nov 2, 2023

Nov 2, 2023

# sample code to repro the bug
>>> tokenizer = LlamaTokenizer.from_pretrained(‘huggingface/open_llama_7b’)
>>> tokenizer.encode('London')
[1, 2516]
>>> tokenizer.decode(2516)
'London'
>>> tokenizer.decode(20719)
'London'
>>>  tokenizer.decode(2516)==tokenizer.decode(20719)
True

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment