huggingface tokenizer错误
生活随笔
收集整理的這篇文章主要介紹了
huggingface tokenizer错误
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
如果繼承了Tokenizer例如mTokenizer(GPT2Tokenizer),在__init__中加入了一些新tokens,這樣在save之后from_pretrained時不能用mTokenizer.from_pretrained,會報錯。
AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.
這是因為from_pretrained調用時是先初始化實例,再從本地文件中加載詞表,因此mTokenizer初始化時會加入新tokens,而從本地詞表中又會再加一次,導致了重復。最好的做法是把加新tokens的過程移出__init__。
總結
以上是生活随笔為你收集整理的huggingface tokenizer错误的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原神暗铁剑怎么得 单手剑排行榜
- 下一篇: Genesis 推出带有 Oxal 50