huggingface-tokenizers知识经验-解网

作者：Carlos Muradyan 提问时间：10/17/2023

我正在使用一个模型，使用huggingface转换器在医疗领域执行令牌分类任务。不幸的是，我没有足够的数据来设置新的分词器并从头开始训练新模型，所以我正在使用现有的基于 bert 的模型并对其进行微调...

作者：Carlos Muradyan 提问时间：10/17/2023

假设我有特定于域的单词，我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...

作者：Carlos Muradyan 提问时间：10/17/2023

我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。使用分词器，并基于 Huggingface NLP 课程，通过从单词开头找到“尽可能长的标记”，将其拆分，然后对单词的其...