huggingface-tokenizers 问答列表

确定最有用的特定于域的令牌,以添加到 huggingface 转换器中的现有标记器

作者:Carlos Muradyan 提问时间:10/17/2023

我正在使用一个模型,使用huggingface转换器在医疗领域执行令牌分类任务。不幸的是,我没有足够的数据来设置新的分词器并从头开始训练新模型,所以我正在使用现有的基于 bert 的模型并对其进行微调...

替换分词器中的特殊 [unusedX] 标记,以在基于 Bert 的模型中添加特定于域的单词 - huggingface

作者:Carlos Muradyan 提问时间:10/17/2023

假设我有特定于域的单词,我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...

在增加词汇量后,DistilBert 标记化不会在单词内标记的开头添加磅 (##)

作者:Carlos Muradyan 提问时间:10/17/2023

我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。 使用分词器,并基于 Huggingface NLP 课程,通过从单词开头找到“尽可能长的标记”,将其拆分,然后对单词的其...


共3条 当前第1页