确定最有用的特定于域的令牌，以添加到 huggingface 转换器中的现有标记器-解网

问：

我正在使用一个模型，使用huggingface转换器在医疗领域执行令牌分类任务。不幸的是，我没有足够的数据来设置新的分词器并从头开始训练新模型，所以我正在使用现有的基于 bert 的模型并对其进行微调。但是，我想添加一些特定于域的单词/标记以提高性能。

我最初的想法是在医学领域制作一个新的词汇量有限的 WordPiece 分词器，并将标记添加到预训练的分词器中，这些标记器从那里缺失。但是，我想出了这篇文章，建议将分词器与 sklearn 一起使用，并且只添加单词而不是标记，因为新标记可能会弄乱预训练分词器的现有逻辑。SpaCyTfidfVectorizer

关于哪种方法可能更好的任何建议？

NLP tokenize huggingface-tokenizers

确定最有用的特定于域的令牌，以添加到 huggingface 转换器中的现有标记器

Identifying most useful domain-specific tokens for adding to the existing tokenizer in huggingface transformers

评论