确定最有用的特定于域的令牌,以添加到 huggingface 转换器中的现有标记器

Identifying most useful domain-specific tokens for adding to the existing tokenizer in huggingface transformers

提问人:Carlos Muradyan 提问时间:10/17/2023 更新时间:10/17/2023 访问量:17

问:

我正在使用一个模型,使用huggingface转换器在医疗领域执行令牌分类任务。不幸的是,我没有足够的数据来设置新的分词器并从头开始训练新模型,所以我正在使用现有的基于 bert 的模型并对其进行微调。但是,我想添加一些特定于域的单词/标记以提高性能。

我最初的想法是在医学领域制作一个新的词汇量有限的 WordPiece 分词器,并将标记添加到预训练的分词器中,这些标记器从那里缺失。但是,我想出了这篇文章,建议将分词器与 sklearn 一起使用,并且只添加单词而不是标记,因为新标记可能会弄乱预训练分词器的现有逻辑。SpaCyTfidfVectorizer

关于哪种方法可能更好的任何建议?

NLP tokenize huggingface-tokenizers

评论


答: 暂无答案