标记化 问答列表

Scanner 与 StringTokenizer 与 String.Split

作者:Dave 提问时间:3/28/2009

我刚刚了解了 Java 的 Scanner 类,现在我想知道它如何与 StringTokenizer 和 String.Split 进行比较/竞争。我知道 StringTokenizer 和 Stri...

VSCode 文本伴侣分词器坏了?

作者:John89 提问时间:3/11/2021

我猜我的 python 解释器似乎无法弄清楚它在看什么。我最初在卸载所有扩展然后重新安装 python 扩展包后解决了这个问题,但它再次发生。我也没有安装任何新的扩展程序,所以我不明白发生了什么。...

替换分词器中的特殊 [unusedX] 标记,以在基于 Bert 的模型中添加特定于域的单词 - huggingface

作者:Carlos Muradyan 提问时间:10/17/2023

假设我有特定于域的单词,我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...

python 的字符串查找方法返回 -1 的问题

作者:Helpme 提问时间:11/8/2023

我正在尝试编写一个接受字符串并返回标记位置的函数。该函数在以下情况下工作正常,但是如果我尝试使用字符串 lower 方法,如下面的代码所示,我的第一个元组返回 as 而不是所需的输出tokens = ...

tokenize_2grams图书馆

作者:fatemeh khoshhal 提问时间:11/16/2023

名称“tokenize_2grams”未定义 你能告诉我这个函数(tokenize_2grams)的库是什么吗? tokenize_2grams("Thomas Jefferson began b...


共5条 当前第1页