tokenize 问答列表

替换分词器中的特殊 [unusedX] 标记,以在基于 Bert 的模型中添加特定于域的单词 - huggingface

作者:Carlos Muradyan 提问时间:10/17/2023

假设我有特定于域的单词,我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...

如何使用 java 读取 xml、csv?如何tokernise等等?Maxwell [已关闭]

作者:Maxwell 提问时间:11/15/2023

闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 5天前关闭。 改进此问题 如何使用 Buffe...

如何在不使用 rg 的情况下实现代币?[关闭]

作者:donutcheese 提问时间:11/12/2023

已关闭。这个问题需要细节或澄清。它目前不接受答案。 想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。 8天前关闭。 改进此问题 我得到了一个令牌内容,我想完成类的方法以执行令牌化过程...

获取标记化文件列表并部署它们

作者:Jon Larsen 提问时间:11/9/2023

我的谷歌foo让我失望了。 我们有一个由数千个文件的 10 个文件编译的系统。 其中数百个我们有一个环境令牌 {#...#}。大多数都是 PL/SQL,因此我们部署的是单个文件,而不是构建的包。 当我...

NLTK Python 库 Word Tokenizatio 错误 [已关闭]

作者:i222025 Amna Javaid 提问时间:11/9/2023

闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 10天前关闭。 改进此问题 我正在尝试对文件进...

使用 group_by 功能显示每个类别的前 5 个关键字

作者:kartik trivedi 提问时间:11/6/2023

我正在尝试为我拥有以下代码的每个类别的产品在评论中找到前 5 个关键字 # Group by category and count keyword frequencies keyword_count...

NameError:Python 代码中未定义名称“tokenize_and_split_data”

作者:Gha 提问时间:10/25/2023

我想将数据分为变量。该函数不起作用,库未定义。我正在研究 Python google colab。train_datasettest_datasettokenize_and_split_datauti...

将 BERT 代币指数映射到 Spacy 代币指数

作者:lrthistlethwaite 提问时间:10/25/2023

我正在尝试使 Bert 的 () 标记化令牌索引(不是 ids,令牌索引)映射到 Spacy 的标记化令牌索引。在下面的示例中,我的方法不起作用,因为 Spacy 的标记化行为比我预期的要复杂一些。关...

LoRA 微调结果不佳

作者:user497032 提问时间:10/22/2023

我正在微调骆马 7b 模型。 我使用 1,000 个样本来微调 LoRA,如下所示: {"instruction": "the weather is hot, please open air co...

在增加词汇量后,DistilBert 标记化不会在单词内标记的开头添加磅 (##)

作者:Carlos Muradyan 提问时间:10/17/2023

我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。 使用分词器,并基于 Huggingface NLP 课程,通过从单词开头找到“尽可能长的标记”,将其拆分,然后对单词的其...


共19条 当前第1页