替换分词器中的特殊 [unusedX] 标记,以在基于 Bert 的模型中添加特定于域的单词 - huggingface
作者:Carlos Muradyan 提问时间:10/17/2023
假设我有特定于域的单词,我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...
tokenize 问答列表
作者:Carlos Muradyan 提问时间:10/17/2023
假设我有特定于域的单词,我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...
作者:Maxwell 提问时间:11/15/2023
闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 5天前关闭。 改进此问题 如何使用 Buffe...
作者:donutcheese 提问时间:11/12/2023
已关闭。这个问题需要细节或澄清。它目前不接受答案。 想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。 8天前关闭。 改进此问题 我得到了一个令牌内容,我想完成类的方法以执行令牌化过程...
作者:Jon Larsen 提问时间:11/9/2023
我的谷歌foo让我失望了。 我们有一个由数千个文件的 10 个文件编译的系统。 其中数百个我们有一个环境令牌 {#...#}。大多数都是 PL/SQL,因此我们部署的是单个文件,而不是构建的包。 当我...
作者:i222025 Amna Javaid 提问时间:11/9/2023
闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 10天前关闭。 改进此问题 我正在尝试对文件进...
作者:kartik trivedi 提问时间:11/6/2023
我正在尝试为我拥有以下代码的每个类别的产品在评论中找到前 5 个关键字 # Group by category and count keyword frequencies keyword_count...
作者:Gha 提问时间:10/25/2023
我想将数据分为变量。该函数不起作用,库未定义。我正在研究 Python google colab。train_datasettest_datasettokenize_and_split_datauti...
作者:lrthistlethwaite 提问时间:10/25/2023
我正在尝试使 Bert 的 () 标记化令牌索引(不是 ids,令牌索引)映射到 Spacy 的标记化令牌索引。在下面的示例中,我的方法不起作用,因为 Spacy 的标记化行为比我预期的要复杂一些。关...
作者:user497032 提问时间:10/22/2023
我正在微调骆马 7b 模型。 我使用 1,000 个样本来微调 LoRA,如下所示: {"instruction": "the weather is hot, please open air co...
作者:Carlos Muradyan 提问时间:10/17/2023
我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。 使用分词器,并基于 Huggingface NLP 课程,通过从单词开头找到“尽可能长的标记”,将其拆分,然后对单词的其...