tokenize知识经验-解网

作者：Carlos Muradyan 提问时间：10/17/2023

假设我有特定于域的单词，我想将其添加到我用于进一步微调模型的分词器中。BERT 的 Tokenizer 是具有 [[unusedX] tokens] 的 tokenizer 之一。添加新令牌的方法之一...

作者：Maxwell 提问时间：11/15/2023

闭。此问题需要调试详细信息。它目前不接受答案。编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 5天前关闭。改进此问题如何使用 Buffe...

作者：donutcheese 提问时间：11/12/2023

已关闭。这个问题需要细节或澄清。它目前不接受答案。想改进这个问题吗？通过编辑这篇文章添加详细信息并澄清问题。 8天前关闭。改进此问题我得到了一个令牌内容，我想完成类的方法以执行令牌化过程...

作者：Jon Larsen 提问时间：11/9/2023

我的谷歌foo让我失望了。我们有一个由数千个文件的 10 个文件编译的系统。其中数百个我们有一个环境令牌 {#...#}。大多数都是 PL/SQL，因此我们部署的是单个文件，而不是构建的包。当我...

作者：i222025 Amna Javaid 提问时间：11/9/2023

闭。此问题需要调试详细信息。它目前不接受答案。编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 10天前关闭。改进此问题我正在尝试对文件进...

作者：kartik trivedi 提问时间：11/6/2023

我正在尝试为我拥有以下代码的每个类别的产品在评论中找到前 5 个关键字 # Group by category and count keyword frequencies keyword_count...

作者：Gha 提问时间：10/25/2023

我想将数据分为变量。该函数不起作用，库未定义。我正在研究 Python google colab。train_datasettest_datasettokenize_and_split_datauti...

作者：lrthistlethwaite 提问时间：10/25/2023

我正在尝试使 Bert 的（）标记化令牌索引（不是 ids，令牌索引）映射到 Spacy 的标记化令牌索引。在下面的示例中，我的方法不起作用，因为 Spacy 的标记化行为比我预期的要复杂一些。关...

作者：user497032 提问时间：10/22/2023

我正在微调骆马 7b 模型。我使用 1,000 个样本来微调 LoRA，如下所示： {"instruction": "the weather is hot, please open air co...

作者：Carlos Muradyan 提问时间：10/17/2023

我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。使用分词器，并基于 Huggingface NLP 课程，通过从单词开头找到“尽可能长的标记”，将其拆分，然后对单词的其...