NLP 问答列表

如何解决 [nltk_data] 加载非索引字时出错:<urlopen 错误 [WinError 10060]

作者:Ashutosh Bhoi 提问时间:9/28/2023

无法执行代码: nltk.download('stopwords') import nltk #it worked fine nltk.download('stopwords') 它返回以...

BLTK 文档使用错误:Google Colab 中的“dict_vectorizer”模块问题 – 寻求解决方案

作者:Ihsan Ahmad 提问时间:9/30/2023

错误按摩截图我正在遵循 BLTK 文档来预处理 bangali 文本并在 google colab 中练习。 当我运行此代码时,我遇到了一个错误。 似乎“dict_vectorizer”可能被移到了...

确定最有用的特定于域的令牌,以添加到 huggingface 转换器中的现有标记器

作者:Carlos Muradyan 提问时间:10/17/2023

我正在使用一个模型,使用huggingface转换器在医疗领域执行令牌分类任务。不幸的是,我没有足够的数据来设置新的分词器并从头开始训练新模型,所以我正在使用现有的基于 bert 的模型并对其进行微调...

.NET 的自然语言日期/时间分析器?[已结束]

作者:palmsey 提问时间:8/23/2008

闭。这个问题正在寻求有关书籍、工具、软件库等的建议。它不符合 Stack Overflow 准则。它目前不接受答案。 我们不允许向读者、工具、软件库等寻求推荐的问题。您可以编辑问题,以便用事实和引文...

在增加词汇量后,DistilBert 标记化不会在单词内标记的开头添加磅 (##)

作者:Carlos Muradyan 提问时间:10/17/2023

我正在用来自新语料库的新令牌来丰富 DistilBert tokenizer。 使用分词器,并基于 Huggingface NLP 课程,通过从单词开头找到“尽可能长的标记”,将其拆分,然后对单词的其...

如何利用人类专业知识来增强 GPT 对 PDF 内容的理解?

作者:Jakub Szlaur 提问时间:10/22/2023

我想创建一个系统,其中 GPT 模型扫描多个 PDF,然后它应该询问有关文档的“信息差距”的问题。例如,将传递两个文档,文档 A 将讨论模块 A,文档 B 将讨论文档 B。但是没有关于文档如何连接的规...


共66条 当前第7页