从文本中提取引文 [已关闭]-解网

问：

闭。这个问题正在寻求有关书籍、工具、软件库等的建议。它不符合 Stack Overflow 准则。它目前不接受答案。

我们不允许提出有关书籍、工具、软件库等建议的问题。您可以编辑问题，以便用事实和引文来回答。

7天前关闭。

改进此问题

我有一个项目从 pdf 中提取引文（不是文内引文，通常是最后的引文）。我们将 pdf 转换为文本字符串。但是由于 OCR 模块（pytesseract）没有输出干净的文本和格式，因此存在一些拼写错误的单词和奇怪的符号。我们没有训练数据，只有几个样本。

我尝试使用正则表达式来提取引文。但我失败了，因为没有一套固定的自定义规则可以让我考虑所有情况。你有这方面的经验吗？

我通过粘贴示例文本来尝试 ChatGPT，它给了我如此干净准确的引用结果。但我想自己建立一个模型，因为我们正在做我们自己的任务，即自动化从许多 pdf 文档中提取引文的过程。

我研究了一些专注于 GPT 的 LLM，因为我认为只有生成文本模型才能帮助我们。在我们的例子中，文本分类模型的灵活性较低。我应该尝试预训练模型吗？我知道LLaMA-2 7gb好用吗？但不确定它是否免费。由于我们的财务限制，OpenAI API 超出了范围。我对 NLP 比较陌生，但我对我的 Python 编程和统计技术很有信心。

你有什么建议？

Python 机器学习 NLP 大型语言模型 GPT-3

引文提取有不同的选项，但首先：如果文档是研究论文，您可以先尝试使用 refextract：，然后，而无需将 pdf 文档转换为文本字符串。对于论文有序参考文献列表中的每个参考文献，输出字典中都会有多个条目，因此可能需要进行一些后处理。pip install refextractfrom refextract import extract_references_from_file references = extract_references_from_file('researchpaper.pdf')

答： 暂无答案

上一个：无法从“typing_extensions”导入名称“TypeAliasType”（/usr/local/lib/python3.10/dist-packages/typing_extensions.py）

下一个：无法使用 GGRAPH 将颜色从其他变量映射到网络图

从文本中提取引文 [已关闭]

Extract citations from texts [closed]

评论