从文本中提取引文 [已关闭]

Extract citations from texts [closed]

提问人:hieu nguyen 提问时间:11/15/2023 最后编辑:desertnauthieu nguyen 更新时间:11/16/2023 访问量:48

问:


我们不允许提出有关书籍、工具、软件库等建议的问题。您可以编辑问题,以便用事实和引文来回答。

7天前关闭。

我有一个项目从 pdf 中提取引文(不是文内引文,通常是最后的引文)。我们将 pdf 转换为文本字符串。但是由于 OCR 模块 (pytesseract) 没有输出干净的文本和格式,因此存在一些拼写错误的单词和奇怪的符号。我们没有训练数据,只有几个样本。

我尝试使用正则表达式来提取引文。但我失败了,因为没有一套固定的自定义规则可以让我考虑所有情况。你有这方面的经验吗?

我通过粘贴示例文本来尝试 ChatGPT,它给了我如此干净准确的引用结果。但我想自己建立一个模型,因为我们正在做我们自己的任务,即自动化从许多 pdf 文档中提取引文的过程。

我研究了一些专注于 GPT 的 LLM,因为我认为只有生成文本模型才能帮助我们。在我们的例子中,文本分类模型的灵活性较低。我应该尝试预训练模型吗?我知道LLaMA-2 7gb好用吗?但不确定它是否免费。由于我们的财务限制,OpenAI API 超出了范围。我对 NLP 比较陌生,但我对我的 Python 编程和统计技术很有信心。

你有什么建议?

Python 机器学习 NLP 大型语言模型 GPT-3

评论

0赞 KLaz 11/15/2023
大约有多少个文献,每个文献有多少次引用?
0赞 KLaz 11/15/2023
引文提取有不同的选项,但首先:如果文档是研究论文,您可以先尝试使用 refextract:,然后,而无需将 pdf 文档转换为文本字符串。对于论文有序参考文献列表中的每个参考文献,输出字典中都会有多个条目,因此可能需要进行一些后处理。pip install refextractfrom refextract import extract_references_from_file references = extract_references_from_file('researchpaper.pdf')

答: 暂无答案