提问人:hieu nguyen 提问时间:11/15/2023 最后编辑:desertnauthieu nguyen 更新时间:11/16/2023 访问量:48
从文本中提取引文 [已关闭]
Extract citations from texts [closed]
问:
闭。这个问题正在寻求有关书籍、工具、软件库等的建议。它不符合 Stack Overflow 准则。它目前不接受答案。
我们不允许提出有关书籍、工具、软件库等建议的问题。您可以编辑问题,以便用事实和引文来回答。
7天前关闭。
我有一个项目从 pdf 中提取引文(不是文内引文,通常是最后的引文)。我们将 pdf 转换为文本字符串。但是由于 OCR 模块 (pytesseract) 没有输出干净的文本和格式,因此存在一些拼写错误的单词和奇怪的符号。我们没有训练数据,只有几个样本。
我尝试使用正则表达式来提取引文。但我失败了,因为没有一套固定的自定义规则可以让我考虑所有情况。你有这方面的经验吗?
我通过粘贴示例文本来尝试 ChatGPT,它给了我如此干净准确的引用结果。但我想自己建立一个模型,因为我们正在做我们自己的任务,即自动化从许多 pdf 文档中提取引文的过程。
我研究了一些专注于 GPT 的 LLM,因为我认为只有生成文本模型才能帮助我们。在我们的例子中,文本分类模型的灵活性较低。我应该尝试预训练模型吗?我知道LLaMA-2 7gb好用吗?但不确定它是否免费。由于我们的财务限制,OpenAI API 超出了范围。我对 NLP 比较陌生,但我对我的 Python 编程和统计技术很有信心。
你有什么建议?
答: 暂无答案
评论
pip install refextract
from refextract import extract_references_from_file references = extract_references_from_file('researchpaper.pdf')