从文档中出现的 docx 文档中提取编号列表 (python 3.X)

Extracting numbered lists from docx documents as they appear in the document (python 3.X)

提问人:Dion 提问时间:11/3/2023 最后编辑:Dion 更新时间:11/3/2023 访问量:31

问:

我有需要解析的文档,提取文档中出现的编号列表。例如:.docxenter image description here

然而,不同的方法并没有产生任何结果。到目前为止,我尝试过:

  1. 使用像 这样的工具。根本不提取列表。python-docx

  2. 直接解析文档。当值在列表中随机更改时失败,我怀疑是由于创建文档时的人为错误......不知道如何处理这个问题。XMLw:numId

  3. 用于将 转换为字符串。到目前为止最接近的方法,但没有保持相同的结构 - 输出如下所示:pandoc.docxenter image description here

    extra_args=["--number-sections"]不会改变任何东西。我可以在转换后使用脚本解析字符串,但我将其留给最后的解决方案,而是希望有一个更干净的解决方案。

关于如何解决这个问题的任何想法?这似乎是一项微不足道的任务,但在过去的几天里,它一直让我发疯。先谢谢你!

python 文本 docx 文档

评论

0赞 Daviid 11/3/2023
这回答了你的问题吗?使用 Python-Docx 获取 docx 文件中列表项的列表编号
0赞 Daviid 11/3/2023
还有这个
0赞 Dion 11/3/2023
@Daviid谢谢!我以前尝试过第一篇文章,但从第二篇文章开始就奏效了!aspose-words

答:

0赞 Dion 11/3/2023 #1

aspose-words似乎正确提取列表:) 谢谢@Daviid!

import aspose.words as aw

doc = aw.Document(FILEPATH)

#convert to .txt
doc.save(os.path.basename(FILEPATH)+".txt")

#read as string
docstr = open(os.path.basename(FILEPATH)+".txt", "r").read()