从文档中出现的 docx 文档中提取编号列表（python 3.X）-解网

问：

我有需要解析的文档，提取文档中出现的编号列表。例如：.docx

然而，不同的方法并没有产生任何结果。到目前为止，我尝试过：

使用像这样的工具。根本不提取列表。python-docx
直接解析文档。当值在列表中随机更改时失败，我怀疑是由于创建文档时的人为错误......不知道如何处理这个问题。XMLw:numId
用于将转换为字符串。到目前为止最接近的方法，但没有保持相同的结构 - 输出如下所示：pandoc.docx

extra_args=["--number-sections"]不会改变任何东西。我可以在转换后使用脚本解析字符串，但我将其留给最后的解决方案，而是希望有一个更干净的解决方案。

关于如何解决这个问题的任何想法？这似乎是一项微不足道的任务，但在过去的几天里，它一直让我发疯。先谢谢你！

python 文本 docx 文档

评论

0赞 Daviid 11/3/2023

这回答了你的问题吗？使用 Python-Docx 获取 docx 文件中列表项的列表编号

0赞 Daviid 11/3/2023

还有这个

0赞 Dion 11/3/2023

@Daviid谢谢！我以前尝试过第一篇文章，但从第二篇文章开始就奏效了！aspose-words

答：

0赞 Dion 11/3/2023 #1

aspose-words似乎正确提取列表：）谢谢@Daviid！

import aspose.words as aw

doc = aw.Document(FILEPATH)

#convert to .txt
doc.save(os.path.basename(FILEPATH)+".txt")

#read as string
docstr = open(os.path.basename(FILEPATH)+".txt", "r").read()

上一个：使用具有非 XSL 转换的 Docx4j 将 DOCX 转换为 PDF 时出现 Nullpointer 异常

下一个：使用 Powershell 批量编辑（查找和替换）docx 文件及其页脚和页眉