提问人:Dion 提问时间:11/3/2023 最后编辑:Dion 更新时间:11/3/2023 访问量:31
从文档中出现的 docx 文档中提取编号列表 (python 3.X)
Extracting numbered lists from docx documents as they appear in the document (python 3.X)
问:
我有需要解析的文档,提取文档中出现的编号列表。例如:.docx
然而,不同的方法并没有产生任何结果。到目前为止,我尝试过:
使用像 这样的工具。根本不提取列表。
python-docx
直接解析文档。当值在列表中随机更改时失败,我怀疑是由于创建文档时的人为错误......不知道如何处理这个问题。
XML
w:numId
用于将 转换为字符串。到目前为止最接近的方法,但没有保持相同的结构 - 输出如下所示:
pandoc
.docx
extra_args=["--number-sections"]
不会改变任何东西。我可以在转换后使用脚本解析字符串,但我将其留给最后的解决方案,而是希望有一个更干净的解决方案。
关于如何解决这个问题的任何想法?这似乎是一项微不足道的任务,但在过去的几天里,它一直让我发疯。先谢谢你!
答:
0赞
Dion
11/3/2023
#1
aspose-words
似乎正确提取列表:) 谢谢@Daviid!
import aspose.words as aw
doc = aw.Document(FILEPATH)
#convert to .txt
doc.save(os.path.basename(FILEPATH)+".txt")
#read as string
docstr = open(os.path.basename(FILEPATH)+".txt", "r").read()
评论
aspose-words