表格对齐不正确导致在阅读 docx 时出现重复

Incorrect table alignment causing duplicates when reading through docx

提问人:frisbeee 提问时间:10/10/2023 最后编辑:frisbeee 更新时间:10/11/2023 访问量:58

问:

我正在用 Python 解析一个 word 文件。其中一个表在 df 中显示重复列。我认为这是因为前两行与底行不在同一行。这是表格在 word enter image description here 中的样子 这是 vscode 输出 enter image description here 我无法控制文件的创建方式,所以我的选择是在阅读表格后在 Python 中清理/格式化它。我不确定如何清理它/修复格式。我可以将“\t”替换为“”,但这无济于事。我可以从 docx.enum.table 导入WD_ALIGN_VERTICAL使用吗?这是我读取表格的代码:

tables = []
for table in doc.tables:

    df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]

    for i, row in enumerate(table.rows):
        for j, cell in enumerate(row.cells):
            if cell.text:
                df[i][j] = cell.text

    tables.append(pd.DataFrame(df))

    t7 = tables[7]

表 7 是以这种方式运行的表。

任何指导或帮助将不胜感激!如果需要,我可以添加更多信息。谢谢

Python visual-studio-code ms-word xml 解析

评论


答: 暂无答案