如何将单个标签中具有多个属性值的XML解析为DataFrame？-解网

问：

<?xml version="2.0" encoding="UTF-8" ?><timestamp="20220113">
<defintions>
    <defintion id="1" old_id="0">Lang</defintion>
    <defintion id="7" old_id="1">Eng</defintion>

如何解析如下所示的 XML 文件？在这里，我在单个标签中有多个值。我想以 or 格式提取“ID”和“OLD_ID”等值。listdataframe

python-3.x beautifulsoup xml解析

例

from bs4 import BeautifulSoup
import pandas as pd

xml = '''<?xml version="2.0" encoding="UTF-8" ?><timestamp="20220113">
<defintions>
    <defintion id="1" old_id="0">Lang</defintion>
    <defintion id="7" old_id="1">Eng</defintion>
'''
soup = BeautifulSoup(xml,'xml')


pd.DataFrame(
    [
        (e.get('id'),e.get('old_id'))
        for e in soup.select('defintion')
    ],
    columns = ['id','old_id']
)

输出

	编号	old_id
0	1	0
1	7	1

您还能帮助第二个用例吗？在这种情况下，我需要提取一个组合：一个标签的属性（即像我们之前所做的那样提供），一些标签本身的内容（例如级别、名称），然后是第一个标签的属性（时间戳），其值将在所有字段中重复。我编辑了qs

0赞 HedgeHog 1/23/2023

为了保持原始问题的干净，这注定要提出一个具有确切重点的新问题 - 只需在评论中删除链接即可参考您的新答案。会很棒

0赞 x89 1/23/2023

stackoverflow.com/questions/75210241/......

0赞 Hermann12 1/25/2023 #3

如果你有一个有效的 XML，比如（timestamp 标签不能有像属性这样的值）：

<?xml version='1.0' encoding='utf-8'?>
<root timestamp='20220113'>
<defintions>
    <defintion id="1" old_id="0">Lang</defintion>
    <defintion id="7" old_id="1">Eng</defintion>
</defintions>
</root>

比你可以用：pandas

import pandas as pd

df = pd.read_xml('x89.xml', xpath='.//defintion')
print(df.to_string(index=False))

输出：

 id  old_id defintion
  1       0      Lang
  7       1       Eng

上一个：如何解析嵌套的XML并提取属性+标签文本？

下一个：解析嵌套 XML 并将数据展平为行 - PySpark

如何将单个标签中具有多个属性值的XML解析为DataFrame？

How to parse XML with multiple attribute values within a single tag to DataFrame?

评论

评论

例

输出

评论