提问人:Huskie69 提问时间:8/10/2020 最后编辑:glenn jackmanHuskie69 更新时间:2/11/2022 访问量:415
分析带有重复标记的 XML 文件
Parsing XML file with duplicate tags
问:
我目前使用 XML 解析器从 GPX (XML) 文件中提取路由的名称。
每个 GPX 文件都包含一个“名称”标签,这是我一直在提取的。
脚本如下:
#! /bin/bash
gpxpath=/mnt/gpxfiles; export gpxpath
for file in $gpxpath/*
do
filename=`ls $file`; export filenanme
gpxname=`$scripts/xmlparse.pl "$file"`
echo $filename " "$gpxname >> gpxparse.tmp
done
sort -k 2,2 gpxparse.tmp > gpxparse.out
cat gpxparse.out
这是 xmlparse.pl:
#!/usr/bin/perl
use strict;
use warnings;
use XML::Twig;
XML::Twig->new(
twig_handlers => {
'name' => sub { print $_ ->text }
}
)->parse( <> );
下面是一个 GPX 文件示例:
<?xml version="1.0" encoding="UTF-8"?>
<gpx version="1.1" creator="creator" xsi:schemaLocation="http://www.topografix.com/GPX/1/1 http://www.topografix.com/GPX/1/1/gpx.xsd" xmlns="http://www.topografix.com/GPX/1/1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<metadata>
<referrer>Referrer</referrer>
<time>2019-06-17T06:02:23.000Z</time>
</metadata>
<trk>
<name>Another GPX file</name>
<trkseg>
<trkpt lon="-1.91990" lat="53.00131">
<ele>112.1</ele>
<time>2019-06-17T06:02:23.000Z</time>
</trkpt>
<trkpt lon="-1.91966" lat="53.00126">
<ele>113.6</ele>
<time>2019-06-17T06:02:25.000Z</time>
</trkpt>
<trkpt lon="-1.91962" lat="53.00125">
<ele>114.1</ele>
<time>2019-06-17T06:02:25.000Z</time>
</trkpt>
<trkpt lon="-1.91945" lat="53.00120">
<ele>115.5</ele>
<time>2019-06-17T06:02:26.000Z</time>
</trkpt>
</trkseg>
</trk>
</gpx>
我可以使用上面的脚本成功提取路线的名称但是,我还想提取每个文件中的第一个坐标对。
Atrack 可以由“trk”元素定义,并且在轨道中可以是多个段或“trkseg”。最后,在 trkseg 中有多个“trkpt”(跟踪点)。
轨迹点通常由纬度和经度坐标对以及高程和时间戳信息组成。
我只想提取 GPX 文件的第一个 trkpt 中的第一个 lat 和 lon。理想情况下,一旦脚本找到第一个坐标对,它就应该退出并移动到下一个文件。
我尝试制作一个额外的 perl 脚本
我使用 XML::Twig 添加了一个额外的 perl 解析脚本,但是当有多个具有重复名称的元素时,它似乎会绊倒。
答:
4赞
glenn jackman
8/10/2020
#1
使用 xmlstarlet 提取第一个 trkpt 的“name”值和 lat 和 lon:
xmlstarlet sel -t -v '//_:name' -o , \
-v '//_:trkpt[1]/@lat' -o , \
-v '//_:trkpt[1]/@lon' -n \
file.xml
Another GPX file,53.00131,-1.91990
在 shell 脚本中,可以使用以下命令解析此输出:
IFS=, read -r gpxname lat long < <( xmlstarlet ... )
评论
1赞
glenn jackman
8/11/2020
不,这是一个 bash 进程替换。它在某种程度上等同于,但它的行为类似于从文件重定向。read ... <<< "$(xmlstarlet ...)"
0赞
Huskie69
8/14/2020
只是想补充一点,我已经使用这种方法处理了 350 万个 GPX 文件,并且它发现了相当多的无效文件,否则我不会知道 - 再次,很棒的解决方案,谢谢:)
4赞
ikegami
8/11/2020
#2
由于您最初是要寻求 Perl 解决方案的,
perl -MXML::LibXML -e'
my $doc = XML::LibXML->load_xml( location => $ARGV[0] );
my $xpc = XML::LibXML::XPathContext->new();
$xpc->registerNs( gpx => "http://www.topografix.com/GPX/1/1" );
CORE::say
join ",",
$xpc->findnodes(q{/gpx:gpx/gpx:trk/gpx:name}, $doc),
$xpc->findnodes(q{/gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/@lat}, $doc),
$xpc->findnodes(q{/gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/@long}, $doc);
' "$file"
(我使用 XML::LibXML 而不是 XML::Twig,因为我更熟悉它。
与前面答案中的解决方案不同,
- 此解决方案不会对默认命名空间可能是什么做出脆弱的假设。
- 此解决方案不会对元素可能出现或可能不会出现的位置做出脆弱的假设。
name
评论
0赞
Huskie69
8/14/2020
感谢您的介绍,但我似乎无法让此解决方案针对测试XML文件执行。' XPath 错误:表达式 /gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/ ^ 在 -e 第 5 行。' 命名空间可能会发生变化,所以我可能会考虑使用类似“gpx version”而不是 topografix stamped ns
0赞
ikegami
8/15/2020
我最初在 XPath 周围有单引号。当我切换到双引号时,我忘记了逃避。固定@
1赞
ikegami
8/15/2020
回复“命名空间可能会更改”,这不是真的。命名空间定义格式。命名空间无法更改。曾。不同的 XML 格式将具有不同的命名空间,但查询将有所不同,因为它是不同的 XML 格式。(不过,前缀可以一直更改。请注意,XPath 的选择完全是任意的。我可以很容易地使用 .)gpx
foo
1赞
Reino
8/17/2020
#3
这对xidel来说非常容易:
xidel -s input.xml -e 'join((//name,//trkpt[1]/@*),",")'
Another GPX file,-1.91990,53.00131
理想情况下,一旦脚本找到第一个坐标对,它就应该退出并移动到下一个文件。
xidel
,与集成的 EXPath 文件模块一起,可以非常有效地做到这一点:
xidel -se 'file:list("/mnt/gpxfiles")' # lists all files in '/mnt/gpxfiles' (and subdirs!)
xidel -se 'file:list("/mnt/gpxfiles",false(),"*.xml")' # lists all xml-files in '/mnt/gpxfiles'
xidel -se '
for $x in file:list("/mnt/gpxfiles") return
doc("/mnt/gpxfiles/"||$x)/join((//name,//trkpt[1]/@*),",")
' # iterate over and parse all xml-files in '/mnt/gpxfiles' AND extract the info you need.
评论
0赞
Huskie69
8/17/2020
谢谢,我以前没有遇到过 xidel,但整个过程实际上是将坐标对解析为反向地理编码 api 以返回地理位置 - 从 API 返回为 json 数组 - 目前使用 jq,但我会玩 xidel,看看它能做什么:)
1赞
Reino
8/18/2020
@Huskie69有点像 ,和/都包裹在一个,所以很有可能可以做你想做的事。xidel
curl
jq
xmlstarlet
xmllint
xidel
0赞
WGroleau
2/11/2022
#4
我在其他答案中看到了一些更优雅的方法,但我可能会使用蛮力方法:
grep name {file} | head -1
grep "trkpt lon" {file} | head -1
然后使用 Perl 或 SED 将结果编辑为所需的部分。
评论