使用 HTML::TokeParser 解析 html 音频标签

Parse Html Audio Tag Using HTML::TokeParser

提问人:atefth 提问时间:11/5/2016 最后编辑:atefth 更新时间:11/5/2016 访问量:231

问:

我正在尝试在 perl 中编写一个蜘蛛,它将解析域中的所有音频标签,并尝试从找到的每个音频标签中下载相应的内容。audio/mpeg

以下是我的代码中的一个片段,它使用 html 解析 html 以便从标签中提取链接:HTML::TokeParsera

my($response, $base, $stream, $pageURL, $tag, $url);

$response = 'http://example.com/page-with-some-audio-content';
$base = URI->new( $response->base )->canonical;

$stream = HTML::TokeParser->new( $response->content_ref );
$pageURL = URI->new( $response->request->uri );

while($tag = $stream->get_tag('a')) {
    next unless defined($url = $tag->[1]{'href'});
    print $url."\n";
}

上面的代码片段从给定的 html 页面中提取所有链接。这与 url 的哈希一起在循环中使用,以抓取给定域中的所有页面。

下面是另一个片段,几乎与第一个片段完全相同,只是我试图提取音频标签而不是标签:a

my($response, $base, $stream, $pageURL, $tag, $url);

$response = 'http://example.com/page-with-some-audio-content';
$base = URI->new( $response->base )->canonical;

$stream = HTML::TokeParser->new( $response->content_ref );
$pageURL = URI->new( $response->request->uri );

while($tag = $stream->get_tag('audio')) {
    next unless defined($url = $tag->[1]{'onplaying'});
    print $url."\n";
}

由于某种原因,未检测到任何标记。我错过了什么吗?audio


阅读 HTML::TokeParser 文档,我认为我无法提取嵌套 html 元素的属性。

请考虑下面的标记:

<audio onplaying="podPress_html5_count('http://www.example.com/mp3/Some Mp3 File.mp3', this.id)">
   <source src="http://www.example.com/mp3/Some%20Mp3%20File.mp3">
</audio>

我想解析整个html,以仅提取找到的所有标签的属性。因此,如果 html 看起来像这样:srcaudio

  <body>

    <audio onplaying="podPress_html5_count('http://www.example.com/mp3/Some Mp3 File.mp3', this.id)">
      <source src="http://www.example.com/mp3/Some%20Mp3%20File.mp3">
    </audio>

    <audio onplaying="podPress_html5_count('http://www.example.com/mp3/Some Mp3 File 2.mp3', this.id)">
      <source src="http://www.example.com/mp3/Some%20Mp3%20File%202.mp3">
    </audio>

    <audio onplaying="podPress_html5_count('http://www.example.com/mp3/Some Mp3 File 3.mp3', this.id)">
      <source src="http://www.example.com/mp3/Some%20Mp3%20File%203.mp3">
    </audio>
    <audio onplaying="podPress_html5_count('http://www.example.com/mp3/Some Mp3 File 4.mp3', this.id)">
      <source src="http://www.example.com/mp3/Some%20Mp3%20File%204.mp3">
    </audio>

  </body>

预期输出应如下所示:

http://www.example.com/mp3/Some%20Mp3%20File.mp3 http://www.example.com/mp3/Some%20Mp3%20File%202.mp3 http://www.example.com/mp3/Some%20Mp3%20File%203.mp3 http://www.example.com/mp3/Some%20Mp3%20File%204.mp3

因此,我需要解析html文件以仅提取每个标签的属性。srcaudio

perl html 解析

评论

0赞 choroba 11/5/2016
我担心该模块不支持 HTML5。
0赞 atefth 11/5/2016
@choroba呜!!!!呜那么有哪些选择呢?X(

答:

3赞 Steffen Ullrich 11/5/2016 #1

我不熟悉 HTML::Token,但 Mojolicious 的 Mojo:D OM 可用于使用熟悉的 CSS 语法轻松查找和提取链接:

use Mojo::DOM;
my $html = '<body> ... ';
my $dom = Mojo::DOM->new($html);
my @src = map { $_->{src} }
    $dom->find('audio[onplaying] source[src]')->each;

如果您需要从网络中获取 HTML 文件或音频文件,您也可以将其与 Mojo::UserAgent 结合使用。

评论

0赞 atefth 11/5/2016
所以数组应该包含所有音频标签的属性?@srcsrc
1赞 Steffen Ullrich 11/5/2016
@atefth:没错。用你的例子对我有用。