如何读取 html 页面并将其内容转换为 xml 以读取内容?

How can I read an html page and convert its content to xml to read the content?

提问人:Ahmad Al- Hashlamoun 提问时间:7/22/2019 更新时间:8/9/2019 访问量:123

问:

我有一个指向 html 页面的链接 - 一个博客页面 - 我想从 php laravel 代码中读取其内容并从那里提取一些数据字段。

这些页面将像这样:https://www.mashvisor.com/blog/san-francisco-real-estate-market-worth-it/

我正在使用 Laravel 5.0 来做到这一点。如何提取作者和标题等字段?

php xml laravel html-解析

评论

4赞 misorude 7/22/2019
这是一个非常广泛的问题,我认为你应该做一些更多的初步研究。
0赞 Ghlen 7/22/2019
我确实会开始更多地研究 DOM 爬虫。Laravel不会帮你解决这个问题。我个人为此使用了 symfony dom 爬虫等工具。祝你好运。
1赞 Ing. Luca Stucchi 7/22/2019
你可以在这里 stackoverflow.com/questions/9813273/web-scraping-in-php 开始看看,甚至在这里更好 stackoverflow.com/questions/584826/scrape-web-page-contents

答:

1赞 Mark 8/9/2019 #1

由于您要从中获取数据的站点是 Wordpress,因此只需使用可用的 api。它以 json 格式提供您要查找的数据。

https://www.mashvisor.com/blog/wp-json/wp/v2/posts