youbbs
youbbs
3549 4 0

提取网页正文的测试

《Golang实现在线提取新闻网页正文》 https://pylist.com/tools/gogne 是个不错的提取网页正文在线工具。

做了一下测试,对于大多数新闻页面或主体明确的网页都能抓取,如新浪、网易、凤凰、澎湃新闻……

我拿youbbs 的一篇文章 https://www.youbbs.org/t/3227 测试。

默认抓到的是 5楼 的回复,因为5楼的内容最多。

我只想要主贴,填写忽略的 html.node

写的 xpath//*[@class="commont-item"],提取到了主贴。

但是会把标签与相关帖子也提取了,

再填写 xpath 忽略掉这两个内容

//*[@class="commont-item"]|//*[contains(@class, "mytag")]|//*[@class="has_adv"]

终于提取成功!!刚开始感觉挺复杂,回头看看youbbs 正文的源码

标签、相关帖子与正文在同一个 div 里,被抓到也可以理解。

上面的例子可以引申一个想法,好的页面结构利于搜索引擎的抓取分析,想让搜索引擎抓取哪些东西,就得把它们框得清晰一些。当然,搜索引擎也不会那么傻,也会自己学习判断。

0

See Also

Nearby


Discussion (4)

root
root 2020-03-11 07:26

然后goyoubbs成为了最容易采集的网站之一。哈哈

0
youbbs
youbbs 2020-03-11 09:06

@root #1 一开始把tag与相关帖子放在同一个 div 里已经考虑这个问题,好处是可以在被采集的内容里添加更多链接,不好的可能是,初级爬虫工程师去除不了tag和相关帖子,干脆不采了。现在采集及内容提取技术越来越好了,只要内容有足够大的价值,多复杂也能采。

0
root
root 2020-03-11 23:06

@youbbs #2 恩。也是 一般采集工具都可以采集,复杂一点的中正则表达式也可以过滤不要的信息

0
冒烟的蘑菇
冒烟的蘑菇 2020-03-13 01:22

以我开发了十几个爬虫的经验来看,基本上没什么网站是抓不了的~做这些还不如做内容~

0
Login Topics