youbbs

Mar 11, 2020 4416 4 0

提取网页正文的测试

《Golang实现在线提取新闻网页正文》 https://pylist.com/tools/gogne 是个不错的提取网页正文在线工具。

做了一下测试，对于大多数新闻页面或主体明确的网页都能抓取，如新浪、网易、凤凰、澎湃新闻……

我拿youbbs 的一篇文章 https://www.youbbs.org/t/3227 测试。

默认抓到的是 5楼 的回复，因为5楼的内容最多。

我只想要主贴，填写忽略的 html.node

写的 xpath 是 //*[@class="commont-item"]，提取到了主贴。

但是会把标签与相关帖子也提取了，

再填写 xpath 忽略掉这两个内容

//*[@class="commont-item"]|//*[contains(@class, "mytag")]|//*[@class="has_adv"]

终于提取成功！！刚开始感觉挺复杂，回头看看youbbs 正文的源码

标签、相关帖子与正文在同一个 div 里，被抓到也可以理解。

上面的例子可以引申一个想法，好的页面结构利于搜索引擎的抓取分析，想让搜索引擎抓取哪些东西，就得把它们框得清晰一些。当然，搜索引擎也不会那么傻，也会自己学习判断。

Nearby

root 2020-03-11 07:26

然后goyoubbs成为了最容易采集的网站之一。哈哈

youbbs 2020-03-11 09:06

@root #1 一开始把tag与相关帖子放在同一个 div 里已经考虑这个问题，好处是可以在被采集的内容里添加更多链接，不好的可能是，初级爬虫工程师去除不了tag和相关帖子，干脆不采了。现在采集及内容提取技术越来越好了，只要内容有足够大的价值，多复杂也能采。

root 2020-03-11 23:06

@youbbs #2 恩。也是一般采集工具都可以采集，复杂一点的中正则表达式也可以过滤不要的信息

冒烟的蘑菇 2020-03-13 01:22

以我开发了十几个爬虫的经验来看，基本上没什么网站是抓不了的~~做这些还不如做内容~~