爬虫如何识别网页的正文部分？_郑晓

当前位置：博客首页 >> Python >> 阅读正文

爬虫如何识别网页的正文部分？

作者: 郑晓分类: Python 发布于: 2014-11-19 22:30 浏览：8,079 评论(3)

爬虫如何识别网页的正文部分？

比如写一个python爬虫去抓百度搜索结果列表中的网页数据，然后从这些网页中提取出正文部分（比如新闻资讯的文章部分），是否可以实现？能实现的话应该如何去做？

百度新闻中，每条信息都会显示有多少条重复数据，这个应该是百度抓取的每个页面的正文部分吧。所以这个功能是可能实现的。

抓回一个页面的数据，如何匹配出正文部分，郑晓在下班路上想了个思路是：

1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。

2. 直接匹配出非链接的、符合在div、p、h标签中的中文部分？？？

还是会有不少其它多余信息啊，比如底部信息等。。如何搞？不知道大家有木有什么思路或建议？

本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可，转载时请注明出处及相应链接。

本文永久链接: https://www.zh30.com/python-spider-shibie-wenzhang.html

我就是个过客：发表于 2015年11月19日 15:40[回复]

正文部分解决了吗？
看看，我现在页面都down下来了，但是正文解析还是不是十分的准确。
语义识别应该也算是人工智能的一部分。

春熙路：发表于 2014年11月28日 19:49[回复]

过来看看、python好学不？

郑晓：发表于 2014年11月29日 16:37[回复]

还算比较简单的一门语言，非常优美