爬虫如何识别网页的正文部分?
作者: 郑晓 分类: Python 发布于: 2014-11-19 22:30 浏览:7,842 评论(3)
爬虫如何识别网页的正文部分?
比如写一个python爬虫去抓百度搜索结果列表中的网页数据, 然后从这些网页中提取出正文部分(比如新闻资讯的文章部分),是否可以实现?能实现的话应该如何去做?
百度新闻中,每条信息都会显示有多少条重复数据,这个应该是百度抓取的每个页面的正文部分吧。所以这个功能是可能实现的。
抓回一个页面的数据,如何匹配出正文部分,郑晓在下班路上想了个思路是:
1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。
2. 直接匹配出非链接的、 符合在div、p、h标签中的中文部分???
还是会有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建议?
本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。
本文永久链接: https://www.zh30.com/python-spider-shibie-wenzhang.html
爬虫如何识别网页的正文部分?:目前有3 条留言
正文部分解决了吗?
看看,我现在页面都down下来了,但是正文解析还是不是十分的准确。
语义识别应该也算是人工智能的一部分。
过来看看、python好学不?
还算比较简单的一门语言,非常优美