python抓取糗百信息并入库mysql
作者: 郑晓 分类: Python 发布于: 2013-12-24 17:19 浏览:10,888 评论(7)
这里抓取的页面是糗百的最近8小时糗事页面。感觉它的列表规则比较简单一些。学习pytho的urllib库基本操作与mysql的基础使用。
连接mysql使用的是mysql自家的connector。http://dev.mysql.com/doc/connector-python/en/index.html
环境win2003+python3.3代码如下。
#导入urllib、mysql和正则类库
import urllib.request
import mysql.connector
import re
#设置要抓取的页面
url="http://www.qiushibaike.com/8hr/page/1"
#模拟访问页面,抓取页面内容到page变量中
response=urllib.request.urlopen(url)
page=response.read()
#匹配糗事正文及图片的正则
p = re.compile(r'
([^<]*(?=
[^<]+)*)<\/div>(?=\s*
[^<]+)*)<\/div>(?=\s*
本文采用知识共享署名-非商业性使用 3.0 中国大陆许可协议进行许可,转载时请注明出处及相应链接。
本文永久链接: https://www.zh30.com/information-python-crawling-embarrassing-one-hundred-and-storage-mysql.html
随机标签云
最近热门
最新评论
python抓取糗百信息并入库mysql:目前有7 条留言
没看懂这个是什么意思?
获取url的内容,然后正则找出当前页所有的糗事信息,再入库。 用正则写的麻烦了,后来发现用BeautifulSoup库更方面。
我的数据库老是出问题,不知道怎么回事
学习一下,关于python的博客好少啊
🙁 😛 很好很好
又是一个搞运维的啊。。。
python没用过,看来真要学习一下