互联网大数据：Python实现网络爬虫（算法编程技巧）_章文俊

http://blog.sina.com.cn/u/2793933290

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

互联网大数据：Python实现网络爬虫（算法编程技巧）

(2017-12-17 17:17:27)

标签：

urllib2-proxyhandler

浏览器cookies

正则表达式解析库

验证码gzip压缩

多线程并发抓取

分类： IT/OT/IOT:工业通讯三网融合

【前言】

很多资深人士都有自己的Python网络爬虫编程心得，现收集一些如下所示，供我们快速借鉴学习。

【Python爬虫常用技巧小结】

1）基本抓取网页

1.1）直接get数据

import urllib2

url "http://www.baidu.com"

respons = urllib2.urlopen(url)

print response.read()

1.2）处理post表单

import urllib

import urllib2

url = "http://abcde.com"

form = {'name':'abc','password':'1234'}

form_data = urllib.urlencode(form)

request = urllib2.Request(url,form_data)

response = urllib2.urlopen(request)

print response.read()

2）使用代理IP访问

专门应对IP被封掉的情况，在urllib2包中有ProxyHandler类，通过此类可以设置代理IP访问网页。

import urllib2

proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})

opener = urllib2.build_opener(proxy)

urllib2.install_opener(opener)

response = urllib2.urlopen('http://www.baidu.com')

print response.read()

3）处理Cookies数据

Cookies是为了辨别用户身份、进行Session跟踪而储存在用户本地终端上的加密数据。Python提供了cookielib模块用于处理cookies，cookielib提供可存储cookie的对象，与urllib2模块配合使用来访问Internet资源。

import urllib2, cookielib

cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())

opener = urllib2.build_opener(cookie_support)

urllib2.install_opener(opener)

content = urllib2.urlopen('http://XXXX').read()

要点：CookieJar()用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失，所有过程都不需要单独去操作。如需手动添加cookie，则代码如下。

cookie = "PHPSESSID=91rurfqm2329bopnosfu4fvmu7; kmsign=55d2c12c9b1e3; KMUID=b6Ejc1XSwPq9o756AxnBAg="
request.add_header("Cookie", cookie)

4）伪装成浏览器

某些网站对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。对有些 header要特别留意，Server端会针对这些 header做检查，例如：对于User-Agent有些 Server或Proxy会检查该值，用来判断是否是浏览器发起的Request；对于Content-Type在使用REST接口时，Server会检查该值，用来确定HTTP Body中的内容该怎样解析。这时可以通过修改http包中的header来实现。

import urllib2

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

request = urllib2.Request(

url = 'http://my.oschina.net/jhao104/blog?catalog=3463517',

headers = headers

)

print urllib2.urlopen(request).read()

5）页面解析

使用正则表达式解析网页，

入门：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html，