urllib2 对 redirect / cookie 的处理方法

来源:互联网 发布:可牛闪图软件下载 编辑:程序博客网 时间:2024/06/08 07:07
urllib2对 url方式的资源处理方法灰常丰富~基本通过handler的组合来实现各种功能~同样实现根据status code自动redirect和cookies的分析和获取(根据Http状态码redirect在urllib.FancyUrlOpener中也有实现~)

最step代码如下:

  1. import urllib2 as ul2, cookielib as cl, urllib as ul

  2. cj = cl.CookieJar()

  3. opener = ul2.build_opener(ul2.HTTPCookieProcessor(cj)) # 这里可以添加更多的handlers

  4. # ul2.install_opener(opener) #可以注册为默认的opener,这样的话,在后面发送请求时,就可以用 urlopen / urlretrieve 等快捷方法

  5. #创建并发送一个请求
  6. req_sohu = urllib2.Request('http://www.sohu.com'# 用Request对象可以发送POST请求,并提供更多参数,如果是Get请求又不需要太复杂的设置,可以直接用

  7. res_sohu = opener.open(req_sohu)

  8. content_sohu = res_sohu.read() # 读取到了所有的response内容

  9. #相应的http 请求和响应头分别在 req_sohu和res_sohu中,可以直接访问并获取

  10. #获取cookies,这个……相当麻烦……不知道有没有简便方法……

  11. cookies = filter(lambda h:isinstance(h, ul2.HTTPCookieProcessor), opener.handlers)[0].cookiejar


cookies中其他内容参见 cookielib.CookieJar

这个cookie在整个opener生存周期内,一直存在,而且自动分析有效期、域、路径并维护,非常适合模拟登录和抓取,嘿嘿~

------------

标题写了redirect的……代码里没体现~

在第5行,创建Opener时, ul2.HTTPRedirectHandler是默认被加上的handler之一……
同为默认handler的还有:

ProxyHandler
UnknownHandler
HTTPHandler
HTTPDefaultErrorHandler
HTTPRedirectHandler
FTPHandler
FileHandler
HTTPSHandler
HTTPErrorProcessor

等诸位~


原创粉丝点击