
urlopen函式
urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
注:
url表示目標網頁地址,可以是字串,也可以是請求物件Request
req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)
data表示post方式提交給目標服務器的引數
data = https://www.cnblogs.com/chengxuyuanaa/p/urllib.urlencode(data)
import urllib,urllib2
action_url="http://www.xxxxxx.com/post"#用于測驗post的網址,回傳提交的資料
values={'name':"alice",'age':20}
data=https://www.cnblogs.com/chengxuyuanaa/p/urllib.urlencode(values)#對表單資料編碼
rqst=urllib2.Request(action_url,data)
response=urllib2.urlopen(rqst)#模擬提交表單資料到url并獲得回應
推薦學習《python教程》
timeout表示超時時間設定,
回傳值
response.read()回傳頁面內容
response.info()回傳網頁資訊
response.geturl()回傳連接地址
這個函式可以像urllib.urlopen()那樣以url做引數,也能以Request實體為引數,即用一個Request物件(下文構造方法)來映射你提出的HTTP請求,在它最簡單的使用形式中你將用你要請求的地址創建一個Request物件,這個Request物件中可以設定傳輸資料、headers等,通過呼叫urlopen并傳入Request物件,將回傳一個file-like物件,urllib2還提供了介面來處理一般情況,例如:基礎驗證,cookies,代理和其他,它們通過handlers和openers的物件實作,
2、Request函式
urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
用于構造Request物件,可以傳遞data資料,添加請求頭(headers)等,構造好后作為urllib2.urlopen()的引數,
注:
url表示目標網頁地址,可以是字串,也可以是請求物件Request
data表示post方式提交給目標服務器的引數
headers表示用戶標識,是一個字典型別的資料,有些不允許腳本的抓取,所以需要用戶代理,像火狐瀏覽器的代理就是類似:Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
瀏覽器的標準UA格式為:瀏覽器標識 (作業系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本資訊 ,headers默認是Python-urllib/2.6
origin_req_host表示請求方的主機域名或者ip地址,
headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}
import urllib
import urllib2
url = 'http://www.weibo.cn/'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
h = { 'User-Agent' : user_agent }
req = urllib2.Request(url,headers=h)
response = urllib2.urlopen(req)
print response.read()
3、build_opener()
build_opener([handler1 [ handler2, ... ]])
urllib2.urlopen()函式不支持驗證、cookie或者其它HTTP高級功能,要支持這些功能,必須使用build_opener()函式創建自定義Opener物件,
引數handler是Handler實體,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等,
build_opener ()回傳的物件具有open()方法,與urlopen()函式的功能相同,
如果要修改http報頭,可以用:
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')
最后注意:光理論是不夠的,這里順便免費送大家一套2020最新python入門到高級專案實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,還可以跟老司機交流討教!
本文的文字及圖片來源于網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/140883.html
標籤:Python
