Python爬蟲urllib模塊之cookie的簡單爬取
1.直接爬取(cookie顯示在編譯器中):
import http.cookiejar,urllib.request
cookie = http.cookiejar.CookieJar() # 宣告CookieJar物件
handler = urllib.request.HTTPCookieProcessor(cookie) # 構建Handler
opener = urllib.request.build_opener(handler)
response = opener.open('url') # 打開鏈接
for item in cookie:
print(item.name+"="+item.value)
2.cookie保存在指定檔案中
import http.cookiejar,urllib.request
filename = '指定檔案名(檔案型別一般為txt)'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('url')
cookie.save(ignore_discard=True,ignore_expires=True)
3.LWPCookieJar保存:
cookie = http.cookiejar.LWPCookieJar(filename)
簡單的注釋:
1.Cookiejar():
管理HTTP cookie值、存盤HTTP請求生成的cookie、向傳出的 HTTP請求添加cookie的物件,
2.MozillaCookieJar
CookieJar的子類,可以用來處理讀取和保存Cookies,將Cookies保存為Mozi瀏覽器的Cookies格式
3.cookie.save引數解釋:
ignore_discard的意思是即使cookies將被丟棄也將它保存下來, ignore_expires的意思 是如果cookies已經過期也將它保存并且檔案已存在時將覆寫,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/243545.html
標籤:其他
