python爬蟲添加請求頭代碼實體-有解無憂

這篇文章主要介紹了python爬蟲添加請求頭代碼實體,文中通過示例代碼介紹的非常詳細，對大家的學習或者作業具有一定的參考學習價值,需要的朋友可以參考下

request

import requests
headers = {
  # 'Accept': 'application/json, text/javascript, */*; q=0.01',
  # 'Accept': '*/*',
  # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7',
  # 'Cache-Control': 'no-cache',
  # 'accept-encoding': 'gzip, deflate, br',
  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
  'Referer': 'https://www.google.com/'
}

resp = requests.get('http://httpbin.org/get', headers=headers)
print(resp.content)

urllib

import urllib, urllib2
def get_page_source(url):
  headers = {'Accept': '*/*',
        'Accept-Language': 'en-US,en;q=0.8',
        'Cache-Control': 'max-age=0',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
        'Connection': 'keep-alive',
        'Referer': 'http://www.baidu.com/'
        }
  req = urllib2.Request(url, None, headers)
  response = urllib2.urlopen(req)
  page_source = response.read()
  return page_source

phantomjs請求頁面

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
def get_headers_driver():
  desire = DesiredCapabilities.PHANTOMJS.copy()
  headers = {'Accept': '*/*',
        'Accept-Language': 'en-US,en;q=0.8',
        'Cache-Control': 'max-age=0',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
        'Connection': 'keep-alive',
        'Referer': 'http://www.baidu.com/'
        }
  for key, value in headers.iteritems():
    desire['phantomjs.page.customHeaders.{}'.format(key)] = value
  driver = webdriver.PhantomJS(desired_capabilities=desire, service_args=['--load-images=yes'])#將yes改成no可以讓瀏覽器不加載圖片
  return driver

主要介紹了python爬蟲添加請求頭代碼實體,文中通過示例代碼介紹的非常詳細，對大家的學習或者作業具有一定的參考學習價值,需要的朋友可以參考下

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持python博客，

http://blog.sina.com.cn/s/blog_184e9f38b0102z269.html
https://tieba.baidu.com/p/7168142321

1、為什么要設定headers?

在請求網頁爬取的時候，輸出的text資訊中會出現抱歉，無法訪問等字眼，這就是禁止爬取，需要通過反爬機制去解決這個問題，

headers是解決requests請求反爬的方法之一，相當于我們進去這個網頁的服務器本身，假裝自己本身在爬取資料，

對反爬蟲網頁，可以設定一些headers資訊，模擬成瀏覽器取訪問網站，

http://www.jzb.com/bbs/thread-7868082-1-1.html

2、 headers在哪里找？

谷歌或者火狐瀏覽器，在網頁面上點擊：右鍵–>檢查–>剩余按照圖中顯示操作，需要按Fn+F5重繪出網頁來

有的瀏覽器是點擊：右鍵->查看元素，重繪

以上就是python爬蟲請求頭設定代碼的詳細內容，更多關于python爬蟲請求頭如何設定的資料請關注腳本之家其它相關文章！

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/240372.html

標籤：其他

上一篇：fastjson自動過濾null值及解決方案

下一篇：python之亂數函式