headers = {
'user - agent': 'Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 53.0.2785.104Safari / 537.36Core / 1.53.4882.400QQBrowser / 9.7.13059.400'
}
response = requests.get('http://toutiao.com/group/6552087122092753412', headers = headers)
print(response.status_code)
print(response.text)
-------------------------------------------------------------------------
得到的結果:
---------------------------------------------------------------------------
E:\Python_Pro\Spider\venv\Scripts\python.exe E:/Python_Pro/toutiao/jiepai.py
200
<html><head></head><body></body></html>
行程已結束,退出代碼0
-----------------------------------------------------------------
status_code 為200,照理說應該是請求成功,但是為什么沒內容,只有<html><head></head><body></body></html>,網上很多人說直接拷貝我的代碼運行都可以得到內容,是因為我頻繁訪問,被反爬蟲機制禁止了??求大神解答。
uj5u.com熱心網友回復:
user - agent中間沒有空格:User-Agentuj5u.com熱心網友回復:
headers = {
'user-agent': 'Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 53.0.2785.104Safari / 537.36Core / 1.53.4882.400QQBrowser / 9.7.13059.400'
}
response = requests.get('http://toutiao.com/group/6552087122092753412', headers = headers)
print(response.status_code)
print(response.text)
uj5u.com熱心網友回復:
先看user-agent去掉空格能不能可以,不然就應該是反爬蟲了uj5u.com熱心網友回復:
確實就是User-Agent寫錯了。順便幫你分析了一下,如果你要爬取那張圖片。
gallery: JSON.parse("{\"count\":9,\"sub_images\":[{\"url\":\"http:\\/\\/p1.pstatp.com\\/origin\\/pgc-image\\/1525526621497af92b9b23b\",\"width\":690。。。正則匹配這一串就好了。
如果還要下面的評論。
https://www.toutiao.com/api/comment/list/?group_id=6552087122092753412&item_id=6552087122092753412&offset=0&count=5,這是介面,Get 請求,回傳的是 json 格式資料。
uj5u.com熱心網友回復:
網址后面加robots.txt看看允許訪問的agent都有哪些uj5u.com熱心網友回復:
from requests_html import HTMLSessionsession = HTMLSession()
r = session.get(url, verify=False)
r.html.render(sleep=1)#增加一個等待時間
uj5u.com熱心網友回復:
我也是這個問題,跟User-Agent,而且訪問會出現有時能夠成功,有時是失敗,轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/10176.html
上一篇:jboss禁用sslv3
