Python爬蟲爬取資料-有解無憂

我是Python小白，我會用比較通俗易懂的方法告訴你如何去爬取資料，

一開始，我們需要pycharm（也就是我們編代碼的工具），其次我們需要打開我們需要爬取資料的網頁，我以鞋子為例，

那么，接下來就開始吧

首先，我們打開某東，搜索鞋子，

隨便點進去一個，找到他的評價

右擊空白處，點檢查，

出現以下界面時，我們點Network，

然后重繪我們找到的京東鞋子界面，就可以看到他出來很多東西，如下圖所示

這時候，我們打開評論，隨便找到一個評論，復制一下，然后找到有一個放大鏡一樣的東西那，點開，然后粘貼我們剛才復制的評論，

就可以看到這些東西

我們點開，發現右邊Name里面有這些東西，我們直接復制這個URL，

好了，我們找到了關鍵的東西，那么接下來我們來撰寫代碼

首先，第一行是import requests

第二行就是resp=requests.get(‘URL’）[此處URL就是你自己找的]

第三行就是print(resp.text)，

其實擁有這三行代碼就可以了，但是呢，我們是在pycharm中爬取的資料，京東只有在瀏覽器訪問時才會允許我們，我們用pycharm訪問時，不會給我們，

如下如所示

為了解決這個問題呢，我們可以讓我們的python程式偽裝成瀏覽器，我們需要添加一個東西，請求頭，

首先，我們隨便打開一個瀏覽器，右擊空白部位，點擊檢查，

點進去后我們點擊網路，然后重繪一下這個網頁，

我們隨便點開一項，看標頭里面有一個User-Agent，我們直接復制，

然后我們再來補充一行代碼

headers={‘User-Agent’：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50’}//此處這個是我找的，你們找的是什么就粘貼什么，

get函式里面最后加一個headers=headers，

-------------------------------------------------------------------------------------------

下面是代碼模板

import requests
headers={'user-agent': '你自己找的user-agent'}
resp=requests.get('你自己想要爬取資料的網頁URL',headers=headers)
print(resp.text)

----------------------------------------------------------------------------------------

下面是我找的一個（可以直接復制粘貼）

import requests
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30'}
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1',headers=headers)
print(resp.text)

結果就是這個，我隨便截了一小部分，

總結起來，只有三點，第一點，寫好代碼模型，第二點，找到URL，第三點，找到User-agent，

最后，給初學者一個用python創建.txt檔案的代碼

fp=open('D:/yyds.txt','a+')
print('helloworld',file=fp)
fp.close()

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/319729.html

標籤：python

上一篇：JAVA設計模式——單例模式八種方式

下一篇：絕了! 2 行代碼可以加水印、檔案對比以及利好抓包