一、爬取目標
大家好,我是 @馬哥python說,一枚10年程式猿,
今天分享一期python爬蟲案例,爬取目標是新浪微博的微博簽到資料,欄位包含:
頁碼,微博id,微博bid,微博作者,發布時間,微博內容,簽到地點,轉發數,評論數,點贊數
經過分析調研,發現微博有3種訪問方式,分別是:
- PC端網頁:https://weibo.com/
- 移動端:https://weibo.cn/
- 手機端:https://m.weibo.cn/
最終決定,通過手機端爬取,
這里,給大家分享一個爬蟲小技巧,
當目標網站既存在PC網頁端,又有手機移動端,建議爬取移動端,原因是:移動端一般網頁結構簡單,并且反爬能力較弱,更方便爬蟲爬取,
二、展示爬取結果
通過爬蟲代碼,爬取了“環球影城”這個關鍵字下的前100頁微博,部分資料如下:

一共翻頁了100頁,大概1000條左右微博,
三、講解代碼
首先,匯入需要用到的庫:
import os # 判斷檔案存在
import re # 正則運算式提取文本
import requests # 發送請求
import pandas as pd # 存取csv檔案
import datetime # 轉換時間用
然后,定義一個轉換時間字串的函式,因為爬取到的時間戳是GMT格式(類似這種:Fri Jun 17 22:21:48 +0800 2022)的,需要轉換成標準格式:
def trans_time(v_str):
"""轉換GMT時間為標準格式"""
GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
return ret_time
定義一個請求頭,后面發送請求的時候帶上它,防止反爬:
# 請求頭
headers = {
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"accept-encoding": "gzip, deflate, br",
}
打開chrome瀏覽器,在m端網址搜索"環球影城",選擇地點,選擇第一條搜索結果"北京環球影城",如下:

獲取地點對應的containerid,后面會用到,爬蟲代碼如下:
def get_containerid(v_loc):
"""
獲取地點對應的containerid
:param v_loc: 地點
:return: containerid
"""
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求引數
params = {
"containerid": "100103type=92&q={}&t=".format(v_loc),
"page_type": "searchall",
}
r = requests.get(url, headers=headers, params=params)
cards = r.json()["data"]["cards"]
scheme = cards[0]['card_group'][0]['scheme'] # 取第一個
containerid = re.findall(r'containerid=(.*?)&', scheme)[0]
print('[{}]對應的containerid是:{}'.format(v_loc, containerid))
return containerid
點擊第一個地點"北京環球影城",跳轉到它對應的微博簽到頁面:

首先打開開發者模式,然后往下翻頁,多翻幾次,觀察XHR頁面的網路請求:

根據分析結果,撰寫請求代碼:
# 請求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求引數
params = {
"containerid": containerid,
"luicode": "10000011",
"lcardid": "frompoi",
"extparam": "frompoi",
"lfid": "100103type=92&q={}".format(v_keyword),
"since_id": page,
}
其中,since_id每次翻頁+1,相當于頁碼數值,
請求引數,可以在Payload頁面獲取:

下面開始發送請求并決議資料:
# 發送請求
r = requests.get(url, headers=headers, params=params)
print(r.status_code) # 查看回應碼
# 決議json資料
try:
card_group = r.json()["data"]["cards"][0]['card_group']
except:
card_group = []
定義一些空串列,用于后續保存資料:
time_list = [] # 創建時間
author_list = [] # 微博作者
id_list = [] # 微博id
bid_list = [] # 微博bid
text_list = [] # 博文
text2_list = [] # 博文2
loc_list = [] # 簽到地點
reposts_count_list = [] # 轉發數
comments_count_list = [] # 評論數
attitudes_count_list = [] # 點贊數
以"微博博文"為例,展示代碼,其他欄位同理,不再贅述,
# 微博博文
text = card['mblog']['text']
text_list.append(text)
把所有資料保存到Dataframe里面:
# 把串列資料保存成DataFrame資料
df = pd.DataFrame(
{
'頁碼': page,
'微博id': id_list,
'微博bid': bid_list,
'微博作者': author_list,
'發布時間': time_list,
'微博內容': text2_list,
'簽到地點': loc_list,
'轉發數': reposts_count_list,
'評論數': comments_count_list,
'點贊數': attitudes_count_list,
}
)
最終,把所有資料保存到csv檔案:
# 表頭
if os.path.exists(v_weibo_file):
header = False
else:
header = True
# 保存到csv檔案
df.to_csv(v_weibo_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
print('csv保存成功:{}'.format(v_weibo_file)))
說明一下,由于每次保存csv都是追加模式(mode='a+'),所以加上if判斷邏輯:
- 如果csv存在,說明不是第一次保存csv,不加表頭;
- 如果csv不存在,說明是第一次保存csv,加上表頭,
如此,可避免寫入多次表頭的尷尬局面,
整個代碼中,還含有:正則運算式提取博文、爬取展開全文、從博文中提取簽到地點、資料清洗(洗掉空資料、去重復)等功能,詳細請見原始代碼,
四、同步視頻
代碼演示視頻:https://www.zhihu.com/zvideo/1605933587244658688
五、附完整原始碼
完整原始碼:【python爬蟲案例】爬了上千條m端微博簽到資料
推薦閱讀:
【python爬蟲案例】爬取微博任意搜索關鍵詞的結果,以“唐山打人”為例
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/543169.html
標籤:Python
