一、爬取目標

大家好，我是 @馬哥python說，一枚10年程式猿，

今天分享一期python爬蟲案例，爬取目標是新浪微博的微博簽到資料，欄位包含：
頁碼,微博id,微博bid,微博作者,發布時間,微博內容,簽到地點,轉發數,評論數,點贊數

經過分析調研，發現微博有3種訪問方式，分別是：

PC端網頁：https://weibo.com/
移動端：https://weibo.cn/
手機端：https://m.weibo.cn/

最終決定，通過手機端爬取，

這里，給大家分享一個爬蟲小技巧，
當目標網站既存在PC網頁端，又有手機移動端，建議爬取移動端，原因是：移動端一般網頁結構簡單，并且反爬能力較弱，更方便爬蟲爬取，

二、展示爬取結果

通過爬蟲代碼，爬取了“環球影城”這個關鍵字下的前100頁微博，部分資料如下：
爬取結果

一共翻頁了100頁，大概1000條左右微博，

三、講解代碼

首先，匯入需要用到的庫：

import os  # 判斷檔案存在
import re  # 正則運算式提取文本
import requests  # 發送請求
import pandas as pd  # 存取csv檔案
import datetime  # 轉換時間用

然后，定義一個轉換時間字串的函式，因為爬取到的時間戳是GMT格式（類似這種：Fri Jun 17 22:21:48 +0800 2022）的，需要轉換成標準格式：

def trans_time(v_str):
    """轉換GMT時間為標準格式"""
    GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
    timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
    ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
    return ret_time

定義一個請求頭，后面發送請求的時候帶上它，防止反爬：

# 請求頭
headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "accept-encoding": "gzip, deflate, br",
}

打開chrome瀏覽器，在m端網址搜索"環球影城"，選擇地點，選擇第一條搜索結果"北京環球影城"，如下：
搜索地點

獲取地點對應的containerid，后面會用到，爬蟲代碼如下：

def get_containerid(v_loc):
    """
    獲取地點對應的containerid
    :param v_loc: 地點
    :return: containerid
    """
    url = 'https://m.weibo.cn/api/container/getIndex'
    # 請求引數
    params = {
        "containerid": "100103type=92&q={}&t=".format(v_loc),
        "page_type": "searchall",
    }
    r = requests.get(url, headers=headers, params=params)
    cards = r.json()["data"]["cards"]
    scheme = cards[0]['card_group'][0]['scheme']  # 取第一個
    containerid = re.findall(r'containerid=(.*?)&', scheme)[0]
    print('[{}]對應的containerid是：{}'.format(v_loc, containerid))
    return containerid

點擊第一個地點"北京環球影城"，跳轉到它對應的微博簽到頁面：

首先打開開發者模式，然后往下翻頁，多翻幾次，觀察XHR頁面的網路請求：
開發者分析

根據分析結果，撰寫請求代碼：

# 請求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求引數
params = {
    "containerid": containerid,
    "luicode": "10000011",
    "lcardid": "frompoi",
    "extparam": "frompoi",
    "lfid": "100103type=92&q={}".format(v_keyword),
    "since_id": page,
}

其中，since_id每次翻頁+1，相當于頁碼數值，

請求引數，可以在Payload頁面獲取：

下面開始發送請求并決議資料：

# 發送請求
r = requests.get(url, headers=headers, params=params)
print(r.status_code)  # 查看回應碼
# 決議json資料
try:
    card_group = r.json()["data"]["cards"][0]['card_group']
except:
    card_group = []

定義一些空串列，用于后續保存資料：

time_list = []  # 創建時間
author_list = []  # 微博作者
id_list = []  # 微博id
bid_list = []  # 微博bid
text_list = []  # 博文
text2_list = []  # 博文2
loc_list = []  # 簽到地點
reposts_count_list = []  # 轉發數
comments_count_list = []  # 評論數
attitudes_count_list = []  # 點贊數

以"微博博文"為例，展示代碼，其他欄位同理，不再贅述，

# 微博博文
text = card['mblog']['text']
text_list.append(text)

把所有資料保存到Dataframe里面：

# 把串列資料保存成DataFrame資料
df = pd.DataFrame(
    {
        '頁碼': page,
        '微博id': id_list,
        '微博bid': bid_list,
        '微博作者': author_list,
        '發布時間': time_list,
        '微博內容': text2_list,
        '簽到地點': loc_list,
        '轉發數': reposts_count_list,
        '評論數': comments_count_list,
        '點贊數': attitudes_count_list,
    }
)

最終，把所有資料保存到csv檔案：

# 表頭
if os.path.exists(v_weibo_file):
    header = False
else:
    header = True
# 保存到csv檔案
df.to_csv(v_weibo_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
print('csv保存成功:{}'.format(v_weibo_file)))

說明一下，由于每次保存csv都是追加模式（mode='a+'），所以加上if判斷邏輯：

如果csv存在，說明不是第一次保存csv，不加表頭；
如果csv不存在，說明是第一次保存csv，加上表頭，

如此，可避免寫入多次表頭的尷尬局面，

整個代碼中，還含有：正則運算式提取博文、爬取展開全文、從博文中提取簽到地點、資料清洗（洗掉空資料、去重復）等功能，詳細請見原始代碼，

四、同步視頻

代碼演示視頻：https://www.zhihu.com/zvideo/1605933587244658688

五、附完整原始碼

完整原始碼：【python爬蟲案例】爬了上千條m端微博簽到資料

推薦閱讀：
【python爬蟲案例】爬取微博任意搜索關鍵詞的結果，以“唐山打人”為例

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/543169.html

標籤：Python

上一篇：DataX二次開發——新增HiveReader插件

下一篇：Python修改柱狀圖邊緣柱子與圖邊界的距離

【2023微博簽到爬蟲】用python爬上千條m端微博簽到資料

一、爬取目標

二、展示爬取結果

三、講解代碼

四、同步視頻

五、附完整原始碼