六月，秋秋發生大規模盜號事件，眾說紛紜，也有說因為某習通買賣個人資訊導致的，有說是因為點了圖片中的網站導致中毒被盜的，還有說企鵝資料庫被攻擊導致賬號被盜的，反正公說公有理婆說婆有理，

但是吧，人吶，一般都喜歡湊熱鬧，于是乎，我直接用Python把圍脖爬了一遍，看他們爭論的不亦樂乎，我開心極了~

兄弟們學習python，有時候不知道怎么學，從哪里開始學，掌握了基本的一些語法或者做了兩個案例后，不知道下一步怎么走，不知道如何去學習更加高深的知識，

那么對于這些大兄弟們，我準備了大量的免費視頻教程，PDF電子書籍，以及視頻源的源代碼！

還會有大佬解答！

都在這個群里了 279199867  歡迎加入，一起討論 一起學習！

準備作業

使用的是Python3.8 和 pycharm 編輯器，為什么我用的是3.8 而不是最新版呢？

很多剛開始學Python的兄弟喜歡下載新版本，在原有的認知里面就是覺得最新的自然就是最好的，但是，對于軟體而言，越新的版本，問題越多，不穩定，還需要不斷地修改不斷地完善，

打個簡單的比方，以LOL為例，每次版本剛更新，總是會爆出一些小bug，然后收集一段時間后，再通過小版本或者直接在線就更新了，

所以說軟體并不是版本越新越好，這里我推薦的是Python3.8，目前最穩定的版本，

pycharm的話，pycharm2020以前的版本是沒有中文版插件的，只能通過在網上找的插件安裝，后面的版本都可以直接在pycharm上安裝插件，

代碼展示

import pprint
import re
import requests
import csv
import pandas as pd


# f = open('微博評論.csv', mode='a', encoding='utf-8', newline='')
# csv_writer = csv.DictWriter(f, fieldnames=[
#     '用戶',
#     '地區',
#     '評論',
#     '日期',
# ])
# csv_writer.writeheader()


url = 'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

lis = []
for index in response.json()['data']['data']:
    content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
    dit = {
        '用戶': index['user']['screen_name'],
        '地區': index['source'].replace('來自', ''),
        '評論': content,
        '日期': index['created_at']
    }
    lis.append(dit)
    # csv_writer.writerow(dit)
    print(dit)

pd_data = pd.DataFrame(lis)
pd_data.to_excel('微博評論.xlsx')

效果

部分資料

大家還可以自己試試做做詞云圖，爬取多頁等等剛操作！

快去試試吧~

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/498496.html

標籤：Python

上一篇：[selenium]等待

下一篇：Python教程：讀取檔案有三種方法：（read、readline、readlines）詳細用法

QQ發生大規模賬號泄露事件，二十行Python代碼，帶你了解前因后果

準備作業

代碼展示

效果