六月,秋秋發生大規模盜號事件,眾說紛紜,也有說因為某習通買賣個人資訊導致的,有說是因為點了圖片中的網站導致中毒被盜的,還有說企鵝資料庫被攻擊導致賬號被盜的,反正公說公有理婆說婆有理,

但是吧,人吶,一般都喜歡湊熱鬧,于是乎,我直接用Python把圍脖爬了一遍,看他們爭論的不亦樂乎,我開心極了~

兄弟們學習python,有時候不知道怎么學,從哪里開始學,掌握了基本的一些語法或者做了兩個案例后,不知道下一步怎么走,不知道如何去學習更加高深的知識,
那么對于這些大兄弟們,我準備了大量的免費視頻教程,PDF電子書籍,以及視頻源的源代碼!
還會有大佬解答!
都在這個群里了 279199867 歡迎加入,一起討論 一起學習!

準備作業
使用的是Python3.8 和 pycharm 編輯器,為什么我用的是3.8 而不是最新版呢?
很多剛開始學Python的兄弟喜歡下載新版本,在原有的認知里面就是覺得最新的自然就是最好的,但是,對于軟體而言,越新的版本,問題越多,不穩定,還需要不斷地修改不斷地完善,
打個簡單的比方,以LOL為例,每次版本剛更新,總是會爆出一些小bug,然后收集一段時間后,再通過小版本或者直接在線就更新了,
所以說軟體并不是版本越新越好,這里我推薦的是Python3.8,目前最穩定的版本,
pycharm的話,pycharm2020以前的版本是沒有中文版插件的,只能通過在網上找的插件安裝,后面的版本都可以直接在pycharm上安裝插件,
代碼展示
import pprint import re import requests import csv import pandas as pd # f = open('微博評論.csv', mode='a', encoding='utf-8', newline='') # csv_writer = csv.DictWriter(f, fieldnames=[ # '用戶', # '地區', # '評論', # '日期', # ]) # csv_writer.writeheader() url = 'https://m.***.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36' } response = requests.get(url=url, headers=headers) lis = [] for index in response.json()['data']['data']: content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text'])) dit = { '用戶': index['user']['screen_name'], '地區': index['source'].replace('來自', ''), '評論': content, '日期': index['created_at'] } lis.append(dit) # csv_writer.writerow(dit) print(dit) pd_data = pd.DataFrame(lis) pd_data.to_excel('微博評論.xlsx')
效果
部分資料

大家還可以自己試試做做詞云圖,爬取多頁等等剛操作!
快去試試吧~
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/498496.html
標籤:Python
上一篇:[selenium]等待
