前言
環境使用
- Python 3.8
- Pycharm
模塊使用
- requests
- jieba 結巴分詞
- wordcloud 詞云
資料來源分析
明確需求 <資料來源分析>
- 采集資料是什么東西? 通過那個url地址得到想要資料的內容
- 抓包分析: 瀏覽器自帶工具 --> 開發者工具
I. F12 或者 滑鼠右鍵點擊檢查 選擇 network 點擊第二頁
II. 復制評論內容, 在開發者工具里進行搜索, 可以直接找對應評論資料包
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100029079354&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
對于本篇文章有疑問的同學可以加【資料白嫖、解答交流群:753182387】
資料獲取代碼實作
發送請求
url = 'https://club.jd.com/comment/productPageComments.action'
# 請求引數 --> 字典資料型別 構建完整鍵值對
data = {
# 'callback': 'fetchJSON_comment98',
'productId': '100029079354',
'score': '0',
'sortType': '5',
'page': page,
'pageSize': '10',
'isShadowSku': '0',
'rid': '0',
'fold': '1',
}
# 模擬瀏覽器 --> headers 請求頭
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 發送請求 requests 模塊 get 方法<請求方式>
# 等號左邊: url/params/headers 屬于get函式里面形式引數 等號右邊 url/data/headers 傳入進去引數/變數
response = requests.get(url=url, params=data, headers=headers)
獲取資料, 服務器回傳回應資料
- response 回應物件
- response.text 獲取回應文本資料
- response.json() 獲取回應json字典資料
決議資料
字典資料型別: 通過鍵值對提取資料內容 <字典取值>
根據冒號左邊的內容[鍵], 提取冒號右邊的內容[值]
# for回圈遍歷 把串列里面元素一個一個提取出來
for i in response.json()['comments']:
content = i['content']
print(content)
保存資料
with open('口紅評論.txt', mode='a', encoding='utf-8') as f:
# 寫入資料內容
f.write(content)
f.write('\n')
詞云代碼
# 匯入結巴分詞 jieba 模塊國人開源的
import jieba
# 匯入詞云
import wordcloud
# 匯入讀取圖片
import imageio
# 讀取圖片內容
py = imageio.imread('img\\矢量圖5.png')
# 讀取檔案 回傳物件 mode 方式模式 r 讀 a追加寫入保存 mode 默認是r
f = open('口紅評論.txt', encoding='utf-8')
# 讀取內容
text = f.read()
# 分詞 --> 把完整一句話分成很多個單詞
string = ' '.join(jieba.lcut(text))
# 詞云圖 配置
wc = wordcloud.WordCloud(
width=1000, # 寬
height=700, # 高
font_path='msyh.ttc', # 詞云字體
# 設定停用詞, 把沒有詞匯, 停用
stopwords={'的', '了', '很', '也'},
# 設定背景顏色
# background_color='pink',
contour_width=5,
contour_color='pink',
mask=py
)
# string 資料傳入進去
wc.generate(string)
# 匯入詞云圖
wc.to_file('有形狀的詞云黑.png')
print(string)

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/525880.html
標籤:Python
上一篇:首頁輪播圖后端介面設計
下一篇:網路編程初識
