知識點
- 爬蟲基本流程
- json
- requests 爬蟲當中 發送網路請求
- pandas 表格處理 / 保存資料
- pyecharts 可視化
開發環境
- python 3.8 比較穩定版本 解釋器發行版 anaconda jupyter notebook 里面寫資料分析代碼 專業性
- pycharm 專業代碼編輯器 按照年份與月份劃分版本的
爬蟲完整代碼
匯入模塊
import requests # 發送網路請求模塊
import json
import pprint # 格式化輸出模塊
import pandas as pd # 資料分析當中一個非常重要的模塊
分析網站
先找到今天要爬取的目標資料
https://news.qq.com/zt2020/page/feiyan.htm#/

找到資料所在url


發送請求
url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&_=1638361138568'
response = requests.get(url, verify=False)
獲取資料
json_data = response.json()['data']
決議資料
json_data = json.loads(json_data)
china_data = json_data['areaTree'][0]['children'] # 串列
data_set = []
for i in china_data:
data_dict = {}
# 地區名稱
data_dict['province'] = i['name']
# 新增確認
data_dict['nowConfirm'] = i['total']['nowConfirm']
# 死亡人數
data_dict['dead'] = i['total']['dead']
# 治愈人數
data_dict['heal'] = i['total']['heal']
# 死亡率
data_dict['deadRate'] = i['total']['deadRate']
# 治愈率
data_dict['healRate'] = i['total']['healRate']
data_set.append(data_dict)
保存資料
df = pd.DataFrame(data_set)
df.to_csv('data.csv')

資料可視化
匯入模塊
from pyecharts import options as opts
from pyecharts.charts import Bar,Line,Pie,Map,Grid
讀取資料
df2 = df.sort_values(by=['nowConfirm'],ascending=False)[:9]
df2

死亡率與治愈率
line = (
Line()
.add_xaxis(list(df['province'].values))
.add_yaxis("治愈率", df['healRate'].values.tolist())
.add_yaxis("死亡率", df['deadRate'].values.tolist())
.set_global_opts(
title_opts=opts.TitleOpts(title="死亡率與治愈率"),
)
)
line.render_notebook()

各地區確診人數與死亡人數情況
bar = (
Bar()
.add_xaxis(list(df['province'].values)[:6])
.add_yaxis("死亡", df['dead'].values.tolist()[:6])
.add_yaxis("治愈", df['heal'].values.tolist()[:6])
.set_global_opts(
title_opts=opts.TitleOpts(title="各地區確診人數與死亡人數情況"),
datazoom_opts=[opts.DataZoomOpts()],
)
)
bar.render_notebook()

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/378212.html
標籤:python
