前言
在很多網站上,都會以表格的形式展示資料,而我們獲取這種資料只需通過十幾行爬蟲代碼就可以搞定,輕松搞定網頁爬蟲,實作高效辦公
知識點:
- 爬蟲基本原理
- requests的簡單使用
- pandas庫
- pyecharts可視化工具
第三方庫:
- requests
- pandas
開發環境:
- Python 3.6
- Pycharm
這里就只展示部分代碼了
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
爬蟲代碼
1.匯入工具
from urllib.parse import urlencode import requests import csv from bs4 import BeautifulSoup import pandas as pd
2.網頁提取函式
def get_one_page(i): paras = { 'reportTime': '2019-12-31', # 可以改報告日期,比如2018-6-30獲得的就是該季度的資訊 'pageNum': i # 頁碼 } url = 'http://s.askci.com/stock/a/?' + urlencode(paras) response = requests.get(url, headers=headers) if response.status_code == 200: return response.text
3.提取表格資料
def parse_one_page(html): tb = pd.read_html(html)[3] return tb
4.保存資料
def save_csv(): pass if __name__ == '__main__': html = get_one_page(1) parse_one_page(html)
運行代碼,效果如下圖
資料可視化代碼
ffrom pyecharts import options as opts from pyecharts.charts import Map from pyecharts.faker import Faker df = pd.read_csv('1.csv') data = [['北京',331], ['西藏',18], ['湖北',103], ['上海',298], ['天津',50], ['陜西',51], ['安徽',106], ['河北',58], ['貴州',29], ['河南',79], ['山東',206], ['廣東',603], ['江西',41], ['江蘇',420], ['浙江',443], ['湖南',105], ['黑龍江',37], ['遼寧',78], ['福建',134], ['四川',125], ['重慶',50], ['廣西',38], ['新疆',54], ['云南',37], ['山西',38], ['寧夏',14], ['海南',30], ['甘肅',33], ['吉林',42], ['內蒙古',25], ['青海',12]] c = ( Map() .add("上市公司數量 ", data, "china") .set_global_opts( title_opts=opts.TitleOpts(title="上市公司數量分布"), visualmap_opts=opts.VisualMapOpts(max_=700), ) ) c.render_notebook()
最后運行代碼,效果如下圖
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/45134.html
標籤:Python
