本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
民以食為天,不知道大家注意到沒有最近土豆便宜了!當然,年輕的同學并不關注這些,重點是我們用Python爬取了“北京新發地市場”2020年1月至9月的土豆資料,并進行了分析,效果如圖1和圖2所示,
圖1 爬取后的資料
圖2 土豆價格變化趨勢分析圖表
具體實作步驟如下:
用Python實作簡單爬取資料可以使用Pandas模塊,前提是表格網頁資料(即含有表格標簽<table>…</table>),右鍵單擊網頁中的表格,在彈出的選單中選擇“檢查元素”,查看代碼中是否含有表格標簽<table>…</table>的字樣,如圖3所示,
圖3 檢查元素
確定后在程式中使用Pandas模塊的read_html()方法即可輕松實作簡單爬蟲,
完整程式代碼如下:
importpandas as pd import matplotlib.pyplot as plt # 創建空的DataFrame物件 df =pd.DataFrame() # 創建空串列 url_list=[] # 遍歷網頁的所有頁 for i in range(1, 19): url = 'http://www.xinfadi.com.cn/marketanalysis/0/list/'+str(i)+'.shtml?prodname=%E5%9C%9F%E8%B1%86&begintime=2020-01-01&endtime=2020-09-27' url_list.append(url) # 遍歷網頁中的table讀取網頁表格資料 for url in url_list: df= df.append(pd.read_html(url)) # 資料清洗洗掉無用資料第0行和第8列 df.drop(index=0,inplace=True) df.drop(columns=7,inplace=True) df.columns=['品名','最低價','平均價','最高價','規格','單位','發布日期'] # 匯出Excel資料 df.to_excel('土豆.xlsx',index=False) # 將平均價轉換為浮點型別 df['平均價'] = df['平均價'].astype(float) df['發布日期']=pd.to_datetime(df['發布日期']) df1=df.set_index('發布日期') df_month=df1.resample('M').mean() # 繪制圖表 plt.rcParams['font.sans-serif'] = ['SimHei'] df_month.plot(kind='line',marker='o',color='r',title='土豆價格變化趨勢') plt.show()
以上通過一個簡單的例子介紹了從資料爬取——資料處理——資料可視化——資料分析的一個程序,那么,通過以上方法還可以分析其他蔬菜、水果、糧油等等,感興趣的小伙伴可以嘗試!
以上文章來源于明日IT部落,作者 明日科技
轉載地址
https://blog.csdn.net/fei347795790?t=1
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/142364.html
標籤:其他
