前言
夏季到來,合理飲食很關鍵,夏季的飲食講究清淡,多吃蔬菜有利于養生,那么哪個地區的蔬菜批發價格要便宜一些呢?讓我們用Python爬取某蔬菜網的行情價格,來分析下,到底哪個地區的蔬菜,要更便宜一些,
分析頁面
這是網頁的頁面
我們先看下第1/2/3頁鏈接的聯系:
http://www.vegnet.com.cn/Price/List_p1.html
http://www.vegnet.com.cn/Price/List_p2.html
http://www.vegnet.com.cn/Price/List_p3.html
通過頁面可以看出只有P1/2/3的位置發生了變動,這樣的話,我們可以構建一個回圈來改變鏈接,因為一天行情價格的頁面數達到了163頁,為了防止不必要的麻煩,我們只抓取1天的,來分析下各地區蔬菜價格的差異,
我們要爬取的欄位是:日期/品種/批發市場/最低價格/最高價格/平均價格/計量單位,
通過F12查看網頁源代碼可以看出我們要的欄位都在span標簽的class屬性里面,
匯入各種庫
import requests as rq
import xlsxwriter
import time #設定休眠時間
撰寫代碼
file_name = "蔬菜網.xlsx"
workbook = xlsxwriter.Workbook(file_name)
worksheet = workbook.add_worksheet("蔬菜網")
worksheet.write(0, 0, "日期")
worksheet.write(0, 1, "品種")
worksheet.write(0, 2, "市場")
worksheet.write(0, 3, "最低價")
worksheet.write(0, 4, "最低價")
worksheet.write(0, 5, "平均價")
worksheet.write(0, 6, "單位")
DD = 1
UU=1
while UU != 164:
url = "http://www.vegnet.com.cn/Price/List_p" + str(UU) + ".html"
H = rq.get(url)
t = H.text
for K in range(1,26):
...... #為了避免不必要的麻煩,我們只展示一部分代碼,中間的部分省略,有需要的同學可以聯系我們,
DD = DD + 1
UU = UU + 1
time.sleep(30) #休眠時間為30秒
workbook.close()
分析資料
爬取下來的源資料是這樣的,其中包含120種瓜果蔬菜,我們需要做進一步的整理,把價格的單元格格式從文本改成數值格式,
我們做一個餅圖來看下這些瓜果蔬菜批發市場數量排名前十的占比情況,
通過餅圖我們可以分析得出批發市場數量最多的前10名里櫻桃西紅柿的批發市場數量最多,其次是光皮黃瓜、蔥頭、茄子和空心菜,
接下來我們看下對胡蘿卜/西蘭花的價格分析
胡蘿卜
我們一共爬取了96家批發市場的胡蘿卜價格,我們做了一個直方圖直觀的看一下胡蘿卜的批發價格區間,
可以看到,大多數批發市場的胡蘿卜價格在1.18元到1.51元之間,
江蘇聯誼農副產品批發市場的價格最高,平均價格是3元/斤,而河北魏縣天仙果菜批發交易市場的價格最低,平均價格在0.85元/斤,
西蘭花
我們一共爬取了57家西蘭花批發市場的市場報價,然后選取了報價最高的前10個批發市場做一個折線圖,來看下他的報價,
可以看到湖北鄂州市蟠龍蔬菜批發市場的報價是最高的,平均價格為6.5元/斤,排名并列第十的是浙江嘉善曹安農產品批發有限公司、山東青島黃河路農產品批發市場、黑龍江鶴崗市萬圃源蔬菜有限責任公司,平均價格價格為5元/斤,
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
作者:Darcy頻道
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/27473.html
標籤:Python
上一篇:06_多執行緒
下一篇:計算機二級C中的問題,求大佬幫忙
