本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
中秋節介紹
中秋節,又稱祭月節、月光誕、月夕、秋節、仲秋節、拜月節、月娘節、月亮節、團圓節等,是中國民間的傳統節日,
中秋節自古便有祭月、賞月、吃月餅、玩花燈、賞桂花、飲桂花酒等民俗,流傳至今,經久不息,
每年中秋節到,總會去姥姥那里送中秋,并買上各種各樣的月餅,那個時候科技并不怎么發達,不僅沒有這么多形形色色的月餅,也不知道哪些月餅賣得好? 月餅的價格分布是怎樣的呢? 什么地方的月餅銷量最高呢? 簡直有十萬個為什么,希望別人給我們解答,
隨著科技的飛速發展,互聯網溝通了你我他,我們通過淘寶上月餅的銷量,就可以解決我們想要知道的好多問題,基于此,我爬取了淘寶上4000多條月餅的銷售資料,為大家展示了一幅漂亮的可視化大屏,解決大家心目中的問題,
資料采集
這次爬取淘寶,采用的是最簡單的方式:Selenium控制Chrome瀏覽器進行自動化操作,中途只需要掃碼登陸一次,即可完成整個資料的爬取,
這種方法及其好用,不會出現封IP、封號的情況,大家放心使用!
大家運行這個代碼之前,唯一要做的就是下載與谷歌版本相對應的chromedriver驅動,然后進行相關配置即可,其實關于淘寶整個資料爬取的程序,可以參考之前發過的文章《爬電腦、爬電腦、爬完電腦買不起》
部分爬蟲代碼如下,詳細代碼可以去文末獲取!
from selenium import webdriver
# 搜索商品,獲取商品頁碼
def search_product(key_word):
# 定位輸入框
browser.find_element_by_id("q").send_keys(key_word)
# 定義點擊按鈕,并點擊
browser.find_element_by_class_name('btn-search').click()
# 最大化視窗:為了方便我們掃碼
browser.maximize_window()
# 等待15秒,給足時間我們掃碼
time.sleep(15)
# 定位這個“頁碼”,獲取“共100頁這個文本”
page_info = browser.find_element_by_xpath('//div[@]').text
# 需要注意的是:findall()回傳的是一個串列,雖然此時只有一個元素它也是一個串列,
page = re.findall("(\d+)",page_info)[0]
return page
資料清洗
資料清洗很重要,這個對于我們后續做可視化展示,極其重要,因此我們需要根據后面要做的圖形,然后進行對應的進行資料清洗,
爬取到的原始資料如下:
整個資料看上去算是比較干凈,但是還是有幾個地方值得我們處理一下,
- 爬取到的原始資料沒有列名,我們需要添加一個新列名;
- 整個爬蟲程序中,會出現重復資料,我們需要提前去重處理;
- 將購買人數為空的記錄,替換成0人付款;
- 將購買人數轉換為銷量(注意部分單位為萬);
- 洗掉無發貨地址的商品,并提取其中的省份;
資料清洗部分代碼如下:
# 提取數值
df['num'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人數']] # 提取數值
df['num'] = df['num'].astype('float') # 轉化數值型
# 提取單位(萬)
df['unit'] = [''.join(re.findall(r'(萬)', i)) for i in df['付款人數']] # 提取單位(萬)
df['unit'] = df['unit'].apply(lambda x:10000 if x=='萬' else 1)
# 計算銷量
df['銷量'] = df['num'] * df['unit']
現在來看看,清洗后的資料是啥樣的?
可視化展示
可視化是整個文章的亮點所在,所謂“字不如表、表不如圖”,整個可視化大屏我們基于以下五個問題開展而來,
- 月餅銷量Top10的柱形圖;
- 店鋪月餅銷量Top10的柱形圖;
- 全國月餅銷量的地域分布地圖;
- 不同價格區間的月餅銷量圓環圖;
- 月餅銷售關鍵字的詞云圖;
鑒于整個文章排版,本文可視化部分的代碼均可在本文末尾獲取,
1)月餅銷量Top10的柱形圖
結論:銷量Top10的月餅,其實對于我們選購月餅還是挺有指導意義的,從圖中可以看到這個稻香村月餅,買的還是極其好的,銷量排名前10的產品中,稻香村月餅占據了3個位置,還有一個名字特別熟悉:五芳齋,只知道他家的粽子做的好,原來月餅也做的不錯,所以說品牌效應還是很好的,那么你是否可以再看看,這些店里面是否有其他更好吃的點心呢?
2)店鋪月餅銷量Top10的柱形圖
結論分析:這里圖中顯示的結果,和第一張圖顯示的結果不謀而合,就不再過多的解釋了,唯獨感興趣的還是這個稻香村,為啥銷量如此好?百度一下得知原來是一家百年老店,附帶一張圖如下,
3)不同價格區間的月餅銷量圓環圖
結論分析:當然,價格才是大家關注的焦點,觀察上面的圓環圖可以發現,大多數月餅的價格都是處在中間的、能被大家接受的范圍(22-115),再稍微貴一點的就是115-633這個區間,而處在633元以上的歸月幾乎為0,畢竟中秋節是一個傳統節日,適中的價格才能被大家接受,利潤就這么幾天,薄利多銷才是王道,
4)月餅銷售關鍵字的詞云圖
結論分析:從圖中可以看出,廣式月餅極其受歡迎(PS:我還沒吃過),其次小時候經常吃的五仁月餅一直賣的挺好,豆沙月餅還一直是很多孩子的最愛呀!還有現在出來的各種各樣的新鮮口味,像美心、酥皮、信奈、燕窩、白蓮等等,你到底喜歡哪一個呢?
以上文章來源于資料分析與統計學之美 ,作者黃偉呢
轉載地址
https://blog.csdn.net/fei347795790?t=1
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/142363.html
標籤:其他
