1. 資料采集
參考《用Python爬取文胸資料發現中國女性50%以上罩杯是B,但是A-cup穿衣最高級!》,這里我們也算是取樣操作,僅采集在京東銷量最高的某莎品牌的某款產品的資料,由于都是均碼,區別在于color,所以采集的是各color產品的大致銷量分布,這部分資料采集這里不做介紹,和此前推文一致,
不過,這里我們將對評論進行采集,做簡單的評價分析,
頁面分析
很多人學習蟒蛇,不知道從何學起, 很多人學習尋找python,掌握了基本語法之后,不知道在哪里案例上手, 很多已經可能知道案例的人,卻不怎么去學習更多高深的知識, 這三類人,我給大家提供一個好的學習平臺,免費獲取視頻教程,電子書,以及課程的源代碼! QQ群:101677771 歡迎加入,一起討論學習
在開發者模式,我們通過翻頁找到了評論資料源地址,
找到評論資料源
某頁的地址如下:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100002080143&score=0&sortType=6&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
決議如下:
url = '
https://club.jd.com/comment/productPageComments.action?'
params = {
'callback': 'fetchJSON_comment98',
'productId': productId,
'score': 0,
'sortType': 6,
'page': page, # 變數,頁碼
'pageSize': 10,
'isShadowSku': 0,
'rid': 0,
'fold': 1,
}
采集程序
根據對頁面分析及所需資料的決議,我們可以構造獲取評論資訊的函式如下,得到的是某頁的評論串列資料
# 獲取評論資訊
def get_comments(productId, page, proxies=None):
# time.sleep(0.5)
url = 'https://club.jd.com/comment/productPageComments.action?'
params = {
'callback': 'fetchJSON_comment98',
'productId': productId,
'score': 0,
'sortType': 6,
'page': page,
'pageSize': 10,
'isShadowSku': 0,
'fold': 1,
}
# print(proxies)
r = requests.get(url, headers=headers, params=params,
# proxies=proxies,
timeout=6)
comment_data = https://www.cnblogs.com/sn5200/p/re.findall(r'fetchJSON_comment98\((.*)\)', r.text)[0]
comment_data = https://www.cnblogs.com/sn5200/p/json.loads(comment_data)
comments = comment_data['comments']
return comments
資料預覽
由于請求次數過多可能觸發反爬,為了盡可能采集更多資料,實際操作中我會用到代理ip的方法,
對于采集到的資料,我們做了簡單的清洗處理
df = pd.DataFrame(commentsList)
df.drop_duplicates(subset='guid',inplace=True)
df = df[~(df['content']=='此用戶未填寫評價內容')]
df = df[['id', 'content', 'creationTime', 'score', 'plusAvailable',
'mobileVersion', 'productColor', 'referenceTime', 'nickname']]
資料預覽
2. 統計展示
本部分我們主要看絲襪的顏色分布,購買絲襪的用戶評價詞云、用戶屬性以及絲襪市場份額
2.1. 顏色分布
由于采集到的原始資料中是按組合賣的,我們做簡單的處理后拆分出每個顏色的數量,然后進行統計展示,
膚色(也就是肉色)占比最高,達到62.9%,其次是黑色占比23.3%,
原始資料大家可以后臺回復 955,在 絲襪資料 檔案夾領取,
import pandas as pd
df = pd.read_excel('絲襪資料.xlsx')
df['顏色'] = df.顏色.str.replace('雙','').str.split('+')
df = df.explode('顏色')
df[['顏色','單件數']] = df.顏色.str.extract('(?P<顏色>.*?)(?P<單件數>\d)')
df['單件數'] = df['單件數'].astype('int')
df['數量'] = df['單件數']*df['commentCount']
colorNum = df.groupby('顏色')['數量'].sum().to_frame('數量')
colorNum
顏色數量咖啡色34334灰色44372膚色359305黑色133268
# 餅圖繪制
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
labels = colorNum.index
sizes = colorNum['數量']
explode = (0, 0, 0, 0.1)
fig1, ax1 = plt.subplots(figsize=(6,5))
patches, texts, autotexts = ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
shadow=True, startangle=90)
ax1.axis('equal')
# 重新設定字體大小
proptease = fm.FontProperties()
proptease.set_size('large')
plt.setp(autotexts, fontproperties=proptease)
plt.setp(texts, fontproperties=proptease)
ax1.set_title('【絲襪 顏色】 分布')
plt.show()
2.2. 評價詞云
詞云繪制參考《140行代碼自己動手寫一個詞云制作小工具(文末附工具下載)》,我們直接將評論資料匯入即可,后臺回復 955,在絲襪資料 檔案夾領取評論資料,
詞云
2.3. 用戶屬性
會員分布
plus會員占比高達72.7%
評論時間分布
評論時間集中在上午10-11點和晚上的8-10點,,,
labels = timeNum.index
sizes = timeNum['數量']
plt.style.use('ggplot')
x = labels
plt.figure(figsize=(10,5))
plt.title("評論時間折線圖")
plt.xlabel("時間")
plt.xticks(labels)
plt.ylabel("數量")
plt.plot(x,sizes,'-',color='coral',label="評論數")
plt.legend()
plt.show()
2.4. 絲襪市場
購買絲襪較多的主要是集中在南方的城市
來源:絲襪消費流行趨勢報告
隨著時尚理念的不斷更迭,絲襪的款式也不再單一,年輕人也越來越追求個性化的絲襪,這在最新發布的《絲襪消費流行趨勢報告》中也有所體現,越來越多的人開始購買小眾款絲襪,
絲襪市場規模
截止到2019年(2020年疫情特殊不做參考),中國年產絲襪39.73億雙,位居全球第一,其中國內銷量33.94億雙,市場規模五年間從175億躍升至266.4億,說明國人對絲襪的接受度正越來越高,
不過值得一提的是,在這266.4億中,有3.57億是男性絲襪,且規模比2014年翻了一倍,或許在不遠的將來,男性穿絲襪將變成新的時尚,
fig, ax = plt.subplots(figsize=(10,5))
y_data = https://www.cnblogs.com/sn5200/p/[175.5, 190.2, 203.8, 224.2, 248.9, 266.4]
x_data = ['2014年', '2015年', '2016年', '2017年', '2018年', '2019年']
# 柱狀圖顏色
color = 'coral'
# 柱狀圖
bar = plt.bar(x_data, y_data, 0.5, color=color,edgecolor='grey')
# 設定標題
ax.set_title('絲襪市場規模(單位:億)',fontsize=14,y=1.05)
# 設定坐標軸標題
ax.set_ylabel("",fontsize = 12,color = 'black',alpha = 0.7,rotation=360)
# 設定Y軸區間
ax.set_ylim(0,300)
# 顯示資料標簽
for a,b in zip(x_data, y_data):
plt.text(a,b,
b,
ha='center',
va='bottom',
)
3. 絲襪起源與發展
雖然現在我們在大街小巷看到穿著絲襪的基本都是女性,并且我們聊到絲襪的時候都會和女性、性感掛鉤,但是,其實我們追溯絲襪的起源會發現,最早絲襪是高質量男性的必備,
大家可以回憶在中學時代歐美歷史里的知名人物的插圖,是不是都是穿著絲襪的!!
拿破侖
16世紀,隨著工業的發展,在歐洲出現了第一臺手工針織機,當時絲襪是一種相當昂貴的產品,只有在皇宮中的男性才有資格穿絲襪!對,男性!!你沒有看錯!!!在法國,貴族男性爭搶購買一條絲襪,仿佛絲襪成為一種高貴的象征,
當然在16世紀后期,英國人發明了更為先進的針織機,質量也有進一步提升,歐洲的貴婦名媛也開始穿起絲襪,而此時的絲襪以紅色、橙色、紫色為上品,看見女人們穿絲襪的模樣,男人們很自覺的不穿了,而是看女人們穿,這標志女人穿絲襪的時代到來了,
法國國王路易十四
20世紀初,隨著兩次技術革命的重新,尼龍絲襪一度風靡全球,在歐洲尼龍絲襪一度出現脫銷,
二戰爆發期間,尼龍被列為軍需用品,尼龍絲襪生產癱瘓,只能限量發售,戰爭期間有人做了調查:女人們最想要的是什么?結果三分之二選擇了絲襪,而選男人的,還不到三分之一,在絲襪面前,男人一文不值,在黑市上,一雙絲襪的價格,一度被炒到四千美元,沒錢的女人,只能用粉餅或眉筆在腿上畫出絲襪來“畫餅充饑”,
戰爭結束,尼龍絲襪恢復生產,女人們如愿以償,男人們也如愿以償了,
1950年,尼龍絲襪開始大規模的生存,在外國普通的女人也可以買到一雙價格低廉的絲襪!女人們興高采烈地排長隊搶購尼龍絲襪,“求襪若渴”的女人買到了尼龍絲襪后,等不及回家,干脆坐在馬路邊,露出雪白大腿當眾換上,一時肉色撩人,風情萬種,鼻血飛濺,
1980年,絲襪等一些產品相繼從香港向內地流行開來,當時的內地女生只是想買而不敢去試穿!
1990年,絲襪逐漸被人所接受,性感的肉絲成為當時女人的時尚標配性搭配,
20世紀80年代穿著時尚絲襪的中國姑娘
21世紀,絲襪出現了材質,顏色,種類的不同,絲襪完全揭開了神秘的面紗,如同冬天我們離不開保暖的打底連褲絲襪一樣,可以達到緊致腿部塑性效果的絲襪更是妹子們手中必不可少的神器,
以上就是本次全部內容,我們從京東某品牌絲襪的資料做展開引申,再介紹了絲襪在中國的市場規模發展以及絲襪的起源,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/412880.html
標籤:Python
