import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['STFangsong']
plt.rcParams['axes.unicode_minus'] = False
%config InlineBackend.figure_format = 'svg'
資料分析的一般流程
-
提取資料(篩選)
- 布爾索引
query():相當于布爾索引drop():洗掉指定的行或列rename():重命名行或列索引reset_index():重置索引(將索引變成普通列)set_index():設定索引(將一個列或多個列指定為索引)reindex():調整行或列索引的順序(還可以做花式索引)
-
整合和重塑
merge():實作兩個DataFrame物件的內連接或外連接(適用于兩張表有關聯),concat():將兩個或多個DataFrame的資料拼接到一起(適用于多張表結構一致),
-
資料清洗(缺失值、重復值、例外值)
-
缺失值:
dropna():洗掉空值fillna():填充空值 <— 均值、中位數、眾數isnull()/notnull():判斷空值
-
重復值:
duplicated():判斷是否重復drop_duplicates():洗掉重復值
-
例外值:
- 例外值 / 極端值 / 離群值
drop():洗掉replace():替換
-
預處理:
apply():將函式作用到資料上,需要指定在哪個軸上執行transform():將(多個)函式作用到資料上applymap():對每個元素使用指定的函式進行映射,相當于Series上的map()方法 —> elementwise
注意:這三個方法都是高階函式的用法,
apply()方法接受的函式,可以是帶歸約性質的函式(聚合函式),也可以是沒有歸約性質的函式,transform()方法接受的函式不能是帶歸約功能的函式,只能是對資料做變換的函式,簡單的說就是函式的執行不會減少資料的量, -
-
資料透視(排序、分組、聚合)
- 透視表:根據A統計B(根據A列對資料進行分組,再對B列上聚合函式)
groupby()—>sum()/mean()/max()/ …pivot_table()—> 專門生成透視表的函式cut()—> 資料離散化(分箱)
-
資料可視化(統計圖表)
-
資料的洞察(發現問題給出建議)
Example 1
df = pd.read_csv('../files/data/bilibili.csv',encoding = 'GBK')
df
| title | url | watchnum | dm | uptime | upname | |
|---|---|---|---|---|---|---|
| 0 | 阿里云大學課程(云計算、中間件、大資料、云安全) | //www.bilibili.com/video/BV1Lv411s7wu?from=search | 2954 | 4 | 2021/1/21 | 韭菜滾雪球 |
| 1 | 視覺傳達設計專業的小朋友大學課程有哪些,強度怎么樣,需要什么技能?學姐給新生的解答與建議 | //www.bilibili.com/video/BV1Ea4y1a7CX?from=search | 3526 | 8 | 2020/7/25 | 鏵仔仔兒的奮斗史 |
| 2 | CAP:適合高中生的大學課程(上大學之前提前學習大學的課程)同濟大學《微積分CAP》 | //www.bilibili.com/video/BV1X4411Y7u8?from=search | 5597 | 17 | 2019/5/11 | 愚甘雜貨鋪 |
| 3 | 干貨!論文讀寫系列|寫作風格:例文決議(1)|人文社科|教育學|大學課程、知識 | //www.bilibili.com/video/BV1VC4y1b7ZA?from=search | 1.1萬 | 29 | 2020/7/26 | cici西西熙熙 |
| 4 | 《用戶體驗與心理-第1期》大學課程 | //www.bilibili.com/video/BV1r7411M7gY?from=search | 1373 | 9 | 2020/2/24 | Luka老師 |
| ... | ... | ... | ... | ... | ... | ... |
| 1902 | 【中國石油大學】構造地質學(第1-2章) ——主講:李理老師 | //www.bilibili.com/video/BV1Y4411x7sE?from=search | 4097 | 5 | 2019/5/2 | 點點滴滴Super |
| 1903 | 【模電】模擬電子技識訓礎【四】 | //www.bilibili.com/video/BV1sb411v7E6?from=search | 5997 | 11 | 2019/3/8 | 干脆的非洲鼓 |
| 1904 | 【模電】模擬電子技識訓礎【三】 | //www.bilibili.com/video/BV1Rb411i7yo?from=search | 4713 | 8 | 2019/3/5 | 干脆的非洲鼓 |
| 1905 | 結構化學-東北大學-王軍 | //www.bilibili.com/video/BV1yb411t7Mb?from=search | 5835 | 2 | 2019/2/28 | 萬萬萬萬不能慫 |
| 1906 | 《結構化學》南開大學-孫宏偉 重點難點決議 | //www.bilibili.com/video/BV1yt411t7UG?from=search | 5287 | 6 | 2019/1/28 | 阿bu愛學習 |
1907 rows × 6 columns
def handle_num(n):
if n[-1] == '萬':
return int(float(n[:-1]) * 10000)
return int(n)
df['watchnum'] = df.watchnum.map(handle_num)
df['dm'] = df.dm.map(handle_num)
df
| title | url | watchnum | dm | uptime | upname | |
|---|---|---|---|---|---|---|
| 0 | 阿里云大學課程(云計算、中間件、大資料、云安全) | //www.bilibili.com/video/BV1Lv411s7wu?from=search | 2954 | 4 | 2021/1/21 | 韭菜滾雪球 |
| 1 | 視覺傳達設計專業的小朋友大學課程有哪些,強度怎么樣,需要什么技能?學姐給新生的解答與建議 | //www.bilibili.com/video/BV1Ea4y1a7CX?from=search | 3526 | 8 | 2020/7/25 | 鏵仔仔兒的奮斗史 |
| 2 | CAP:適合高中生的大學課程(上大學之前提前學習大學的課程)同濟大學《微積分CAP》 | //www.bilibili.com/video/BV1X4411Y7u8?from=search | 5597 | 17 | 2019/5/11 | 愚甘雜貨鋪 |
| 3 | 干貨!論文讀寫系列|寫作風格:例文決議(1)|人文社科|教育學|大學課程、知識 | //www.bilibili.com/video/BV1VC4y1b7ZA?from=search | 11000 | 29 | 2020/7/26 | cici西西熙熙 |
| 4 | 《用戶體驗與心理-第1期》大學課程 | //www.bilibili.com/video/BV1r7411M7gY?from=search | 1373 | 9 | 2020/2/24 | Luka老師 |
| ... | ... | ... | ... | ... | ... | ... |
| 1902 | 【中國石油大學】構造地質學(第1-2章) ——主講:李理老師 | //www.bilibili.com/video/BV1Y4411x7sE?from=search | 4097 | 5 | 2019/5/2 | 點點滴滴Super |
| 1903 | 【模電】模擬電子技識訓礎【四】 | //www.bilibili.com/video/BV1sb411v7E6?from=search | 5997 | 11 | 2019/3/8 | 干脆的非洲鼓 |
| 1904 | 【模電】模擬電子技識訓礎【三】 | //www.bilibili.com/video/BV1Rb411i7yo?from=search | 4713 | 8 | 2019/3/5 | 干脆的非洲鼓 |
| 1905 | 結構化學-東北大學-王軍 | //www.bilibili.com/video/BV1yb411t7Mb?from=search | 5835 | 2 | 2019/2/28 | 萬萬萬萬不能慫 |
| 1906 | 《結構化學》南開大學-孫宏偉 重點難點決議 | //www.bilibili.com/video/BV1yt411t7UG?from=search | 5287 | 6 | 2019/1/28 | 阿bu愛學習 |
1907 rows × 6 columns
from datetime import datetime
# 將表中上傳時間(字串)轉換為時間型別
# pd.to_datetime(字串時間)
df['uptime'] = pd.to_datetime(df.uptime)
df.uptime # dtype: datetime64[ns]
0 2021-01-21
1 2020-07-25
2 2019-05-11
3 2020-07-26
4 2020-02-24
...
1902 2019-05-02
1903 2019-03-08
1904 2019-03-05
1905 2019-02-28
1906 2019-01-28
Name: uptime, Length: 1907, dtype: datetime64[ns]
df.uptime >= datetime(2021,1,1) # 布爾資料系列
0 True
1 False
2 False
3 False
4 False
...
1902 False
1903 False
1904 False
1905 False
1906 False
Name: uptime, Length: 1907, dtype: bool
[df.uptime >= datetime(2021,1,1)] # 布爾下標
temp = df[(df.uptime >= datetime(2021,1,1)) & (df.watchnum > 1000)] #發布時間為2021年播放量大于1000的帖子
temp.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 92 entries, 0 to 1425
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 title 92 non-null object
1 url 92 non-null object
2 watchnum 92 non-null int64
3 dm 92 non-null int64
4 uptime 92 non-null datetime64[ns]
5 upname 92 non-null object
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.0+ KB
# 通過運算式篩選
# obj.query(篩選條件)
df.query('watchnum >= 1000 and uptime >="2021-1-1"').info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 92 entries, 0 to 1425
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 title 92 non-null object
1 url 92 non-null object
2 watchnum 92 non-null int64
3 dm 92 non-null int64
4 uptime 92 non-null datetime64[ns]
5 upname 92 non-null object
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 5.0+ KB
# 根據播放量排序
# obj.sort_values(by=[列1,列2...],ascending = True/False) 默認為True升序
temp.sort_values(by=['watchnum','dm'],ascending=False)
| title | url | watchnum | dm | uptime | upname | |
|---|---|---|---|---|---|---|
| 459 | 【公開課】復旦大學:資本論 王德峰(全28講) | //www.bilibili.com/video/BV1Vp4y1x7F9?from=search | 1099000 | 4299 | 2021-01-19 | 農夫CC |
| 486 | 【公開課】北京大學:中國經濟 林毅夫(全12講) | //www.bilibili.com/video/BV1hK4y157dt?from=search | 235000 | 561 | 2021-01-14 | 農夫CC |
| 403 | 【公開課】溫鐵軍:中國經濟研究(8講) | //www.bilibili.com/video/BV1kp4y1W7u8?from=search | 106000 | 523 | 2021-01-27 | 農夫CC |
| 448 | 【公開課】溫鐵軍:中國經濟研究(8講) | //www.bilibili.com/video/BV1kp4y1W7u8?from=search | 106000 | 523 | 2021-01-27 | 農夫CC |
| 396 | 【公開課】加州大學洛杉磯分校:親密關系(全17講) | //www.bilibili.com/video/BV1xU4y147hJ?from=search | 65000 | 79 | 2021-01-21 | 農夫CC |
| ... | ... | ... | ... | ... | ... | ... |
| 811 | 【芝加哥大學】 理解全球經濟 全11講 | //www.bilibili.com/video/BV1nr4y1M7Fd?from=search | 1189 | 0 | 2021-01-24 | 學習黨加油站 |
| 923 | 2021年小黑老師計算機二級最新考點----替換考點匯總 | //www.bilibili.com/video/BV1UU4y1s7Tq?from=search | 1173 | 0 | 2021-02-01 | 愛家伙的小學習 |
| 1220 | 編程課堂:按鍵的前世今生學不會,不存在的, | //www.bilibili.com/video/BV1nK4y1W7bU?from=search | 1157 | 3 | 2021-01-12 | 三月課堂 |
| 20 | 【生活篇】UCLA本科生帶你了解加州大學課程設定與畢業要求 | //www.bilibili.com/video/BV1qt4y1r7Y3?from=search | 1107 | 8 | 2021-01-09 | 未必存在的真理 |
| 1425 | 【文學批評的方法與實踐】華中師范大學 胡亞敏(合6講) | //www.bilibili.com/video/BV1jr4y1M7Hd?from=search | 1003 | 0 | 2021-01-27 | 語文教學助手 |
92 rows × 6 columns
temp1 = temp.drop(columns='upname')
temp1
| title | url | watchnum | dm | uptime | |
|---|---|---|---|---|---|
| 0 | 阿里云大學課程(云計算、中間件、大資料、云安全) | //www.bilibili.com/video/BV1Lv411s7wu?from=search | 2954 | 4 | 2021-01-21 |
| 20 | 【生活篇】UCLA本科生帶你了解加州大學課程設定與畢業要求 | //www.bilibili.com/video/BV1qt4y1r7Y3?from=search | 1107 | 8 | 2021-01-09 |
| 374 | 【公開課】南開大學:中華詩詞 葉嘉瑩(20講) | //www.bilibili.com/video/BV1Vo4y1d7Pe?from=search | 4937 | 4 | 2021-02-10 |
| 384 | 【公開課】南開大學:中華詩詞 葉嘉瑩(20講) | //www.bilibili.com/video/BV1Vo4y1d7Pe?from=search | 4937 | 4 | 2021-02-10 |
| 387 | 【公開課】啟功:中華書法(全4講) | //www.bilibili.com/video/BV1FV411i7fV?from=search | 9777 | 12 | 2021-02-11 |
| ... | ... | ... | ... | ... | ... |
| 1299 | 蘇德礦教授談如何學好微積分—礦爺在丹青有約2021.1.7直播 | //www.bilibili.com/video/BV1dh41117yy?from=search | 1196 | 0 | 2021-01-07 |
| 1412 | 【中英字幕】曼徹斯特大學Advanced Microeconomics 課程 | //www.bilibili.com/video/BV1bX4y1K799?from=search | 8429 | 2 | 2021-01-19 |
| 1417 | 《數字無線電系統基礎》32講-電子科技大學-陳祝明【通信專題】 | //www.bilibili.com/video/BV1Ci4y1F7tU?from=search | 3958 | 14 | 2021-01-05 |
| 1422 | 西安交通大學《電路》趙進全100講 | //www.bilibili.com/video/BV1Z54y1x7ZK?from=search | 2205 | 3 | 2021-01-11 |
| 1425 | 【文學批評的方法與實踐】華中師范大學 胡亞敏(合6講) | //www.bilibili.com/video/BV1jr4y1M7Hd?from=search | 1003 | 0 | 2021-01-27 |
92 rows × 5 columns
# 判斷是否存在重復值
# temp.duplicated('url')
# 去重
temp.drop_duplicates('url')
| title | url | watchnum | dm | uptime | upname | |
|---|---|---|---|---|---|---|
| 0 | 阿里云大學課程(云計算、中間件、大資料、云安全) | //www.bilibili.com/video/BV1Lv411s7wu?from=search | 2954 | 4 | 2021-01-21 | 韭菜滾雪球 |
| 20 | 【生活篇】UCLA本科生帶你了解加州大學課程設定與畢業要求 | //www.bilibili.com/video/BV1qt4y1r7Y3?from=search | 1107 | 8 | 2021-01-09 | 未必存在的真理 |
| 374 | 【公開課】南開大學:中華詩詞 葉嘉瑩(20講) | //www.bilibili.com/video/BV1Vo4y1d7Pe?from=search | 4937 | 4 | 2021-02-10 | 農夫CC |
| 387 | 【公開課】啟功:中華書法(全4講) | //www.bilibili.com/video/BV1FV411i7fV?from=search | 9777 | 12 | 2021-02-11 | 農夫CC |
| 392 | 所以你記住物價這個詞了嘛! | //www.bilibili.com/video/BV1f54y1Y7JY?from=search | 2140 | 0 | 2021-02-25 | 大阪外語學院 |
| ... | ... | ... | ... | ... | ... | ... |
| 1299 | 蘇德礦教授談如何學好微積分—礦爺在丹青有約2021.1.7直播 | //www.bilibili.com/video/BV1dh41117yy?from=search | 1196 | 0 | 2021-01-07 | 穩及閣大學士 |
| 1412 | 【中英字幕】曼徹斯特大學Advanced Microeconomics 課程 | //www.bilibili.com/video/BV1bX4y1K799?from=search | 8429 | 2 | 2021-01-19 | 楊浦區老實人 |
| 1417 | 《數字無線電系統基礎》32講-電子科技大學-陳祝明【通信專題】 | //www.bilibili.com/video/BV1Ci4y1F7tU?from=search | 3958 | 14 | 2021-01-05 | 成電電子科協 |
| 1422 | 西安交通大學《電路》趙進全100講 | //www.bilibili.com/video/BV1Z54y1x7ZK?from=search | 2205 | 3 | 2021-01-11 | 物語終焉2021 |
| 1425 | 【文學批評的方法與實踐】華中師范大學 胡亞敏(合6講) | //www.bilibili.com/video/BV1jr4y1M7Hd?from=search | 1003 | 0 | 2021-01-27 | 語文教學助手 |
83 rows × 6 columns
def normalize_url(url):
if not url.startswith('https'):
return 'https:' + url
return url
df['url'] = df['url'].apply(normalize_url)
df
| title | url | watchnum | dm | uptime | upname | |
|---|---|---|---|---|---|---|
| 0 | 阿里云大學課程(云計算、中間件、大資料、云安全) | https://www.bilibili.com/video/BV1Lv411s7wu?fr... | 2954 | 4 | 2021-01-21 | 韭菜滾雪球 |
| 1 | 視覺傳達設計專業的小朋友大學課程有哪些,強度怎么樣,需要什么技能?學姐給新生的解答與建議 | https://www.bilibili.com/video/BV1Ea4y1a7CX?fr... | 3526 | 8 | 2020-07-25 | 鏵仔仔兒的奮斗史 |
| 2 | CAP:適合高中生的大學課程(上大學之前提前學習大學的課程)同濟大學《微積分CAP》 | https://www.bilibili.com/video/BV1X4411Y7u8?fr... | 5597 | 17 | 2019-05-11 | 愚甘雜貨鋪 |
| 3 | 干貨!論文讀寫系列|寫作風格:例文決議(1)|人文社科|教育學|大學課程、知識 | https://www.bilibili.com/video/BV1VC4y1b7ZA?fr... | 11000 | 29 | 2020-07-26 | cici西西熙熙 |
| 4 | 《用戶體驗與心理-第1期》大學課程 | https://www.bilibili.com/video/BV1r7411M7gY?fr... | 1373 | 9 | 2020-02-24 | Luka老師 |
| ... | ... | ... | ... | ... | ... | ... |
| 1902 | 【中國石油大學】構造地質學(第1-2章) ——主講:李理老師 | https://www.bilibili.com/video/BV1Y4411x7sE?fr... | 4097 | 5 | 2019-05-02 | 點點滴滴Super |
| 1903 | 【模電】模擬電子技識訓礎【四】 | https://www.bilibili.com/video/BV1sb411v7E6?fr... | 5997 | 11 | 2019-03-08 | 干脆的非洲鼓 |
| 1904 | 【模電】模擬電子技識訓礎【三】 | https://www.bilibili.com/video/BV1Rb411i7yo?fr... | 4713 | 8 | 2019-03-05 | 干脆的非洲鼓 |
| 1905 | 結構化學-東北大學-王軍 | https://www.bilibili.com/video/BV1yb411t7Mb?fr... | 5835 | 2 | 2019-02-28 | 萬萬萬萬不能慫 |
| 1906 | 《結構化學》南開大學-孫宏偉 重點難點決議 | https://www.bilibili.com/video/BV1yt411t7UG?fr... | 5287 | 6 | 2019-01-28 | 阿bu愛學習 |
1907 rows × 6 columns
Example 2
df1 = pd.read_csv('../files/data/lagou.csv',encoding = 'utf-8',index_col='no')
df1.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3140 entries, 0 to 3139
Data columns (total 51 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 _id 3140 non-null object
1 adWord 3140 non-null int64
2 appShow 3140 non-null int64
3 approve 3140 non-null int64
4 businessZones 1544 non-null object
5 city 3140 non-null object
6 companyFullName 3140 non-null object
7 companyId 3140 non-null int64
8 companyLabelList 3140 non-null object
9 companyLogo 3139 non-null object
10 companyShortName 3140 non-null object
11 companySize 3140 non-null object
12 createTime 3140 non-null object
13 deliver 3140 non-null int64
14 district 3133 non-null object
15 education 3140 non-null object
16 explain 0 non-null float64
17 financeStage 3140 non-null object
18 firstType 3140 non-null object
19 formatCreateTime 3140 non-null object
20 gradeDescription 0 non-null float64
21 hitags 260 non-null object
22 imState 3140 non-null object
23 industryField 3140 non-null object
24 industryLables 3140 non-null object
25 isHotHire 3140 non-null int64
26 isSchoolJob 3140 non-null int64
27 jobNature 3140 non-null object
28 lastLogin 3140 non-null object
29 latitude 3133 non-null float64
30 linestaion 2403 non-null object
31 longitude 3133 non-null float64
32 pcShow 3140 non-null int64
33 plus 0 non-null float64
34 positionAdvantage 3140 non-null object
35 positionId 3140 non-null int64
36 positionLables 3140 non-null object
37 positionName 3140 non-null object
38 promotionScoreExplain 0 non-null float64
39 publisherId 3140 non-null int64
40 resumeProcessDay 3140 non-null int64
41 resumeProcessRate 3140 non-null int64
42 salary 3140 non-null object
43 score 3140 non-null int64
44 secondType 3140 non-null object
45 skillLables 3140 non-null object
46 stationname 2403 non-null object
47 subwayline 2403 non-null object
48 thirdType 3140 non-null object
49 workYear 3140 non-null object
50 job_detail 1513 non-null object
dtypes: float64(6), int64(13), object(32)
memory usage: 1.2+ MB
pd.set_option('max_columns', None)
df1.head()
| _id | adWord | appShow | approve | businessZones | city | companyFullName | companyId | companyLabelList | companyLogo | companyShortName | companySize | createTime | deliver | district | education | explain | financeStage | firstType | formatCreateTime | gradeDescription | hitags | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | latitude | linestaion | longitude | pcShow | plus | positionAdvantage | positionId | positionLables | positionName | promotionScoreExplain | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | stationname | subwayline | thirdType | workYear | job_detail | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 0 | 5de5e75734e608e63026c1bc | 9 | 0 | 1 | ['亦莊'] | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | i/image2/M01/AF/7F/CgotOV3kqOqAZvWrAAAaonXDCck... | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 0 | 大興區 | 本科 | NaN | D輪及以上 | 產品|需求|專案類 | 1天前發布 | NaN | ['免費班車', '新婚紅包', '定期調薪', '電腦補貼', '生子紅包', '地鐵周邊... | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 39.795747 | 亦莊線_萬源街;亦莊線_榮京東街 | 116.510442 | 0 | NaN | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | NaN | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | 萬源街 | 亦莊線 | BI | 3-5年 | 1 、負責o2o電商日常運營資料的統計, 監控, 梳理指標體系;||2、基于海量用戶行為資料... |
| 1 | 5de5e75734e608e63026c1bd | 0 | 0 | 1 | NaN | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | i/image2/M01/8B/9A/CgotOV15uyKAMCL3AAAvAzXIrFw... | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 0 | 海淀區 | 本科 | NaN | A輪 | 產品|需求|專案類 | 11:23發布 | NaN | NaN | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 39.977555 | 10號線_知春路;10號線_西土城;13號線_大鐘寺;13號線_知春路 | 116.352145 | 0 | NaN | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | NaN | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 知春路 | 10號線 | 資料分析 | 1-3年 | 職責描述:||1. 完善業務資料監控體系,進行新功能指標埋點邏輯設計,搭建分析框架,... |
| 2 | 5de5e75734e608e63026c1be | 0 | 0 | 1 | ['西北旺'] | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | i/image2/M00/15/70/CgotOVn0PGWACXyxAAA4aF7GFgk... | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 0 | 海淀區 | 本科 | NaN | 未融資 | 產品|需求|專案類 | 10:35發布 | NaN | NaN | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 40.066757 | 16號線_永豐;16號線_永豐南 | 116.249581 | 0 | NaN | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | NaN | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 永豐 | 16號線 | 資料分析 | 3-5年 | 作業職責:||1.負責根據業務目標,制定并執行產品或業務的運營資料監控與分析機制,||2.完... |
| 3 | 5de5e75734e608e63026c1bf | 0 | 0 | 0 | NaN | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | images/logo_default.png | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 0 | 朝陽區 | 本科 | NaN | 不需要融資 | 產品|需求|專案類 | 10:35發布 | NaN | NaN | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 40.042254 | NaN | 116.291027 | 0 | NaN | 五險一金 | 6660148 | ['其他'] | 資料分析 | NaN | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | NaN | NaN | 資料分析 | 3-5年 | 1.基于對業務的支持和理解,搭建出可以準確反映業務運作狀況的資料指標體系;||2.商業嗅覺靈... |
| 4 | 5de5e75734e608e63026c1c0 | 0 | 0 | 0 | ['大望路', '建外大街', '南磨房'] | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | i/image2/M01/41/6C/CgoB5lz3eJGAYy2MAACd7SzHgKw... | WPIC | 50-150人 | 2019-12-03 12:10:22 | 0 | 朝陽區 | 本科 | NaN | 未融資 | 產品|需求|專案類 | 12:10發布 | NaN | NaN | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 39.907088 | 1號線_國貿;1號線_大望路;10號線_國貿;14號線東段_大望路 | 116.476390 | 0 | NaN | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | NaN | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 國貿 | 1號線 | 產品|需求|專案類 | 1-3年 | 職責描述:||1. 調研作業以客戶需求為主導;||2. 根據市場調研計劃,進行市場資訊的收集... |
df1.dropna(axis = 1,inplace=True)
df1
| _id | adWord | appShow | approve | city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | deliver | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | |||||||||||||||||||||||||||||||||||||
| 0 | 5de5e75734e608e63026c1bc | 9 | 0 | 1 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 0 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 |
| 1 | 5de5e75734e608e63026c1bd | 0 | 0 | 1 | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 0 | 本科 | A輪 | 產品|需求|專案類 | 11:23發布 | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 0 | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 1-3年 |
| 2 | 5de5e75734e608e63026c1be | 0 | 0 | 1 | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 0 | 本科 | 未融資 | 產品|需求|專案類 | 10:35發布 | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 0 | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 資料分析 | 3-5年 |
| 3 | 5de5e75734e608e63026c1bf | 0 | 0 | 0 | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 0 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:35發布 | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 0 | 五險一金 | 6660148 | ['其他'] | 資料分析 | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 3-5年 |
| 4 | 5de5e75734e608e63026c1c0 | 0 | 0 | 0 | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | WPIC | 50-150人 | 2019-12-03 12:10:22 | 0 | 本科 | 未融資 | 產品|需求|專案類 | 12:10發布 | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 0 | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 產品|需求|專案類 | 1-3年 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3135 | 5de5ea1134e608e63026cdfb | 0 | 0 | 1 | 天津 | 清博津商(天津)教育科技有限公司 | 260578 | [] | 清博津商 | 15-50人 | 2019-11-13 15:55:55 | 0 | 不限 | 不需要融資 | 運營|編輯|客服類 | 2019-11-13 | overSevenDays | 資料服務,教育 | [] | 0 | 1 | 兼職 | 2019-11-13 15:55:45 | 0 | 大資料行業優勢,作業氛圍好 | 6579749 | ['審核', '內容審核', '資訊'] | 審核實習生(春節短期) | 8913003 | 0 | 0 | 1k-2k | 0 | 審核 | ['審核', '內容審核', '資訊'] | 資訊審核 | 應屆畢業生 |
| 3136 | 5de5ea1134e608e63026cdfc | 0 | 0 | 1 | 天津 | 上海禮紫股權投資基金管理有限公司 | 264817 | [] | 禮紫股權投資 | 500-2000人 | 2019-11-04 09:02:04 | 0 | 不限 | 未融資 | 運營|編輯|客服類 | 2019-11-04 | overSevenDays | 金融 | ['社交', '運營'] | 0 | 0 | 全職 | 2019-11-14 16:23:36 | 0 | 旅游團建、內部晉升、待遇優厚、提供住宿 | 6270749 | ['社交', '運營'] | 運營助理 | 9535048 | 0 | 0 | 6k-8k | 0 | 運營 | ['運營'] | 運營助理|專員 | 不限 |
| 3137 | 5de5ea1134e608e63026cdfd | 0 | 0 | 1 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:28 | 0 | 本科 | D輪及以上 | 運營|編輯|客服類 | 10:16發布 | today | 文娛丨內容 | [] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 五險一金,績效獎金,餐補,房補 | 5051153 | ['運營', '用戶運營'] | 運營編輯團隊leader | 10506720 | 0 | 0 | 8k-15k | 0 | 運營 | ['運營', '用戶運營'] | 用戶運營 | 3-5年 |
| 3138 | 5de5ea1134e608e63026cdfe | 0 | 0 | 1 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:54 | 0 | 不限 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['電商', '商家運營'] | 0 | 0 | 全職 | 2019-12-03 11:25:10 | 0 | 五險一金 | 6624059 | ['電商', '商家運營'] | 商家運營-天津 | 14725914 | 3 | 1 | 6k-8k | 0 | 運營 | ['商家運營'] | 商家運營 | 不限 |
| 3139 | 5de5ea1134e608e63026cdff | 0 | 0 | 1 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:56 | 0 | 本科 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['移動互聯網'] | 0 | 1 | 全職 | 2019-12-03 11:25:10 | 0 | 轉正機會 | 6633633 | ['移動互聯網'] | 運營實習生-天津 | 14725914 | 3 | 1 | 2k-4k | 0 | 運營 | [] | 運營助理|專員 | 應屆畢業生 |
3140 rows × 37 columns
df1.drop(columns = ['_id','adWord','appShow','approve','deliver'],inplace=True)
df1
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | ||||||||||||||||||||||||||||||||
| 0 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 |
| 1 | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 本科 | A輪 | 產品|需求|專案類 | 11:23發布 | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 0 | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 1-3年 |
| 2 | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 本科 | 未融資 | 產品|需求|專案類 | 10:35發布 | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 0 | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 資料分析 | 3-5年 |
| 3 | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:35發布 | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 0 | 五險一金 | 6660148 | ['其他'] | 資料分析 | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 3-5年 |
| 4 | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | WPIC | 50-150人 | 2019-12-03 12:10:22 | 本科 | 未融資 | 產品|需求|專案類 | 12:10發布 | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 0 | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 產品|需求|專案類 | 1-3年 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3135 | 天津 | 清博津商(天津)教育科技有限公司 | 260578 | [] | 清博津商 | 15-50人 | 2019-11-13 15:55:55 | 不限 | 不需要融資 | 運營|編輯|客服類 | 2019-11-13 | overSevenDays | 資料服務,教育 | [] | 0 | 1 | 兼職 | 2019-11-13 15:55:45 | 0 | 大資料行業優勢,作業氛圍好 | 6579749 | ['審核', '內容審核', '資訊'] | 審核實習生(春節短期) | 8913003 | 0 | 0 | 1k-2k | 0 | 審核 | ['審核', '內容審核', '資訊'] | 資訊審核 | 應屆畢業生 |
| 3136 | 天津 | 上海禮紫股權投資基金管理有限公司 | 264817 | [] | 禮紫股權投資 | 500-2000人 | 2019-11-04 09:02:04 | 不限 | 未融資 | 運營|編輯|客服類 | 2019-11-04 | overSevenDays | 金融 | ['社交', '運營'] | 0 | 0 | 全職 | 2019-11-14 16:23:36 | 0 | 旅游團建、內部晉升、待遇優厚、提供住宿 | 6270749 | ['社交', '運營'] | 運營助理 | 9535048 | 0 | 0 | 6k-8k | 0 | 運營 | ['運營'] | 運營助理|專員 | 不限 |
| 3137 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:28 | 本科 | D輪及以上 | 運營|編輯|客服類 | 10:16發布 | today | 文娛丨內容 | [] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 五險一金,績效獎金,餐補,房補 | 5051153 | ['運營', '用戶運營'] | 運營編輯團隊leader | 10506720 | 0 | 0 | 8k-15k | 0 | 運營 | ['運營', '用戶運營'] | 用戶運營 | 3-5年 |
| 3138 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:54 | 不限 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['電商', '商家運營'] | 0 | 0 | 全職 | 2019-12-03 11:25:10 | 0 | 五險一金 | 6624059 | ['電商', '商家運營'] | 商家運營-天津 | 14725914 | 3 | 1 | 6k-8k | 0 | 運營 | ['商家運營'] | 商家運營 | 不限 |
| 3139 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:56 | 本科 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['移動互聯網'] | 0 | 1 | 全職 | 2019-12-03 11:25:10 | 0 | 轉正機會 | 6633633 | ['移動互聯網'] | 運營實習生-天津 | 14725914 | 3 | 1 | 2k-4k | 0 | 運營 | [] | 運營助理|專員 | 應屆畢業生 |
3140 rows × 32 columns
# 找出熱招崗位
df1[df1.isHotHire == 1]
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no |
# 融資階段D輪及以上的招聘崗位
# 判斷某字串中是否含有某字符(模糊查詢)
df1[df1.financeStage.str.contains('D')]
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | ||||||||||||||||||||||||||||||||
| 0 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 |
| 10 | 北京 | 貝殼找房(北京)科技有限公司 | 55446 | ['股票期權', '帶薪年假', '績效獎金', '扁平管理'] | 貝殼 | 2000人以上 | 2019-12-03 10:29:26 | 本科 | D輪及以上 | 開發|測驗|運維類 | 10:29發布 | today | 房產家居 | ['房產服務', '本地生活', '資料挖掘', '資料分析', '資料處理'] | 0 | 0 | 全職 | 2019-12-03 10:29:23 | 0 | 福利好,成長高 | 6217427 | ['房產服務', '本地生活', '資料挖掘', '資料分析', '資料處理'] | 資料分析經理 | 9752940 | 1 | 5 | 30k-50k | 0 | 資料開發 | ['資料挖掘', '資料分析', '資料處理'] | 資料分析 | 5-10年 |
| 13 | 北京 | 貝殼找房(北京)科技有限公司 | 55446 | ['股票期權', '帶薪年假', '績效獎金', '扁平管理'] | 貝殼 | 2000人以上 | 2019-12-03 10:29:28 | 本科 | D輪及以上 | 開發|測驗|運維類 | 10:29發布 | today | 房產家居 | [] | 0 | 0 | 全職 | 2019-12-03 10:29:23 | 0 | 福利好,成長高 | 6186927 | ['資料分析', '資料處理'] | 資深資料分析師 | 9752940 | 1 | 5 | 30k-50k | 0 | 資料開發 | ['資料分析', '資料處理'] | 資料分析 | 5-10年 |
| 14 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 |
| 18 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 5828609 | ['BI', 'SQL', 'SPSS'] | 資料分析師 | 7855636 | 1 | 100 | 20k-30k | 0 | 資料分析 | ['BI', 'SQL', 'SPSS'] | 資料分析 | 3-5年 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3091 | 天津 | 北京小唱科技有限公司 | 5026 | ['節日禮物', '股票期權', '帶薪年假', '員工海外游'] | 唱吧-手機里的KTV | 150-500人 | 2019-11-29 13:32:23 | 大專 | D輪及以上 | 運營|編輯|客服類 | 2019-11-29 | today | 移動互聯網,游戲 | [] | 0 | 0 | 全職 | 2019-12-03 11:12:18 | 0 | 年終獎 福利好 彈性作業時間 | 6647762 | ['質檢'] | 質檢專員 | 49542 | 1 | 40 | 5k-7k | 0 | 客服 | ['質檢'] | 客服 | 不限 |
| 3104 | 天津 | 天津鏈家寶業房地產經紀有限公司北城街店 | 496665 | [] | 天津鏈家地產 | 2000人以上 | 2019-11-29 17:01:27 | 本科 | D輪及以上 | 銷售類 | 2019-11-29 | today | 其他 | ['房產服務', '大資料', '客戶代表', '區域銷售', '電話銷售', '市場拓展'] | 0 | 0 | 全職 | 2019-12-02 19:04:59 | 0 | 底薪5000 全國連鎖企業 發展前景大 | 5546662 | ['房產服務', '大資料', '客戶代表', '區域銷售', '電話銷售', '市場拓展'] | 高級經紀人 | 12344930 | 0 | 0 | 6k-12k | 0 | 銷售 | ['客戶代表', '區域銷售', '電話銷售', '市場拓展'] | 銷售顧問 | 不限 |
| 3120 | 天津 | 北京每日優鮮電子商務有限公司 | 39934 | ['六險一金', '股票期權', '快速晉升', '年度體檢'] | 每日優鮮 | 2000人以上 | 2019-11-13 21:25:02 | 本科 | D輪及以上 | 貿易|批發|零售|租賃業 | 2019-11-13 | sevenDays | 移動互聯網,電商 | ['電商', '移動互聯網'] | 0 | 0 | 全職 | 2019-11-26 21:04:53 | 0 | 五險一金,帶薪年假,餐補,節日禮品 | 6484735 | ['電商', '移動互聯網'] | 天津商品采購 | 11702595 | 1 | 100 | 15k-25k | 0 | 采購 | [] | 買手 | 3-5年 |
| 3121 | 天津 | 北京每日優鮮電子商務有限公司 | 39934 | ['六險一金', '股票期權', '快速晉升', '年度體檢'] | 每日優鮮 | 2000人以上 | 2019-11-13 21:25:02 | 本科 | D輪及以上 | 貿易|批發|零售|租賃業 | 2019-11-13 | sevenDays | 移動互聯網,電商 | ['移動互聯網', '本地生活'] | 0 | 0 | 全職 | 2019-11-26 21:04:53 | 0 | 五險一金,帶薪年假,餐補,節日禮品 | 6484666 | ['移動互聯網', '本地生活'] | 天津商品采購(果蔬、食材、食品) | 11702595 | 1 | 100 | 15k-20k | 0 | 采購 | [] | 買手 | 3-5年 |
| 3137 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:28 | 本科 | D輪及以上 | 運營|編輯|客服類 | 10:16發布 | today | 文娛丨內容 | [] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 五險一金,績效獎金,餐補,房補 | 5051153 | ['運營', '用戶運營'] | 運營編輯團隊leader | 10506720 | 0 | 0 | 8k-15k | 0 | 運營 | ['運營', '用戶運營'] | 用戶運營 | 3-5年 |
235 rows × 32 columns
# 資料分析崗位
temp1 = df1[df1.positionName.str.contains('資料分析')]
temp1
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | ||||||||||||||||||||||||||||||||
| 0 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 |
| 1 | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 本科 | A輪 | 產品|需求|專案類 | 11:23發布 | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 0 | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 1-3年 |
| 2 | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 本科 | 未融資 | 產品|需求|專案類 | 10:35發布 | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 0 | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 資料分析 | 3-5年 |
| 3 | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:35發布 | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 0 | 五險一金 | 6660148 | ['其他'] | 資料分析 | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 3-5年 |
| 4 | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | WPIC | 50-150人 | 2019-12-03 12:10:22 | 本科 | 未融資 | 產品|需求|專案類 | 12:10發布 | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 0 | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 產品|需求|專案類 | 1-3年 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3065 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:29 | 本科 | D輪及以上 | 產品|需求|專案類 | 10:16發布 | today | 文娛丨內容 | ['視頻', '直播', '資料分析', '資料運營', '可視化'] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 福利待遇 平臺發展 公司規模 | 5605166 | ['視頻', '直播', '資料分析', '資料運營', '可視化'] | 資料分析專員 | 10506720 | 0 | 0 | 8k-10k | 0 | 資料分析 | ['資料分析', '資料運營', '可視化'] | 資料分析 | 1-3年 |
| 3069 | 天津 | 林之尚沃(天津)國際貿易有限公司 | 195673 | [] | 林之尚沃 | 15-50人 | 2019-12-03 09:37:31 | 本科 | 不需要融資 | 產品|需求|專案類 | 09:37發布 | today | 醫療丨健康 | ['大資料', '工具軟體', '資料分析', '資料運營', 'BI', '資料庫'] | 0 | 0 | 全職 | 2019-12-03 09:31:30 | 0 | 節假日福利 團建活動 零食飲料 | 6654011 | ['大資料', '工具軟體', '資料分析', '資料運營', 'BI', '資料庫'] | 資料分析專員 | 9208074 | 2 | 78 | 6k-10k | 0 | 資料分析 | ['資料分析', '資料運營', 'BI', '資料庫'] | 資料分析 | 1-3年 |
| 3070 | 天津 | 林之尚沃(天津)國際貿易有限公司 | 195673 | [] | 林之尚沃 | 15-50人 | 2019-12-03 09:37:31 | 本科 | 不需要融資 | 產品|需求|專案類 | 09:37發布 | today | 醫療丨健康 | ['新零售', '資料運營', '資料分析'] | 0 | 0 | 兼職 | 2019-12-03 09:31:30 | 0 | 節假日福利 團建活動 零食飲料 | 6485218 | ['新零售', '資料運營', '資料分析'] | 資料分析實習生 | 9208074 | 2 | 78 | 2k-4k | 0 | 資料分析 | ['資料運營', '資料分析'] | 商業 | 不限 |
| 3071 | 天津 | 西安格蒂電力有限公司 | 45678 | ['技能培訓', '帶薪年假', '績效獎金', '崗位晉升'] | 格蒂電力 | 500-2000人 | 2019-12-03 07:19:26 | 大專 | 未融資 | 開發|測驗|運維類 | 07:19發布 | today | 企業服務 | [] | 0 | 0 | 全職 | 2019-12-03 07:18:23 | 0 | 上市公司,福利待遇優厚,職業發展空間廣闊 | 6635415 | ['資料分析', 'Oracle', 'ETL', '資料挖掘'] | ETL/大資料/資料分析/實施 | 15229043 | 1 | 3 | 6k-12k | 0 | 資料開發 | ['資料分析', 'Oracle', 'ETL', '資料挖掘'] | ETL | 3-5年 |
| 3088 | 天津 | 谷川聯行有限公司 | 36984 | ['年底雙薪', '技能培訓', '帶薪年假', '績效獎金'] | 谷川聯行 | 150-500人 | 2019-11-26 08:42:40 | 本科 | 不需要融資 | 開發|測驗|運維類 | 2019-11-26 | today | 軟體開發,企業服務 | ['大資料', 'MySQL', '資料倉庫', '資料分析', 'ETL'] | 0 | 0 | 全職 | 2019-12-03 11:15:17 | 0 | 發展空間大 福利待遇高 周末雙休 | 6638504 | ['大資料', 'MySQL', '資料倉庫', '資料分析', 'ETL'] | BI工程師/資料分析師(天津) | 651726 | 1 | 100 | 8k-12k | 0 | 資料開發 | ['MySQL', '資料倉庫', '資料分析', 'ETL'] | BI工程師 | 不限 |
1515 rows × 32 columns
df1['year'] = pd.to_datetime(df1['createTime']).dt.year
df1['month'] = pd.to_datetime(df1['createTime']).dt.month
df1['day'] = pd.to_datetime(df1['createTime']).dt.day
df1['weekday'] = pd.to_datetime(df1['createTime']).dt.weekday # 0 - 星期一
df1
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | year | month | day | weekday | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | ||||||||||||||||||||||||||||||||||||
| 0 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 | 2019 | 12 | 2 | 0 |
| 1 | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 本科 | A輪 | 產品|需求|專案類 | 11:23發布 | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 0 | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 1-3年 | 2019 | 12 | 3 | 1 |
| 2 | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 本科 | 未融資 | 產品|需求|專案類 | 10:35發布 | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 0 | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 資料分析 | 3-5年 | 2019 | 12 | 3 | 1 |
| 3 | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:35發布 | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 0 | 五險一金 | 6660148 | ['其他'] | 資料分析 | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 3-5年 | 2019 | 12 | 3 | 1 |
| 4 | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | WPIC | 50-150人 | 2019-12-03 12:10:22 | 本科 | 未融資 | 產品|需求|專案類 | 12:10發布 | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 0 | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 產品|需求|專案類 | 1-3年 | 2019 | 12 | 3 | 1 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3135 | 天津 | 清博津商(天津)教育科技有限公司 | 260578 | [] | 清博津商 | 15-50人 | 2019-11-13 15:55:55 | 不限 | 不需要融資 | 運營|編輯|客服類 | 2019-11-13 | overSevenDays | 資料服務,教育 | [] | 0 | 1 | 兼職 | 2019-11-13 15:55:45 | 0 | 大資料行業優勢,作業氛圍好 | 6579749 | ['審核', '內容審核', '資訊'] | 審核實習生(春節短期) | 8913003 | 0 | 0 | 1k-2k | 0 | 審核 | ['審核', '內容審核', '資訊'] | 資訊審核 | 應屆畢業生 | 2019 | 11 | 13 | 2 |
| 3136 | 天津 | 上海禮紫股權投資基金管理有限公司 | 264817 | [] | 禮紫股權投資 | 500-2000人 | 2019-11-04 09:02:04 | 不限 | 未融資 | 運營|編輯|客服類 | 2019-11-04 | overSevenDays | 金融 | ['社交', '運營'] | 0 | 0 | 全職 | 2019-11-14 16:23:36 | 0 | 旅游團建、內部晉升、待遇優厚、提供住宿 | 6270749 | ['社交', '運營'] | 運營助理 | 9535048 | 0 | 0 | 6k-8k | 0 | 運營 | ['運營'] | 運營助理|專員 | 不限 | 2019 | 11 | 4 | 0 |
| 3137 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:28 | 本科 | D輪及以上 | 運營|編輯|客服類 | 10:16發布 | today | 文娛丨內容 | [] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 五險一金,績效獎金,餐補,房補 | 5051153 | ['運營', '用戶運營'] | 運營編輯團隊leader | 10506720 | 0 | 0 | 8k-15k | 0 | 運營 | ['運營', '用戶運營'] | 用戶運營 | 3-5年 | 2019 | 12 | 3 | 1 |
| 3138 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:54 | 不限 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['電商', '商家運營'] | 0 | 0 | 全職 | 2019-12-03 11:25:10 | 0 | 五險一金 | 6624059 | ['電商', '商家運營'] | 商家運營-天津 | 14725914 | 3 | 1 | 6k-8k | 0 | 運營 | ['商家運營'] | 商家運營 | 不限 | 2019 | 12 | 2 | 0 |
| 3139 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:56 | 本科 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['移動互聯網'] | 0 | 1 | 全職 | 2019-12-03 11:25:10 | 0 | 轉正機會 | 6633633 | ['移動互聯網'] | 運營實習生-天津 | 14725914 | 3 | 1 | 2k-4k | 0 | 運營 | [] | 運營助理|專員 | 應屆畢業生 | 2019 | 12 | 2 | 0 |
3140 rows × 36 columns
# 捕獲薪資欄位以獲取工資上下限
temp = df1.salary.str.extract(r'(\d+)[kK]?-(\d+)[kK]?')
# 將DataFrame中的str映射成int
temp = temp.applymap(int)
# 沿1軸計算均值
# axis = 1,表示對所有的列的每一行進行操作
df1['msal'] = temp.mean(axis = 1)
df1
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | year | month | day | weekday | msal | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | |||||||||||||||||||||||||||||||||||||
| 0 | 北京 | 達疆網路科技(上海)有限公司 | 32836 | ['年底雙薪', '績效獎金', '崗位晉升', '定期體檢'] | 達達-京東到家 | 2000人以上 | 2019-12-02 20:38:25 | 本科 | D輪及以上 | 產品|需求|專案類 | 1天前發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:33:07 | 0 | 成長快、氛圍好、領導好 | 6638350 | ['BI', '資料分析'] | 資料分析崗 | 7855636 | 1 | 100 | 15k-30k | 0 | 資料分析 | ['BI', '資料分析'] | BI | 3-5年 | 2019 | 12 | 2 | 0 | 22.5 |
| 1 | 北京 | 北京音娛時光科技有限公司 | 286568 | ['年底雙薪', '績效獎金', '帶薪年假', '免費健身'] | 音娛時光 | 50-150人 | 2019-12-03 11:23:35 | 本科 | A輪 | 產品|需求|專案類 | 11:23發布 | today | 移動互聯網 | [] | 0 | 0 | 全職 | 2019-12-03 11:23:38 | 0 | 技術大牛多;免費餐飲;氛圍好; | 6263661 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 12147286 | 1 | 100 | 10k-18k | 0 | 資料分析 | ['SQL', 'BI', 'SPSS'] | 資料分析 | 1-3年 | 2019 | 12 | 3 | 1 | 14.0 |
| 2 | 北京 | 北京千喜鶴餐飲管理有限公司 | 278964 | [] | 千喜鶴 | 2000人以上 | 2019-12-03 10:35:09 | 本科 | 未融資 | 產品|需求|專案類 | 10:35發布 | today | 消費生活 | ['移動互聯網', '視頻', 'SQL'] | 0 | 0 | 全職 | 2019-12-03 11:08:34 | 0 | 福利好,五險一金,住房補助 | 6660141 | ['移動互聯網', '視頻', 'SQL'] | 資料分析 | 6436858 | 0 | 0 | 20k-30k | 0 | 資料分析 | ['SQL', '資料分析'] | 資料分析 | 3-5年 | 2019 | 12 | 3 | 1 | 25.0 |
| 3 | 北京 | 吉林省海生電子商務有限公司 | 399744 | [] | 吉林省海生電子商務有限公司 | 少于15人 | 2019-12-03 10:35:56 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:35發布 | today | 電商 | ['其他'] | 0 | 0 | 全職 | 2019-12-03 10:30:37 | 0 | 五險一金 | 6660148 | ['其他'] | 資料分析 | 10978749 | 0 | 0 | 33k-50k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 3-5年 | 2019 | 12 | 3 | 1 | 41.5 |
| 4 | 北京 | 韋博網訊科技(北京)有限公司 | 580170 | [] | WPIC | 50-150人 | 2019-12-03 12:10:22 | 本科 | 未融資 | 產品|需求|專案類 | 12:10發布 | today | 電商,軟體開發 | ['電商'] | 0 | 0 | 全職 | 2019-12-03 11:54:22 | 0 | 待遇優厚 ,良好的發展前景 | 6590101 | ['電商'] | 資料分析 | 13213101 | 0 | 0 | 10k-15k | 0 | 資料分析 | ['資料分析'] | 產品|需求|專案類 | 1-3年 | 2019 | 12 | 3 | 1 | 12.5 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3135 | 天津 | 清博津商(天津)教育科技有限公司 | 260578 | [] | 清博津商 | 15-50人 | 2019-11-13 15:55:55 | 不限 | 不需要融資 | 運營|編輯|客服類 | 2019-11-13 | overSevenDays | 資料服務,教育 | [] | 0 | 1 | 兼職 | 2019-11-13 15:55:45 | 0 | 大資料行業優勢,作業氛圍好 | 6579749 | ['審核', '內容審核', '資訊'] | 審核實習生(春節短期) | 8913003 | 0 | 0 | 1k-2k | 0 | 審核 | ['審核', '內容審核', '資訊'] | 資訊審核 | 應屆畢業生 | 2019 | 11 | 13 | 2 | 1.5 |
| 3136 | 天津 | 上海禮紫股權投資基金管理有限公司 | 264817 | [] | 禮紫股權投資 | 500-2000人 | 2019-11-04 09:02:04 | 不限 | 未融資 | 運營|編輯|客服類 | 2019-11-04 | overSevenDays | 金融 | ['社交', '運營'] | 0 | 0 | 全職 | 2019-11-14 16:23:36 | 0 | 旅游團建、內部晉升、待遇優厚、提供住宿 | 6270749 | ['社交', '運營'] | 運營助理 | 9535048 | 0 | 0 | 6k-8k | 0 | 運營 | ['運營'] | 運營助理|專員 | 不限 | 2019 | 11 | 4 | 0 | 7.0 |
| 3137 | 天津 | 北京達佳互聯資訊技術有限公司 | 1880 | ['股票期權', '彈性作業', '定期體檢', '崗位晉升'] | 快手 | 2000人以上 | 2019-12-03 10:16:28 | 本科 | D輪及以上 | 運營|編輯|客服類 | 10:16發布 | today | 文娛丨內容 | [] | 0 | 0 | 全職 | 2019-12-03 10:01:37 | 0 | 五險一金,績效獎金,餐補,房補 | 5051153 | ['運營', '用戶運營'] | 運營編輯團隊leader | 10506720 | 0 | 0 | 8k-15k | 0 | 運營 | ['運營', '用戶運營'] | 用戶運營 | 3-5年 | 2019 | 12 | 3 | 1 | 11.5 |
| 3138 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:54 | 不限 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['電商', '商家運營'] | 0 | 0 | 全職 | 2019-12-03 11:25:10 | 0 | 五險一金 | 6624059 | ['電商', '商家運營'] | 商家運營-天津 | 14725914 | 3 | 1 | 6k-8k | 0 | 運營 | ['商家運營'] | 商家運營 | 不限 | 2019 | 12 | 2 | 0 | 7.0 |
| 3139 | 天津 | 北京河貍家資訊技術有限公司 | 25854 | ['高配福利', '彈性時間', 'BAT¥', '逗逼伙伴'] | 河貍家 | 500-2000人 | 2019-12-02 17:03:56 | 本科 | C輪 | 運營|編輯|客服類 | 1天前發布 | today | 移動互聯網 | ['移動互聯網'] | 0 | 1 | 全職 | 2019-12-03 11:25:10 | 0 | 轉正機會 | 6633633 | ['移動互聯網'] | 運營實習生-天津 | 14725914 | 3 | 1 | 2k-4k | 0 | 運營 | [] | 運營助理|專員 | 應屆畢業生 | 2019 | 12 | 2 | 0 | 3.0 |
3140 rows × 37 columns
# 排序和TopN
df1.sort_values(by = 'msal',ascending=False)
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | year | month | day | weekday | msal | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | |||||||||||||||||||||||||||||||||||||
| 2084 | 武漢 | 北京一一萬物科技有限公司 | 132108 | ['年底雙薪', '午餐補助', '彈性作業', '扁平管理'] | 伴伴 | 50-150人 | 2019-12-03 11:00:12 | 不限 | 不需要融資 | 運營|編輯|客服類 | 11:00發布 | today | 移動互聯網,社交 | ['移動互聯網'] | 0 | 0 | 兼職 | 2019-12-03 10:57:20 | 0 | 時間自由、作業環境好、薪資待遇高 | 6660359 | ['移動互聯網'] | 應用商店維護實習生 | 4515587 | 1 | 49 | 100k-200k | 0 | 運營 | [] | 網路推廣 | 不限 | 2019 | 12 | 3 | 1 | 150.0 |
| 2547 | 西安 | 西安嗅鏈資訊技術有限公司 | 117426867 | [] | 嗅鏈資訊 | 50-150人 | 2019-12-02 22:37:11 | 本科 | 未融資 | 綜合職能|高級管理 | 1天前發布 | today | 區塊鏈 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 0 | 0 | 全職 | 2019-12-03 08:26:16 | 0 | 年薪百萬 | 6659442 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 總監 | 15729179 | 0 | 0 | 45k-90k | 0 | 高級管理職位 | ['合伙人', '區域管理', '事業部管理'] | COO | 3-5年 | 2019 | 12 | 2 | 0 | 67.5 |
| 2542 | 西安 | 西安嗅鏈資訊技術有限公司 | 117426867 | [] | 嗅鏈資訊 | 50-150人 | 2019-12-02 22:37:11 | 本科 | 未融資 | 綜合職能|高級管理 | 1天前發布 | today | 區塊鏈 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 0 | 0 | 全職 | 2019-12-03 08:26:16 | 0 | 年薪百萬 | 6659442 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 總監 | 15729179 | 0 | 0 | 45k-90k | 0 | 高級管理職位 | ['合伙人', '區域管理', '事業部管理'] | COO | 3-5年 | 2019 | 12 | 2 | 0 | 67.5 |
| 1072 | 深圳 | 維沃移動通信有限公司 | 19875 | ['年終分紅', '帶薪年假', '年度旅游', '崗位晉升'] | vivo | 2000人以上 | 2019-11-20 17:19:04 | 本科 | 不需要融資 | 產品|需求|專案類 | 2019-11-20 | sevenDays | 硬體 | ['移動互聯網'] | 0 | 0 | 全職 | 2019-11-29 10:34:39 | 0 | 股票期權,精英團隊,彈性作業 | 5505916 | ['移動互聯網'] | 商業資料分析師 | 4036782 | 0 | 0 | 50k-80k | 0 | 資料分析 | [] | 資料分析 | 3-5年 | 2019 | 11 | 20 | 2 | 65.0 |
| 1074 | 深圳 | 維沃移動通信有限公司 | 19875 | ['年終分紅', '帶薪年假', '年度旅游', '崗位晉升'] | vivo | 2000人以上 | 2019-11-20 17:19:04 | 本科 | 不需要融資 | 產品|需求|專案類 | 2019-11-20 | sevenDays | 硬體 | ['移動互聯網'] | 0 | 0 | 全職 | 2019-11-29 10:34:39 | 0 | 彈性作業,股票期權,大資料平臺 千萬用戶 | 5948719 | ['移動互聯網'] | 商業資料分析師 (003969) | 4036782 | 0 | 0 | 50k-80k | 0 | 資料分析 | [] | 資料分析 | 3-5年 | 2019 | 11 | 20 | 2 | 65.0 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3135 | 天津 | 清博津商(天津)教育科技有限公司 | 260578 | [] | 清博津商 | 15-50人 | 2019-11-13 15:55:55 | 不限 | 不需要融資 | 運營|編輯|客服類 | 2019-11-13 | overSevenDays | 資料服務,教育 | [] | 0 | 1 | 兼職 | 2019-11-13 15:55:45 | 0 | 大資料行業優勢,作業氛圍好 | 6579749 | ['審核', '內容審核', '資訊'] | 審核實習生(春節短期) | 8913003 | 0 | 0 | 1k-2k | 0 | 審核 | ['審核', '內容審核', '資訊'] | 資訊審核 | 應屆畢業生 | 2019 | 11 | 13 | 2 | 1.5 |
| 1169 | 廣州 | 網易(杭州)網路有限公司 | 329 | ['節日禮物', '技能培訓', '免費班車', '帶薪年假'] | 網易 | 2000人以上 | 2019-12-01 16:30:07 | 本科 | 上市公司 | 市場|商務類 | 2天前發布 | disabled | 電商 | [] | 0 | 1 | 實習 | 2019-12-03 11:20:24 | 0 | 平臺好 、導師制、包三餐 | 5808948 | ['資料分析'] | 資料分析實習生 | 262031 | 2 | 62 | 1k-2k | 0 | 市場|營銷 | ['資料分析'] | 商業資料分析 | 應屆畢業生 | 2019 | 12 | 1 | 6 | 1.5 |
| 507 | 上海 | 宜家(中國)投資有限公司 | 560057 | ['年底雙薪', '帶薪年假', '定期體檢', '彈性作業'] | 宜家 | 2000人以上 | 2019-12-03 10:20:51 | 本科 | 不需要融資 | 產品|需求|專案類 | 10:20發布 | today | 消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 11:26:31 | 0 | 員工餐廳 企業年金 超長年假 外企福利 | 6046040 | ['資料分析', '可視化', 'SQL'] | 高級資料分析師 | 5883282 | 1 | 17 | 1k-2k | 0 | 資料分析 | ['資料分析', '可視化', 'SQL'] | 資料分析 | 5-10年 | 2019 | 12 | 3 | 1 | 1.5 |
| 996 | 深圳 | 九章天璇投資咨詢(深圳)有限公司 | 543962 | [] | 九章天璇 | 少于15人 | 2019-11-23 10:07:43 | 本科 | 未融資 | 產品|需求|專案類 | 2019-11-23 | today | 金融,資料服務 | ['互聯網金融', '大資料', '資料分析'] | 0 | 1 | 實習 | 2019-12-02 18:29:30 | 0 | 金融 AI 大資料 | 6514680 | ['互聯網金融', '大資料', '資料分析'] | 資料分析實習生 | 10701138 | 1 | 100 | 1k-2k | 0 | 資料分析 | ['資料分析'] | 資料分析 | 應屆畢業生 | 2019 | 11 | 23 | 5 | 1.5 |
| 915 | 深圳 | 中國平安人壽保險股份有限公司 | 140014 | ['績效獎金', '帶薪年假', '定期體檢', '節日禮物'] | 平安人壽 | 2000人以上 | 2019-12-03 00:00:12 | 本科 | 上市公司 | 產品|需求|專案類 | 00:00發布 | disabled | 金融 | ['金融'] | 0 | 0 | 全職 | 2019-12-02 10:01:28 | 0 | 五險一金,績效獎金,節日福利,定期體檢 | 6095621 | ['金融'] | 0222JM-資料分析師 | 7915574 | 0 | 0 | 1k-1k | 0 | 資料分析 | [] | 其他資料分析 | 1-3年 | 2019 | 12 | 3 | 1 | 1.0 |
3140 rows × 37 columns
df1.nlargest(10,'msal')
| city | companyFullName | companyId | companyLabelList | companyShortName | companySize | createTime | education | financeStage | firstType | formatCreateTime | imState | industryField | industryLables | isHotHire | isSchoolJob | jobNature | lastLogin | pcShow | positionAdvantage | positionId | positionLables | positionName | publisherId | resumeProcessDay | resumeProcessRate | salary | score | secondType | skillLables | thirdType | workYear | year | month | day | weekday | msal | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| no | |||||||||||||||||||||||||||||||||||||
| 2084 | 武漢 | 北京一一萬物科技有限公司 | 132108 | ['年底雙薪', '午餐補助', '彈性作業', '扁平管理'] | 伴伴 | 50-150人 | 2019-12-03 11:00:12 | 不限 | 不需要融資 | 運營|編輯|客服類 | 11:00發布 | today | 移動互聯網,社交 | ['移動互聯網'] | 0 | 0 | 兼職 | 2019-12-03 10:57:20 | 0 | 時間自由、作業環境好、薪資待遇高 | 6660359 | ['移動互聯網'] | 應用商店維護實習生 | 4515587 | 1 | 49 | 100k-200k | 0 | 運營 | [] | 網路推廣 | 不限 | 2019 | 12 | 3 | 1 | 150.0 |
| 2542 | 西安 | 西安嗅鏈資訊技術有限公司 | 117426867 | [] | 嗅鏈資訊 | 50-150人 | 2019-12-02 22:37:11 | 本科 | 未融資 | 綜合職能|高級管理 | 1天前發布 | today | 區塊鏈 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 0 | 0 | 全職 | 2019-12-03 08:26:16 | 0 | 年薪百萬 | 6659442 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 總監 | 15729179 | 0 | 0 | 45k-90k | 0 | 高級管理職位 | ['合伙人', '區域管理', '事業部管理'] | COO | 3-5年 | 2019 | 12 | 2 | 0 | 67.5 |
| 2547 | 西安 | 西安嗅鏈資訊技術有限公司 | 117426867 | [] | 嗅鏈資訊 | 50-150人 | 2019-12-02 22:37:11 | 本科 | 未融資 | 綜合職能|高級管理 | 1天前發布 | today | 區塊鏈 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 0 | 0 | 全職 | 2019-12-03 08:26:16 | 0 | 年薪百萬 | 6659442 | ['企業服務', '合伙人', '區域管理', '事業部管理'] | 總監 | 15729179 | 0 | 0 | 45k-90k | 0 | 高級管理職位 | ['合伙人', '區域管理', '事業部管理'] | COO | 3-5年 | 2019 | 12 | 2 | 0 | 67.5 |
| 1072 | 深圳 | 維沃移動通信有限公司 | 19875 | ['年終分紅', '帶薪年假', '年度旅游', '崗位晉升'] | vivo | 2000人以上 | 2019-11-20 17:19:04 | 本科 | 不需要融資 | 產品|需求|專案類 | 2019-11-20 | sevenDays | 硬體 | ['移動互聯網'] | 0 | 0 | 全職 | 2019-11-29 10:34:39 | 0 | 股票期權,精英團隊,彈性作業 | 5505916 | ['移動互聯網'] | 商業資料分析師 | 4036782 | 0 | 0 | 50k-80k | 0 | 資料分析 | [] | 資料分析 | 3-5年 | 2019 | 11 | 20 | 2 | 65.0 |
| 1074 | 深圳 | 維沃移動通信有限公司 | 19875 | ['年終分紅', '帶薪年假', '年度旅游', '崗位晉升'] | vivo | 2000人以上 | 2019-11-20 17:19:04 | 本科 | 不需要融資 | 產品|需求|專案類 | 2019-11-20 | sevenDays | 硬體 | ['移動互聯網'] | 0 | 0 | 全職 | 2019-11-29 10:34:39 | 0 | 彈性作業,股票期權,大資料平臺 千萬用戶 | 5948719 | ['移動互聯網'] | 商業資料分析師 (003969) | 4036782 | 0 | 0 | 50k-80k | 0 | 資料分析 | [] | 資料分析 | 3-5年 | 2019 | 11 | 20 | 2 | 65.0 |
| 978 | 深圳 | 深圳依時貨拉拉科技有限公司 | 41178 | ['技能培訓', '專項獎金', '績效獎金', '扁平管理'] | 貨拉拉 | 2000人以上 | 2019-11-25 16:55:07 | 本科 | D輪及以上 | 產品|需求|專案類 | 2019-11-25 | today | 移動互聯網,消費生活 | [] | 0 | 0 | 全職 | 2019-12-03 10:56:45 | 0 | 發展空間大 | 6069939 | ['BI', '商業', '資料分析'] | 資深資料分析師(J11772) | 765920 | 1 | 100 | 50k-70k | 0 | 資料分析 | ['BI', '商業', '資料分析'] | BI | 5-10年 | 2019 | 11 | 25 | 0 | 60.0 |
| 1071 | 深圳 | 維沃移動通信有限公司 | 19875 | ['年終分紅', '帶薪年假', '年度旅游', '崗位晉升'] | vivo | 2000人以上 | 2019-11-20 17:19:03 | 本科 | 不需要融資 | 開發|測驗|運維類 | 2019-11-20 | sevenDays | 硬體 | [] | 0 | 0 | 全職 | 2019-11-29 10:34:39 | 0 | 股票期權,精英團隊,彈性作業 | 6474297 | ['資料分析'] | 商業資料分析經理 | 4036782 | 0 | 0 | 40k-80k | 0 | 資料開發 | ['資料分析'] | 資料分析 | 5-10年 | 2019 | 11 | 20 | 2 | 60.0 |
| 1866 | 南京 | 上海冰鑒資訊科技有限公司 | 93049 | ['福利關懷豐厚', '組織管理扁平', '年終獎金豐厚', '技術實力強大'] | 冰鑒科技 | 150-500人 | 2019-12-02 13:48:10 | 博士 | C輪 | 金融類 | 1天前發布 | today | 資訊安全,資料服務 | [] | 0 | 0 | 全職 | 2019-12-03 09:49:45 | 0 | 六險一金、年假、下午茶、年終2-4個月 | 6608166 | ['風險評估', '授信審查', '風控'] | 模型總監 | 10816955 | 1 | 40 | 50k-70k | 0 | 風控 | ['風險評估', '授信審查', '風控'] | 風控 | 3-5年 | 2019 | 12 | 2 | 0 | 60.0 |
| 2445 | 武漢 | 北京位元組跳動科技有限公司 | 62 | ['扁平管理', '彈性作業', '大廚定制三餐', '就近租房補貼'] | 位元組跳動 | 2000人以上 | 2019-11-21 11:15:59 | 本科 | C輪 | 開發|測驗|運維類 | 2019-11-21 | today | 文娛丨內容 | ['后端開發'] | 0 | 0 | 全職 | 2019-12-02 14:48:46 | 0 | 六險一金,高薪期權,免費三餐,租房補貼 | 5949709 | ['后端開發'] | 后端架構師-武漢 | 12014567 | 0 | 0 | 40k-80k | 0 | 后端開發 | [] | 其他后端開發 | 不限 | 2019 | 11 | 21 | 3 | 60.0 |
| 2507 | 武漢 | 北京位元組跳動科技有限公司 | 62 | ['扁平管理', '彈性作業', '大廚定制三餐', '就近租房補貼'] | 位元組跳動 | 2000人以上 | 2019-11-21 11:15:59 | 本科 | C輪 | 開發|測驗|運維類 | 2019-11-21 | today | 文娛丨內容 | ['后端開發'] | 0 | 0 | 全職 | 2019-12-02 14:48:46 | 0 | 六險一金,高薪期權,免費三餐,租房補貼 | 5949709 | ['后端開發'] | 后端架構師-武漢 | 12014567 | 0 | 0 | 40k-80k | 0 | 后端開發 | [] | 其他后端開發 | 不限 | 2019 | 11 | 21 | 3 | 60.0 |
ser = df1.groupby('city').msal.mean()
ser
city
上海 20.198630
北京 21.044444
南京 13.411157
廈門 12.139098
天津 10.400000
廣州 14.800562
成都 12.573333
杭州 20.122881
武漢 12.401111
深圳 19.473077
蘇州 13.826531
西安 9.340237
長沙 9.394737
Name: msal, dtype: float64
ser.plot(kind = 'bar')
plt.xticks(rotation = 0) # 橫坐標旋轉度數
plt.show()
?

?
def my_mean(group):
return np.round(np.mean(group),1)
# SAC --> Split - Aggragate - Combine
df1.groupby('city').msal.agg(['max','min',my_mean,np.ptp])
| max | min | my_mean | ptp | |
|---|---|---|---|---|
| city | ||||
| 上海 | 45.0 | 1.5 | 20.2 | 43.5 |
| 北京 | 52.5 | 2.5 | 21.0 | 50.0 |
| 南京 | 60.0 | 1.5 | 13.4 | 58.5 |
| 廈門 | 37.5 | 3.0 | 12.1 | 34.5 |
| 天津 | 37.5 | 1.5 | 10.4 | 36.0 |
| 廣州 | 40.0 | 1.5 | 14.8 | 38.5 |
| 成都 | 50.0 | 1.5 | 12.6 | 48.5 |
| 杭州 | 55.0 | 3.5 | 20.1 | 51.5 |
| 武漢 | 150.0 | 2.5 | 12.4 | 147.5 |
| 深圳 | 65.0 | 1.0 | 19.5 | 64.0 |
| 蘇州 | 42.5 | 3.5 | 13.8 | 39.0 |
| 西安 | 67.5 | 2.5 | 9.3 | 65.0 |
| 長沙 | 25.0 | 3.0 | 9.4 | 22.0 |
# 對多個列進行資料聚合不同的列使用不同的聚合方式
# 同一個列也可以作用多個聚合函式
df1.groupby('city')[['msal','companyId']].agg({
'msal':my_mean,
'companyId':['nunique','count']
})
| msal | companyId | ||
|---|---|---|---|
| my_mean | nunique | count | |
| city | |||
| 上海 | 20.2 | 204 | 365 |
| 北京 | 21.0 | 246 | 450 |
| 南京 | 13.4 | 135 | 242 |
| 廈門 | 12.1 | 70 | 133 |
| 天津 | 10.4 | 49 | 75 |
| 廣州 | 14.8 | 124 | 178 |
| 成都 | 12.6 | 250 | 450 |
| 杭州 | 20.1 | 80 | 118 |
| 武漢 | 12.4 | 246 | 450 |
| 深圳 | 19.5 | 142 | 260 |
| 蘇州 | 13.8 | 68 | 98 |
| 西安 | 9.3 | 113 | 169 |
| 長沙 | 9.4 | 90 | 152 |
透視表
什么是透視表:根據A統計B
# 生成透視表 DataFrame、A、B、聚合函式
pd.pivot_table(data=df1, # DataFrame
index = 'city', # A 被透視物件 原表格資料項(groupby屬性)
values = ['msal','companyId'], # B 需要透視的資料
aggfunc = { # 聚合函式
'msal':my_mean,
'companyId':'nunique'
})
| companyId | msal | |
|---|---|---|
| city | ||
| 上海 | 204 | 20.2 |
| 北京 | 246 | 21.0 |
| 南京 | 135 | 13.4 |
| 廈門 | 70 | 12.1 |
| 天津 | 49 | 10.4 |
| 廣州 | 124 | 14.8 |
| 成都 | 250 | 12.6 |
| 杭州 | 80 | 20.1 |
| 武漢 | 246 | 12.4 |
| 深圳 | 142 | 19.5 |
| 蘇州 | 68 | 13.8 |
| 西安 | 113 | 9.3 |
| 長沙 | 90 | 9.4 |
df2 = pd.read_excel('../files/data/2020年銷售資料.xlsx')
df2
| 銷售日期 | 銷售資訊 | 銷售區域 | 銷售渠道 | 銷售訂單 | 品牌 | 售價 | 銷售數量 | 銷售額 | |
|---|---|---|---|---|---|---|---|---|---|
| 0 | 2020-01-01 | 上海拼多多訂單182894-455 | 上海 | 拼多多 | 182894-455 | 八匹馬 | 99 | 83 | 8217 |
| 1 | 2020-01-01 | 上海抖音訂單205635-402 | 上海 | 抖音 | 205635-402 | 八匹馬 | 219 | 29 | 6351 |
| 2 | 2020-01-01 | 上海天貓訂單205654-021 | 上海 | 天貓 | 205654-021 | 八匹馬 | 169 | 85 | 14365 |
| 3 | 2020-01-01 | 上海天貓訂單205654-519 | 上海 | 天貓 | 205654-519 | 八匹馬 | 169 | 14 | 2366 |
| 4 | 2020-01-01 | 上海天貓訂單377781-010 | 上海 | 天貓 | 377781-010 | 皮皮蝦 | 249 | 61 | 15189 |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 1940 | 2020-12-30 | 北京京東訂單D89677 | 北京 | 京東 | D89677 | 花花姑娘 | 269 | 26 | 6994 |
| 1941 | 2020-12-30 | 福建物體訂單182719-050 | 福建 | 物體 | 182719-050 | 八匹馬 | 79 | 97 | 7663 |
| 1942 | 2020-12-31 | 福建物體訂單G70083 | 福建 | 物體 | G70083 | 花花姑娘 | 269 | 55 | 14795 |
| 1943 | 2020-12-31 | 福建抖音訂單211471-902/704 | 福建 | 抖音 | 211471-902/704 | 八匹馬 | 59 | 59 | 3481 |
| 1944 | 2020-12-31 | 福建天貓訂單211807-050 | 福建 | 天貓 | 211807-050 | 八匹馬 | 99 | 27 | 2673 |
1945 rows × 9 columns
# 月度銷售額
pd.pivot_table(data = df2,
index = '品牌',
columns= ['銷售區域'],
values = ['銷售額'],
aggfunc =np.sum,
margins=True, # 添加總計列
margins_name='總計')
| 銷售額 | |||||||||
|---|---|---|---|---|---|---|---|---|---|
| 銷售區域 | 上海 | 北京 | 南京 | 安徽 | 廣東 | 江蘇 | 浙江 | 福建 | 總計 |
| 品牌 | |||||||||
| 八匹馬 | 1689384.0 | 1703513.0 | 317169.0 | 239382.0 | 214443.0 | 24992.0 | 3927.0 | 1141836.0 | 5334646 |
| 啊喲喂 | 168858.0 | 259090.0 | 49847.0 | 13697.0 | 26677.0 | 19104.0 | 8843.0 | 147043.0 | 693159 |
| 壁虎 | 1573379.0 | 1381350.0 | 195633.0 | 148002.0 | 22146.0 | 5475.0 | 202228.0 | 1150766.0 | 4678979 |
| 皮皮蝦 | 2939357.0 | 2365844.0 | 480544.0 | 55771.0 | 95826.0 | 99989.0 | NaN | 1854940.0 | 7892271 |
| 花花姑娘 | 5239511.0 | 6767920.0 | 724108.0 | 438611.0 | 1258857.0 | 387519.0 | 472864.0 | 5883642.0 | 21173032 |
| 總計 | 11610489.0 | 12477717.0 | 1767301.0 | 895463.0 | 1617949.0 | 537079.0 | 687862.0 | 10178227.0 | 39772087 |
# 品牌銷售占比
temp = pd.pivot_table(data = df2,
index = '品牌',
values = '銷售額',
aggfunc = 'sum',
margins=True,
margins_name='總計')
temp
| 銷售額 | |
|---|---|
| 品牌 | |
| 八匹馬 | 5334646 |
| 啊喲喂 | 693159 |
| 壁虎 | 4678979 |
| 皮皮蝦 | 7892271 |
| 花花姑娘 | 21173032 |
| 總計 | 39772087 |
# 品牌銷售占比
temp.plot(kind = 'pie',autopct = '%.2f%%',subplots=True)
plt.show
<function matplotlib.pyplot.show(close=None, block=None)>
?

?
# 各地區銷售額
pd.pivot_table(data = df2,
index = '銷售區域',
values = ['銷售額'],
columns = '品牌',
aggfunc = 'sum',
margins=True,
margins_name='總計')
| 銷售額 | ||||||
|---|---|---|---|---|---|---|
| 品牌 | 八匹馬 | 啊喲喂 | 壁虎 | 皮皮蝦 | 花花姑娘 | 總計 |
| 銷售區域 | ||||||
| 上海 | 1689384.0 | 168858.0 | 1573379.0 | 2939357.0 | 5239511.0 | 11610489 |
| 北京 | 1703513.0 | 259090.0 | 1381350.0 | 2365844.0 | 6767920.0 | 12477717 |
| 南京 | 317169.0 | 49847.0 | 195633.0 | 480544.0 | 724108.0 | 1767301 |
| 安徽 | 239382.0 | 13697.0 | 148002.0 | 55771.0 | 438611.0 | 895463 |
| 廣東 | 214443.0 | 26677.0 | 22146.0 | 95826.0 | 1258857.0 | 1617949 |
| 江蘇 | 24992.0 | 19104.0 | 5475.0 | 99989.0 | 387519.0 | 537079 |
| 浙江 | 3927.0 | 8843.0 | 202228.0 | NaN | 472864.0 | 687862 |
| 福建 | 1141836.0 | 147043.0 | 1150766.0 | 1854940.0 | 5883642.0 | 10178227 |
| 總計 | 5334646.0 | 693159.0 | 4678979.0 | 7892271.0 | 21173032.0 | 39772087 |
# 各渠道品牌銷量
pd.pivot_table(data = df2,
index = ['銷售渠道'],
columns = ['品牌'],
values =['銷售數量'],
aggfunc = 'sum',
margins = True,
margins_name = '總計')
| 銷售數量 | ||||||
|---|---|---|---|---|---|---|
| 品牌 | 八匹馬 | 啊喲喂 | 壁虎 | 皮皮蝦 | 花花姑娘 | 總計 |
| 銷售渠道 | ||||||
| 京東 | 5428 | 733 | 3199 | 3090 | 9072 | 21522 |
| 天貓 | 9416 | 926 | 4824 | 5980 | 15881 | 37027 |
| 物體 | 3600 | 462 | 2174 | 2684 | 4991 | 13911 |
| 抖音 | 2978 | 541 | 2065 | 1995 | 4966 | 12545 |
| 拼多多 | 5722 | 719 | 3119 | 3750 | 9088 | 22398 |
| 總計 | 27144 | 3381 | 15381 | 17499 | 43998 | 107403 |
# 不同售價區間的閱讀銷量占比
# 分箱,將連續的資料放到離散的箱子中基于分箱的結果在進行分組
print('MAX:',df2['售價'].max())
print('MIN:',df2['售價'].min())
box = pd.cut(df2['售價'],bins = [50,300,550,800,1050,1300,1550])
temp2 = df2.groupby(box)['售價'].count()
temp2
MAX: 1499
MIN: 59
售價
(50, 300] 917
(300, 550] 745
(550, 800] 171
(800, 1050] 74
(1050, 1300] 32
(1300, 1550] 6
Name: 售價, dtype: int64
temp2.plot(kind = 'pie',autopct = '%.2f%%')
plt.show
<function matplotlib.pyplot.show(close=None, block=None)>
?

?
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/301207.html
標籤:AI
上一篇:自己做量化交易軟體(44)小白量化實戰17--利用小白量化金融模塊在迅投QMT極速策略交易系統上仿大智慧指標回測及實戰交易設計
下一篇:《思維導圖應用實戰》畫出你的思維
