2021年全國職業院校技能大賽 “大資料技術與應用”

2021年全國職業院校技能大賽 “大資料技術與應用” ——模擬賽題（一）

文章適合了解大資料技術與應用技能大賽賽題，文章在撰寫程序中難免有疏漏和錯誤，歡迎大佬指出文章的不足之處；更多內容請點進👉 Lino_White 👈查看，
未來的世界充滿著各式各樣的資料，我們該怎么好好利用起來呢？開啟正文吧~~~

賽題文字過多，文章有洗掉了部分，需要完整的檔案請看評論區

持續更新相關賽題，包括2021年國賽模擬題10套、2019年廣東省真題賽題、相關比賽技巧、難點突破技巧等等，需要的關注小編或者公眾號 NoWrite

# {
   文字較多，不要覺得繁瑣，比賽文字更多，這里小編已經刪減了許多！
   認真看，想要贏靜下心，仔細看每個字!!!
}

背景描述

據央視財經報道，2020年我國O2O市場規模突破萬億元，O2O市場存在著巨大的潛力，特別是餐飲和外賣行業，占據市場較大份額，并且業務增長迅速，截至2020年底，全國外賣總體訂單量已超過171.2億單，同比增長7.5%，全國外賣市場交易規模達到8352億元，同比增長14.8%，我國外賣用戶規模已接近5億人，其中80后、90后是餐飲外賣服務的中堅消費力量，消費者使用餐飲外賣服務也不再局限于傳統的一日三餐，下午茶和夜宵逐漸成為消費者的外賣新寵，
為把握這一商業機遇，ChinaSkills公司計劃進駐外賣平臺市場，現需對大規模成熟外賣平臺進行詳細評估調研，采集多方多維度資料，尋找行業痛點，摸清市場需求，以技術為手段為投資保駕護航，

為完成該項作業，你所在的小組將應用大資料技術，以Python、Java、Scala作為整個專案的基礎開發語言，基于大資料平臺綜合利用MapReduce、Spark、MySQL、Scrapy、Flask、ECharts等，對資料進行獲取、處理、清洗、挖掘、分析、可視化呈現，力求實作對公司未來的重點戰略方向提出建議，
你們作為該小組的技術人員，請按照下面任務完成本次作業，并編制綜合報告，

模塊A：Hadoop平臺及組件的部署管理（15分）

環境說明：

編號	主機名	型別	用戶	密碼
1	master	主節點	root	passwd
2	slave1	從節點	root	passwd
3	slave2	從節點	root	passwd

補充說明：主節點MySQL資料庫用戶名/密碼：root/Password123$
相關軟體安裝包在/chinaskills目錄下
所有模塊中應用命令必須采用絕對路徑（以下不再說明）

任務一：Hadoop HA部署管理

本環節需要使用root用戶完成相關配置，安裝Hadoop需要配置前置環境，具體部署要求如下：
1、將/chinaskills下的JDK包解壓到/usr/local/src路徑下，命令復制并粘貼至對應報告中；
2、設定JDK環境變數，并使環境變數只對當前root用戶生效；將環境變數配置內容復制并粘貼至對應報告中；
3、從master復制JDK環境變數檔案到slave1、slave2節點，命令和結果復制并粘貼至對應報告中；
4、配置SSH密鑰登錄，實作從master登錄到slave1，命令和結果復制并粘貼至對應報告中；
5、Zookeeper配置完畢后，在slave2節點啟動Zookeeper，查看Zookeeper運行狀態，將命令和結果復制并粘貼至對應報告中；
6、Zookeeper、Hadoop HA配置完畢后，在master節點啟動Hadoop，并查看服務行程狀態，并將結果復制并粘貼至對應報告中；
7、Hadoop HA配置完畢后，在slave1節點查看服務行程，將命令及結果復制并粘貼至對應報告中，

任務二：Hive部署管理

本環節需要使用root用戶完成相關配置，已安裝Hadoop及需要配置前置環境，具體部署要求如下：
1、將指定路徑下的Hive安裝包解壓到（/usr/local/src）下，使用絕對路徑，將命令復制并粘貼至對應報告中；
2、把解壓后的apache-hive-1.1.0-bin檔案夾更名為hive；進入hive檔案夾，并將查看命令及結果復制并粘貼至對應報告中；
3、設定Hive環境變數，并使環境變數只對當前root用戶生效；并將環境變數配置內容復制并粘貼至對應報告中；
4、將Hive安裝目錄里hive-default.xml.template檔案更名為hive-site.xml；并將更改命令復制并粘貼至對應報告中；
5、通過VI編輯器配置hive-site.xml檔案，將MySQL資料庫作為Hive元資料庫，將組態檔“Hive元存盤”相關內容復制并粘貼至對應報告中；
6、初始化Hive元資料，將MySQL資料庫JDBC驅動拷貝到Hive安裝目錄的lib檔案夾下；并通過schematool命令執行初始化，將初始化結果復制粘貼至對應報告中；
7、啟動Hive并保存命令輸出結果，將結果輸出復制粘貼至對應報告中，

任務三：Sqoop組件部署管理

本環節需要使用root用戶完成相關配置，已安裝Hadoop及需要配置前置環境，具體部署要求如下：
1、解壓/chinaskills路徑下的Sqoop安裝包到/usr/local/src路徑下，并使用相關命令，修改解壓后檔案夾名為sqoop，進入sqoop檔案夾，并將查看內容復制粘貼至對應報告中；
2、修改Sqoop環境變數，并使環境變數只對當前root用戶生效,并將變數內容復制粘貼至對應報告中；
3、修改并配置sqoop-env.sh檔案，并將修改內容復制粘貼至對應報告中；
4、測驗Sqoop連接MySQL資料庫是否成功，結果復制粘貼至對應報告中，

模塊B：資料采集與處理（20分）

專案背景說明
1、查看餐飲外送統計平臺網站原始碼結構，
1）打開網站，在網頁中右鍵點擊檢查，或者F12快捷鍵，查看原始碼頁面；
2）檢查網站：瀏覽網站原始碼查看所需內容，
2、從餐飲外送統計平臺中采集需要資料，按照要求使用Python語言撰寫代碼工程，獲取指定資料項，并對結果資料集進行必要的資料處理，請將符合任務要求的結果復制粘貼至對應報告中，
具體步驟如下：
1）創建工程工程專案：C:\food_delivery
2）構建采集請求
3）按要求定義相關欄位
4）獲取有效資料
5）將獲取到的資料保存到指定位置
6）對資料集進行基礎的資料處理
至此已從餐飲外送統計平臺中獲取所需資料，并完成了必要的基礎的資料處理，
3、自行創建Scrapy工程專案food_delivery，路徑為C:\ food_delivery按照任務要求從餐飲外送統計平臺中獲取資料，提取“商戶資料”頁面相關欄位（包括平臺餐廳ID、餐廳名稱、城市等全部有效資料項），保存至檔案restaurant_data.json；再提取“配送平臺灰測維度資料”頁面相關資料（包括餐廳名稱、城市、營業時長等全部欄位）保存至檔案grey_test.json，
4、每條資料記錄請以單獨一行保存，資訊存盤格式為key：value，檔案保存路徑為：C:\output，
示例：

{" rest_id ": “***”, " rest_name “: “***”,……}，
{” rest_id ": “***”, " rest_name ": “***”,……}，
……

5、任務中要求將“以下內容及答案完整復制粘貼至對應報告中，”，粘貼到對應報告中的內容示例如下：

配送范圍審核相關資料頁數為：100
灰度資料對比相關資料頁數為：100

任務一：爬取網頁資訊

自行創建Scrapy工程撰寫爬蟲代碼，爬取“配送范圍審核-人員預算”與“灰度資料對比”頁面相關資料，通過爬蟲代碼分頁爬取，以合理的程式邏輯判斷相關資料包含的頁數并將以下內容及答案完整復制粘貼至對應報告中，
示例格式：

配送范圍審核相關資料頁數為：
灰度資料對比相關資料頁數為：

任務二：爬取指定檔案

運行代碼，爬取網頁資料至指定檔案，查看檔案并填寫采集到的記錄行數，并將答案復制粘貼至對應報告中，
示例格式：

range_audited.json行數為：
grey_value.json行數為：

任務三：屬性判斷

審查爬取的range_audited資料，判斷屬性“申請時間”、“創建時間”與“created_at”、“updated_at”是否為重復屬性，如果為重復屬性，則洗掉“申請時間”、“創建時間”；如果不是重復屬性，請輸出資料集中數值不相同的記錄條數，并將答案復制粘貼至對應報告中，
（1）如果僅考慮年、月、日資料，忽略時、分、秒資訊，“申請時間”、“創建時間”與“created_at”、“updated_at”是否為重復屬性（請填寫“是”/“否”）：
（2）如果不是重復屬性，不同的記錄條數為（如果為重復屬性，請填寫“/”），

任務四：資料探索

針對爬取的grey_value資料，利用DataFrame.describe方法探索資料基本情況，將輸出結果復制粘貼至對應報告中，

任務五：缺失值統計

針對缺失值較多的屬性“推單數-8日”，“有效完成率-8日”，“超時率-8日”，請分別計算下列任務，并將正確答案復制粘貼至對應報告中，

（1）屬性“推單數-8日”空值記錄條數為：，中位數為：，
（2）屬性“有效完成率-8日”空值記錄條數為：，平均值為：，
（3）屬性“超時率-8日”空值記錄條數為：，平均值為：，

任務六：缺失值處理

請根據任務5中計算的結果，對資料集中存在空值的欄位進行填充，查看填充后的資料集前5條記錄，將查看結果復制粘貼至對應報告中，

模塊C：資料清洗與挖掘分析（25分）

專案背景說明

餐飲外賣平臺的核心價值體現在配送，而配送的價值則依賴于商家與客戶的雙向選擇，外賣平臺通常會通過內容激活消費者和商家兩個群體的活躍度，消費者會參考平臺展示的內容選擇商家，商家也會以消費者評價與平臺統計資料為依據調整策略，由此再吸引更多的用戶下單、評論、形成正向回圈，保證配送的時效與品質是從優化用戶體驗的角度，吸引更多的用戶參與，進而帶動商家不斷入駐，由此，商家、消費者、騎手在平臺上形成越來越多的真實可靠的資料，幫助消費者更好的做出消費決策，同時促進商家提高服務質量，而平臺通過資料，不斷調整優化服務，從而不斷提升這種多邊網路效應，提升網路效應的直接結果就是用戶和商家規模大幅提升，進而形成規模效應——降低獲客成本、提高效益，并且不斷提升自己的行業壁壘，
為探索各大外賣平臺的市場策略與經營模式，現已從平臺獲取到了原始資料集，包含“餐廳id，retailer_id，餐廳名稱，城市，商戶業務包，配送范圍，客單價，推單數，接單數，有效完成單數，投訴率，例外率，欺詐單數，拒單數，商戶取消數，客戶取消數，系統取消數，配送取消例外數，整體時長，接單時長，到店時長，取餐時長，送達時長，商戶投訴數，用戶投訴數，差評數，好評數，評價數，最遠訂單距離，該訂單整體時效，該訂單接單時效，該訂單到店時效，該訂單取餐時效，該訂單送達時效，該訂單評價”欄位，為保障用戶隱私和行業敏感資訊，已經對資料脫敏，資料脫敏是指對某些敏感資訊通過脫敏規則進行資料的變形，實作敏感隱私資料的可靠保護，在涉及客戶安全資料或一些商業性敏感資料的情況下，對真實資料進行改造并提供測驗使用，如身份證號、手機號等個人敏感資訊都需要進行資料脫敏，

本題已將脫敏后的資料存放于平臺對應任務/chinaskills目錄下，工程所需組態檔pom.xml存放于“C:\清洗組態檔”，

任務一：資料清洗

子任務1
任務描述：
資料源檔案存放于平臺對應任務/chinaskills目錄下，其中屬性“推單數”是指外賣平臺通過顧客點單向商家推送的訂單數量，“接單數”為商家根據自身情況，最終選擇接受訂單的數量，一般來說，商家對于平臺推送的訂單，排除自身原因，例如原材料耗盡、用戶下單時店鋪已經打烊等特殊情況，都會選擇接單，請按照如下要求撰寫Spark程式對資料進行清洗，并將結果輸出/diliveryoutput1，
1)分析/chinaskills中資料檔案
2)針對屬性列“推單數”、“接單數”，排查并洗掉例外資料條目
3)程式打包并在Spark平臺運行，結果輸出至HDFS檔案系統/diliveryoutput1

具體任務要求：
1、將相關檔案上傳至HDFS新建目錄/platform_data中，撰寫Spark程式，剔除屬性列“推單數”小于“接單數”的例外資料條目，并在程式中以列印陳述句輸出例外條數，將列印輸出結果復制并保存至對應報告中，（復制內容需包含列印陳述句輸出結果的上下各 5 行運行日志），
示例格式：

=== “推單數”小于“接單數”的例外資料條數為***條===

2、程式打包并在Spark平臺運行，將剔除例外資料后的結果資料集輸出至HDFS檔案系統/diliveryoutput1，并查看輸出檔案前20行，將查看命令與執行結果復制粘貼至對應報告中，
子任務2
任務背景：

客單價是指客戶在該商鋪下一單的平均支付價格，根據商家定位不同，可以分為高客單價和低客單價，高客單價，單量一般表現平平；低單價則通常會獲得更高的單量，不同的定價針對的消費人群不同、選擇的位置不同、營業的時間也不同，高客單價的品類偏向于白領人群，一般說來辦公樓覆寫越多的位置越好，但是辦公樓并不一定都是白領人群，所以辦公樓也要區磁區域性，客戶行業越是前沿的，具備消費能力越高，但晚上和周末的單量一般較少，低客單價的品類偏向于大眾化，選址優先辦公/大學區/小區綜合覆寫區域，滿足低消費與一般消費能力用戶群，當前資料源因涉及到多個平臺及資料庫對接，個別資訊由于人為操作失誤或計算機故障等原因產生了資料缺失值，缺失值是一種常見的臟資料情況，對于缺失值的處理，從總體上來說分為缺失值洗掉和缺失值插補兩種處理方式，當缺失值過多時，資訊條目本身的價值也會隨之降低，此時如果對缺失值進行填補，則資料分析結果可能會受到干擾，有失客觀性，結合行業資料本身特點及上述考慮，對于資料集中數值欄位缺失的情況，通常可以采用填充固定值、均值、中位數、KNN 填充、以及把缺失值作為新的 label 等方式處理，同時，不當的填充可能會令后續的分析結果出現導向性偏差，當缺失資訊的記錄數較少時可采用洗掉的方式來進行處理，

下面請根據任務具體引數要求處理關鍵欄位缺失，
任務描述：
請以前置任務的結果資料集/diliveryoutput1作為輸入資料源，撰寫 Spark 程式，按照如下要求實作對資料的清洗，并將結果輸出，
1)決議/diliveryoutput1 中的檔案
2)針對資料集“客單價”屬性，審查缺失值數量
3)當缺失值比例小于5%時，對包含缺失值資料的樣本進行洗掉
當缺失值比例大于5%時，對缺失值欄位進行中位數填充
4)程式打包并在Spark平臺運行，結果輸出至HDFS檔案系統/diliveryoutput2

具體任務要求：
1、根據任務要求，撰寫Spark程式，針對資料集“客單價”屬性，審查缺失值數量，并列印輸出，將列印輸出結果復制并粘貼至對應報告中（復制內容需包含列印陳述句輸出結果的上下各 5 行運行日志），
示例格式：

== =“客單價”屬性缺失記錄為*條，缺失比例%===

2、缺失值處理
a)當缺失比例小于5%時，對含缺失值資料記錄進行洗掉，同時在對應答案報告中粘貼如下內容（復制內容需包含列印陳述句輸出結果的上下各 5 行運行日志）：
示例格式：

== =“客單價”缺失記錄已洗掉===

b)當缺失比例大于5%時，利用“客單價”屬性中位數對缺失值進行填充，并將中位數列印輸出，將列印輸出結果復制并粘貼至對應報告中（復制內容需包含列印陳述句輸出結果的上下各 5 行運行日志），
示例格式：

== =“客單價”屬性中位數為***天===

3、將清洗后的資料集輸出至/diliveryoutput2，并查看輸出檔案前10行，將查看命令與執行結果復制粘貼至對應報告中，

任務二：資料挖掘分析

任務背景：

聚類分析又稱群分析，它是研究分類問題的一種統計分析方法，同時也是資料挖掘的一個重要演算法，聚類分析是由若干模式組成的，通常，模式是一個度量的向量，或者是多維空間中的一個點，聚類分析以相似性為基礎，同一個聚類簇中的模式之間具有相似性，不同聚類簇之間具有相異性，
在商業上，聚類可以幫助平臺市場分析人員從資料中區分出不同的商家群體，并提取每一類商家的經營模式，它作為資料挖掘中的一個模塊，可以作為一個單獨的工具以發現資料中的深層的資訊，并且提取出每一類樣本的特點，或者把注意力放在某一個特定的類上以作進一步的分析；同時，聚類分析也可以作為資料挖掘演算法中其他分析演算法的一個預處理步驟，本題資料請采用資料清洗的輸出檔案/diliveryoutput2，工程所需組態檔pom.xml存放于“C:\分析與挖掘組態檔”，任務中所有命令務必使用絕對路徑，
選擇資料分析的維度通常分為用戶維度、行為維度和產品維度，想要對外賣平臺入駐商家進行聚類劃分，有側重地分類評估商家對平臺的價值.

首先需要針對商家資料選擇核心資料集，為確保聚類模型收斂速度與質量，以及消除量綱對聚類結果的影響，首先應對資料進行歸一化或標準化處理，再進行資料建模，
任務描述：
請以資料清洗任務結果資料集/diliveryoutput2作為輸入資料源，按照如下要求撰寫 Spark 程式實作對資料的分析，并將結果輸出至 HDFS 檔案系統中/diliveryoutput3，
1)決議/diliveryoutput2中的檔案
2)提取商家資料核心屬性
3)針對商家核心屬性進行預處理
4)利用處理過的核心屬性集完成商家聚類
具體任務要求：
1、針對相關資料集抽取北京地區相關資料記錄，并計算商家好評比，將“好評比”作為新屬性添加至屬性“評價數”后，將結果資料集輸出至/diliveryoutput3，并查看輸出檔案前10行，將查看命令與執行結果復制粘貼至對應報告中，

【好評比計算公式：好評比=好評數/評價數】

2、根據/diliveryoutput3中輸出的結果資料集，篩選4項核心屬性集：“商戶業務包”，“接單數”，“客單價”，“好評比”，資料記錄以接單數降序排列，將結果資料集輸出至/diliveryoutput4，并查看輸出檔案前10行，將查看命令與執行結果復制粘貼至對應報告中，

3、由于核心資料集中“商戶業務包”為分類屬性，請將該屬性設定為啞變數；同時對屬性“接單數”，“客單價”進行max-min歸一化，以實作對核心屬性的預處理，將處理后的結果資料集以接單數降序排列，輸出至/diliveryoutput5，并查看輸出檔案前10行，將查看命令與執行結果復制粘貼至對應報告中，

【歸一化公式：x’ = (x - X_min) / (X_max - X_min)】

4、對以上屬性對商家進行k-means聚類，聚類數設為4，迭代次數為2000次，請以列印陳述句輸出聚類中心，及每個類的商家數，
示例格式：

cluster 0: 聚類中心為[*]=商家數為個=
cluster 1: 聚類中心為[*]=商家數為個=
……

模塊D、資料可視化（20分）

MySQL資料庫中的相關資料集包含了城市、地點、商家id、網格id、餐品種類、標品屬性等多項基礎資訊欄位，請使用Flask框架，結合Echarts完成下列任務，
資料庫賬號: takeout 密碼：takeout
自行創建代碼工程路徑為C:\food_dilivery
每個可視化圖中需要添加圖片作為背景水印，

任務一：氣泡圖呈現商家數量

任務背景：

商圈，指某商場以其所在地為原點，沿著一定的方向和距離擴展，吸引顧客的輻射范圍，簡單地說，就是來店顧客所居住或作業的區域范圍，無論餐廳規模大小，其銷售覆寫區域總是有一定的地理范圍，這個地理范圍就是以某商場為中心，向四周輻射到可能來店消費的顧客居住地或作業地，請按任務指定要求，輸出相關圖例，

任務描述：
請根據資料庫相關資料集中city_name，location，latitude，longtitude，rest_type，platform_A_restid，A_rst_name，A_day_30_cnt，platform_B_restid，B_rst_name，B_day_30_cnt等欄位，明晰地理位置與商鋪聚集程度之間的關系，請以經度為橫坐標，緯度為縱坐標，繪制商家數量氣泡圖，并以該地理位置的商家數量/10作為氣泡半徑，

具體任務要求：
1、提取表格相關欄位，在控制臺按照“商家數量”降序排列，列印輸出商圈名稱及包含的商家數量，
示例格式：

1: 商圈 *=商家數為個=
2: 商圈 *=商家數為個=
……

2、使用Flask框架，結合Echarts，完成氣泡圖輸出，要求氣泡圖示題為“商家聚集地理位置展示”，橫坐標為經度，縱坐標為維度，以該地理位置的商家數量/10作為氣泡半徑，繪制氣泡圖，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

任務二：雙折線圖呈現市場占有率

任務背景：

市場份額亦稱“市場占有率”，指某企業的銷售量（或銷售額）在市場同類品類中所占比重，反映企業在市場上的地位，通常市場份額越高，競爭力越強，市場占有率一般有3種基本測算方法：（1)總體市場份額，指某企業銷售量在整個行業中所占比重，（2)目標市場份額，指某企業銷售量在其目標市場，即其所服務的市場中所占比重，（3)相對市場份額，指某企業銷售量與市場上最大競爭者銷售量之比，若高于1，表明該企業其為這一市場的領導者，請按任務指定要求，輸出不同平臺商家銷售分析相關圖例，

任務描述：
請根據相關表格資料，分別統計A平臺與B平臺30天銷量最高的10個商家的銷量，并以共享y軸的雙折線圖呈現，

具體任務要求：
1、根據相關表格city_name，location，latitude，longtitude，rest_type，platform_A_restid，A_rst_name，A_day_30_cnt，platform_B_restid，B_rst_name，B_day_30_cnt等欄位，分別統計A平臺與B平臺30天銷量最高的10個商家及銷量，在控制臺按照“30天銷量”降序列印輸出商家id，商家所屬平臺，及30天銷量，
示例格式：

1: “*”，Platform-A, 銷量為=
2: “*”，Platform-A, 銷量為=
……
10: “*”，Platform-A, 銷量為=
1: “*”，Platform-B, 銷量為=
2: “*”，Platform-B, 銷量為=
……
10: “*”，Platform-B, 商家數為個=

2、使用Flask框架，結合Echarts，完成可視化輸出，要求雙折線圖示題為“各平臺30天銷量最高10大商家”,橫坐標1(下方)為平臺A商家id，橫坐標2(下方)為平臺B商家id（傾斜顯示、互不遮擋），縱坐標為商家銷量，以銷量降序排列，紅色折線標識Platform-A商家，藍色折線標識Platform-B商家，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

任務三：餅狀圖呈現標品屬性

任務背景：

外賣平臺的“標品屬性”是指外賣的配送方式，一般說來分為眾包、專送、自營銷三種方式，其中，專送的穩定性最高，專送騎手是配送商的正式員工，且接單模式是平臺派單，所以惡劣天氣也很少會出現無人接單的尷尬情況，眾包則是兼職配送員，以搶單的方式接單配送，所以一些“難送”或者惡劣天氣時的訂單經常會出現無人接單的情況，這將導致商家大量訂單積壓送不出去，從而被迫關店，從穩定性上來講，專送要遠遠優于眾包和快送，但專送的配送范圍相對較小，在2km左右，對于一些快餐品類來說更為合適，但是對于一些高客單價的細分品類來說，2km的配送范圍很難拓展單量，請根據相關資料集，按任務指定要求，輸出配送方式相關分析圖例，

任務描述：
請根據資料庫相關表格資料，統計不同標品屬性的商家數量，并以餅狀圖表達，

具體任務要求：
1、根據相關表格網格ID，網格名稱,城市,戰團,餐廳ID，近7天平臺單量，近7天推單，餐廳名，餐廳地址（取餐地址），餐品種類,標品屬性，全推/選推等欄位等欄位，統計不同標品屬性的商家數量，請將標品屬性“專送KA”合并至“專送”中，“眾包平臺”合并至“眾包”中，在控制臺降序列印輸出標品屬性，商家數量，
列印陳述句格式如下：

= =專送: 商家***個===
= =眾包: 商家***個===
……

2、使用Flask框架，結合Echarts，完成餅圖輸出，要求餅圖示題為“標品屬性占比”，并標識該分類占比，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

任務四：組圖（條形圖、玫瑰餅圖）呈現戰團數量

任務背景：

外賣平臺對商家業務的拓展主要由BD負責，BD(Bussiness Developer)即為業務拓展經理，作業職責是根據公司的業務戰略制定具體的戰略實施計劃，業務推廣計劃，商家上架計劃的達成跟進及分析，提供訂單銷售分析報告，同時負責調查區域品牌發展狀況，調研競品，為公司品牌發展提出相應建議，BD的上一層戰略組織為戰營、戰團，一般指在更大的地域范圍內組成的銷售部門，存在共同的業務發展愿景和明確的績效考核指標，請根據相關資料集，按任務指定要求，輸出相關分析圖例，

任務描述：
請根據相關表格資料，統計不同戰團商家數量以及不同餐品品類占比，并以組圖表達，

具體任務要求：
1、請根據表格中網格ID，網格名稱，城市，戰團，餐廳ID，近7天平臺單量，近7天推單，餐廳名，餐廳地址（取餐地址），餐品種類，標品屬性，全推/選推等欄位欄位，統計不同戰團的商家數量，請在控制臺以上架數量降序列印輸出戰團名稱，商家數量，
列印陳述句格式如下：

戰團: ***，商家***個=
戰團: ***，商家***個=
……

1、統計包含商家數量最多的戰團中，不同餐品品類的占比，請匯總前4位餐品品類占比，其他品類請歸并為“其他”，請在控制臺以占比數值降序列印輸出餐品品類，商家數，
列印陳述句格式如下：

小吃夜宵，商家***個=
特色菜系，商家***個=
……

2、使用Flask框架，結合Echarts，完成組圖輸出，要求組圖左側輸出1）小題資料條形圖，標題為“Top10戰團商家數量”，縱坐標為戰團名，橫坐標為包含商家個數，并在柱形上方標識商家數；組圖右側繪制2）小題資料的玫瑰餅圖表達并標識各分類占比，標題為“**戰團餐品品類占比”，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

任務五：柱狀圖呈現推單差值

任務背景：

網格化營銷是近年來新興的一種營銷管理模式，已被廣泛地運用于市場精準營銷，在市場營銷中，采取地圖營銷、網格管理、精準策略等，可將客戶的心理需求與其日常生活緊密地聯系起來，巧妙運用網格化管理和營銷地圖，以此來實作客戶的營銷精準度與價值提升，提高單一客戶貢獻值和營銷效率，其核心旨在幫助企業快速回應市場需求，為用戶提供更加便捷的、專業化服務，并使企業的資源分配以客戶為中心，以市場變化為導向，固本強基、開拓市場、提升效益，有助于平臺有效地制定績效戰略，請根據相關資料集，按任務指定要求，輸出相關分析圖例，

任務描述：
請根據資料庫相關表格資料，統計不同標品屬性的商家數量，并以餅狀圖表達，

具體任務要求：
1、請根據表格中網格ID，網格名稱，城市，戰團，餐廳ID，近7天平臺單量，近7天推單，餐廳名，餐廳地址（取餐地址），餐品種類，標品屬性，全推/選推等欄位，統計不同網格“近7天平臺單量”，與“7天推單”的差值，在控制臺以差值降序列印輸出前10位網格id，網格名稱，推單差值，
列印陳述句格式如下：

= =1 網格id：1111，網格名稱：，推單差值為 ===
= =2 網格id：1111，網格名稱：，推單差值為===
……

2、使用Flask框架，結合Echarts，完成柱狀圖輸出，以柱狀圖輸出推單差值前10位的網格名稱及差值，其中標題為“推單差值Top10”，橫坐標為網格名稱（傾斜顯示，互補遮擋），縱坐標為推單差值，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

任務六：組圖（玫瑰餅圖、柱狀圖）呈現投訴比例

任務背景：

投訴是顧客對平臺管理和服務不滿的表達方式，也是企業有價值的資訊來源，它為企業探索更多可能，分析顧客投訴的種種因素，把顧客的不滿轉化滿意，鎖定他們對平臺和產品的忠誠，已成為企業營銷實踐的重要內容之一，商戶業務包是指該商戶在經營定位時所確定的主要消費群體，不同城市消費群占比不同，大致可以分為大客戶，白領，小客戶，高校，家庭，其它六個商業業務包，請根據相關資料集，按任務指定要求，統計并輸出投訴相關的分析圖例，

任務描述：
請根據相關資料庫表格中“餐廳id，retailer_id，餐廳名稱，城市，商戶業務包屬性，配送范圍，客單價，推單數，接單數，有效完成單數，投訴率，例外率，欺詐單數，拒單數，商戶取消數，客戶取消數，系統取消數，配送取消例外數，整體時長，接單時長，到店時長，取餐時長，送達時長，商戶投訴數，用戶投訴數，差評數，好評數，評價數，最遠訂單距離，該訂單整體時效，該訂單接單時效，該訂單到店時效，該訂單取餐時效，該訂單送達時效，該訂單評價”等欄位，統計北京地區，不同“商戶業務包”的餐廳數量及投訴數量，并以組圖呈現，程式輸出及可視化輸出時請使用商戶業務包中文釋義，中文釋義對應關系如表1所示，

表1 商戶業務包中文釋義

字母縮寫	中文釋義
GKA	大客戶
BL	白領
SIG	小客戶
GX	高效
FML	家庭
OTH	其他

具體任務要求：
1、根據相關資料庫表格欄位，統計北京地區不同商戶業務包屬性商戶數量及投訴數量，并在PyCharm控制臺列印輸出，請以投訴數量降序排列，
列印陳述句格式如下：

== 1.商戶業務包：***, 商家數量：***家，投訴數***條===
== 2.商戶業務包：***, 商家數量：***家，投訴數***條===
……

2、使用Flask框架，結合Echarts，完成組圖輸出，請在左側畫出以不同商戶業務包屬性的商家數量降序排列的柱狀圖，標題為“北京商戶業務包商家數”，橫坐標位商戶業務包名稱，縱坐標位商家數量；請在右側畫出不同商戶業務包商家的投訴占比玫瑰圖，標題為“北京商戶業務包投訴占比”，順時針顯示次序與列印陳述句資料一致，將可視化結果截圖并保存（截圖需包含瀏覽器地址欄），

模塊E：綜合分析（20分）

通過模塊B的網站分析及資料爬取、模塊C的資料清洗與挖掘分析及模塊D的資料可視化呈現，我們已經清晰的了解了餐飲外賣平臺業務背景及相關資料，在綜合理解外賣業務資料的基礎上，根據任務要求進行分析，并撰寫分析報告，
請根據任務要求，分析以下內容，并撰寫分析報告，分別從商家價值聚類、推單差值等維度對外賣平臺推廣情況與網格銷售表現進行分析，并平臺經營提出幾點建議，

分析報告要求：

任務一：商家聚類分析

結合平臺相關資料檔案，以雷達圖表示四類商家在核心屬性集上的聚類表現，說明商家聚類對平臺發展的用途及經營策略影響，分別以文字描述和圖例進行說明，

任務二：推單差值分析

結合模塊D可視化分析中對不同網格推單量差值的統計結果，說明差值產生的原因可能有哪些？對于縮小推單差值，你有哪些建議？分別以文字描述和圖例進行說明，

任務三：平臺建議

請結合平臺業務背景及相關分析結論，對平臺未來規劃提出建議（不少于3條建議），

附錄：補充說明
資料集中涉及欄位及中文說明——

看評論區！！！

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/336192.html

標籤：其他

上一篇：Hadoop(一)--涉及到的Linux作業系統命令

下一篇：Spring、SpringBoot和SpringCloud的小小區別

2021年全國職業院校技能大賽 “大資料技術與應用”—模擬賽題（一）