寫在前面：博主是一只經過實戰開發歷練后投身培訓事業的“小山豬”，昵稱取自影片片《獅子王》中的“彭彭”，總是以樂觀、積極的心態對待周邊的事物，本人的技術路線從Java全堆疊工程師一路奔向大資料開發、資料挖掘領域，如今終有小成，愿將昔日所獲與大家交流一二，希望對學習路上的你有所助益，同時，博主也想通過此次嘗試打造一個完善的技術圖書館，任何與文章技術點有關的例外、錯誤、注意事項均會在末尾列出，歡迎大家通過各種方式提供素材，

對于文章中出現的任何錯誤請大家批評指出，一定及時修改，
有任何想要討論和學習的問題可聯系我：zhuyc@vip.163.com，
發布文章的風格因專欄而異，均自成體系，不足之處請大家指正，

東大畢業生與大資料架構師的對決（結尾附視頻）

本文關鍵字：模擬面試、初入職場、直播回顧、山豬亂彈、大資料開發

文章目錄

東大畢業生與大資料架構師的對決（結尾附視頻）
- 一、寫在前面
- 二、全程回顧
- - 1. 本期嘉賓
  - 2. 技術看點
  - 3. 總結擴展
  - 4. 山豬亂彈
- 三、視頻直達

一、寫在前面

各位小伙伴們大家好，期待已久的直播配套博文來啦~為了讓大家能夠更好的將所學的知識融會貫通，并且了解自己在作業中可能被問到的技術點，在粉絲群內開啟了模擬面試活動，

面試形式

面試以直播的方式進行，按照正常的面試流程進行，但不同的是每個問題提問過后面試官將會進行講解，而不僅僅是一問一答，不知對錯，在后續的視頻剪輯中也會標注問題和答案的關鍵點供大家參考，
每場面試結束后，面試者、面試官、主持人（山豬本豬）會和觀眾一起進入討論和探討環節，對面試程序中可以提升的溝通技巧、需要再繼續深入了解的技術點、簡歷是否還可以繼續優化以及擴展的技術問題進行互動（該段內容可能不會出現在最終的視頻中），

參加要求

只要已經加入粉絲群即可免費參加，需要準備一份個人簡歷，同時隱去自己的姓名、手機號等關鍵資訊，模擬面試原則上不對應企業真實崗位，只是會按照崗位對應的技術等級來進行面試，但有些面試官所在的公司可能會有招人的需要，同樣有直接獲得就業崗位的機會！
如有意愿參加的小伙伴請提前在粉絲群與我溝通（群主就是我啦），無論你是剛剛畢業的職場小白，還是想要換一個新的作業環境，都歡迎踴躍參加，將會為你匹配對應崗位的資深開發者、技術總監、專案經理或是架構師進行面試，只為互相交流技術，

面試咖位

擔任面試官的小伙伴都是多年以來在業內結識的朋友，如今大部分都可以獨擋一面或是帶團隊，涵蓋了大前端開發、Java服務端開發、Linux運維、大資料開發、大資料架構、測驗、實施、產品、Python資料分析等等各個方面，
平均的作業年限在五年以上，其中不乏技術總監、專案經理、博客專家、前沿領域學者、大學講師，當然有的時候我本人也會客串一下，期待和你的面試官邂逅吧~

二、全程回顧

由于時間的限制，每次的問題不會很多，以互動和交流為主，本系列文章不會做成面試大全，通篇都是問題匯總，而是會以文章+視頻+總結的方式為大家持續呈現，希望這樣能夠更有代入感，看完這篇文章能夠真正留下點什么，而不是進收藏夾吃灰，

1. 本期嘉賓

面試者

面試崗位：大資料開發工程師
作業年限：有一定實習經驗
專案型別：綜合資料處理系統-用戶行為分析（統計分析、資料挖掘）
核心技術：大資料技術生態圈（Hadoop、Hive、Spark、Kafka、Flume、Azkaban等）、對接應用系統（SpringBoot、Bootstrap、Echarts等）

面試官

Level：大資料講師/架構師，主攻大資料架構，有培訓講師經歷，對大資料完成資料分析流程以及各組件的優缺點、應用場景十分熟悉，負責根據公司業務和運營的需要擬定合理的解決方案，并最終落地實施，
Base地：北京
薪資區間：月薪35K+

2. 技術看點

各技術點將從直播內容中進行整理，直接上干貨，可能順序上會有調整，給出的參考答案因為時間的關系都會比較凝練，建議大家不要直接去背，因為如果你從來就沒有接觸過是不能夠用一個答案去應付面試的，遇到你會的當做復習，遇到你不會的一定自己去查一查，真正理解之后再回來自己補充和豐富答案，

基本的離線資料處理流程？（以面試者專案為例）

資料源型別：專案日志檔案，
資料采集：使用Flume + Kafka從日志服務器采集資料，存放至HDFS，
數倉搭建：ODS層（存放原始資料） - 操作型資料存盤、DWD層（初步資料清洗） - 資料倉庫明細層、DWS層 - 資料倉庫匯總層、ADS層（報表資訊） - 應用資料存盤層，
結果匯出：Spark -》 MySQL
定時任務：Azkaban

資料處理都經歷了哪些階段？

資料采集 -》資料預處理（去噪、去重、單位統一） -》資料入庫（數倉 - 劃分主題） -》報表展示

在數倉中劃分主題時的依據是什么？

按業務線劃分
按部門劃分
其他劃分方式

在進行資料采集時需要注意哪些問題？

保證資料采集穩定性（可靠性）
避免資料的丟失或重復采集
資料源型別復雜
資料源結構有可能產生變化
Flume：Source、Channel、Sink

HDFS有哪些特點？

HDFS（Hadoop Distributed File System）：分布式檔案系統
支持分布式、采用塊存盤、冗余存盤機制
考慮安全性、穩定性、擴展性

Hive的優化方式有哪些？

避免使用部分原生API
使用自定義函式（UDAF、UDTF）
合理指定MR的Task數量
LZO資料壓縮、小檔案合并
合理使用本地模式
啟用JVM重用
連接查詢優化：小表在前、大表在后，使用相同連接鍵，資料盡早過濾

如何解決資料傾斜問題？

增加分配的記憶體
增加Reduce的個數
自定義磁區器
對Key進行重新設計（打散）
自定義Combiner
單獨處理傾斜資料

如何評判DW層的設計質量？

表間關系簡明
表的復用性高
適當冗余（構建寬表）

3. 總結擴展

對面試者的評價？

基礎很扎實，清楚底層原理，并且能進行獨立的思考，薪資可達20K，

大廠面試特點？

重視基礎：編程語言、資料結構、計算機網路、演算法等，

如何回答大資料場景設問？

在熟悉各大資料組件特點的前提下，充分分析給出的場景，根據各組件的特點構建出一個完整的資料分析流程，因為很有可能之前并沒有接觸過這個場景，盡量的貼合，保證合理即可，

4. 山豬亂彈

這次面試的小伙伴本身就比較優秀，之前已經在美團的大資料崗位作業過一段時間，在回答問題的時候也是自信滿滿，并且對不了解的問題也會坦誠的說自己沒有接觸過，隨后盡量的說一些自己的想法，
在面試的程序中，其實不需要在意是否能夠百分百的回答出所有的問題，因為對于剛走入職場的小伙伴，面試官和面試者的實力通常都是不對等的，有些作業中才會遇到的問題，被問到了，回答的不是很完美也沒有關系，在面試結束后一定要多總結，不單單是整理面試題，而是什么樣的公司、崗位通常會問什么樣的問題，這樣在準備的時候可以更有針對性，大家也可以持續關注本專欄，

三、視頻直達

視頻地址：https://www.bilibili.com/video/BV1AA411j7e7，喜歡的小伙伴兒一定要三連加關注哦~

模擬面試系列：斬獲多個大廠Offer的東大畢業生與大資料架構師的對決

寫在結尾：作者力求做到將每個知識點細化，并且對于有關聯的知識點都會使用傳送門掛載鏈接，文章采用：“文字 + 配圖 + 視頻”的方式來進行展現，均是擠時間所作，希望看到這里能留下評論點個贊，略表支持！

在這里插入圖片描述

小山豬的沙塔

CSDN認證博客專家全堆疊開發工程師大資料高級開發大資料金牌講師

若非一番寒徹骨，哪得梅花撲鼻香，全堆疊開發工程師，大資料高級開發工程師，大資料金牌講師，知名機構合作講師，各云大學及平臺合作講師，高校外聘講師，微信公眾號：微光點亮星辰，在學習的道路上一同見證點點滴滴，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/231561.html

標籤：其他

上一篇：面試30+互聯網公司，拿到京東金融、美團等五六家 offer，熬肝為大家整理出這些必問Java面試題

下一篇：為什么阿里人能夠快速成長？看完他們Java架構進化筆記，我秒懂！