寫在前面:博主是一只經過實戰開發歷練后投身培訓事業的“小山豬”,昵稱取自影片片《獅子王》中的“彭彭”,總是以樂觀、積極的心態對待周邊的事物,本人的技術路線從Java全堆疊工程師一路奔向大資料開發、資料挖掘領域,如今終有小成,愿將昔日所獲與大家交流一二,希望對學習路上的你有所助益,同時,博主也想通過此次嘗試打造一個完善的技術圖書館,任何與文章技術點有關的例外、錯誤、注意事項均會在末尾列出,歡迎大家通過各種方式提供素材,
- 對于文章中出現的任何錯誤請大家批評指出,一定及時修改,
- 有任何想要討論和學習的問題可聯系我:zhuyc@vip.163.com,
- 發布文章的風格因專欄而異,均自成體系,不足之處請大家指正,
東大畢業生與大資料架構師的對決(結尾附視頻)
本文關鍵字:模擬面試、初入職場、直播回顧、山豬亂彈、大資料開發
文章目錄
- 東大畢業生與大資料架構師的對決(結尾附視頻)
- 一、寫在前面
- 二、全程回顧
- 1. 本期嘉賓
- 2. 技術看點
- 3. 總結擴展
- 4. 山豬亂彈
- 三、視頻直達
一、寫在前面
各位小伙伴們大家好,期待已久的直播配套博文來啦~為了讓大家能夠更好的將所學的知識融會貫通,并且了解自己在作業中可能被問到的技術點,在粉絲群內開啟了模擬面試活動,
- 面試形式
面試以直播的方式進行,按照正常的面試流程進行,但不同的是每個問題提問過后面試官將會進行講解,而不僅僅是一問一答,不知對錯,在后續的視頻剪輯中也會標注問題和答案的關鍵點供大家參考,
每場面試結束后,面試者、面試官、主持人(山豬本豬)會和觀眾一起進入討論和探討環節,對面試程序中可以提升的溝通技巧、需要再繼續深入了解的技術點、簡歷是否還可以繼續優化以及擴展的技術問題進行互動(該段內容可能不會出現在最終的視頻中),
- 參加要求
只要已經加入粉絲群即可免費參加,需要準備一份個人簡歷,同時隱去自己的姓名、手機號等關鍵資訊,模擬面試原則上不對應企業真實崗位,只是會按照崗位對應的技術等級來進行面試,但有些面試官所在的公司可能會有招人的需要,同樣有直接獲得就業崗位的機會!
如有意愿參加的小伙伴請提前在粉絲群與我溝通(群主就是我啦),無論你是剛剛畢業的職場小白,還是想要換一個新的作業環境,都歡迎踴躍參加,將會為你匹配對應崗位的資深開發者、技術總監、專案經理或是架構師進行面試,只為互相交流技術,
- 面試咖位
擔任面試官的小伙伴都是多年以來在業內結識的朋友,如今大部分都可以獨擋一面或是帶團隊,涵蓋了大前端開發、Java服務端開發、Linux運維、大資料開發、大資料架構、測驗、實施、產品、Python資料分析等等各個方面,
平均的作業年限在五年以上,其中不乏技術總監、專案經理、博客專家、前沿領域學者、大學講師,當然有的時候我本人也會客串一下,期待和你的面試官邂逅吧~
二、全程回顧
由于時間的限制,每次的問題不會很多,以互動和交流為主,本系列文章不會做成面試大全,通篇都是問題匯總,而是會以文章+視頻+總結的方式為大家持續呈現,希望這樣能夠更有代入感,看完這篇文章能夠真正留下點什么,而不是進收藏夾吃灰,
1. 本期嘉賓
- 面試者
面試崗位:大資料開發工程師
作業年限:有一定實習經驗
專案型別:綜合資料處理系統-用戶行為分析(統計分析、資料挖掘)
核心技術:大資料技術生態圈(Hadoop、Hive、Spark、Kafka、Flume、Azkaban等)、對接應用系統(SpringBoot、Bootstrap、Echarts等)
- 面試官
Level:大資料講師/架構師,主攻大資料架構,有培訓講師經歷,對大資料完成資料分析流程以及各組件的優缺點、應用場景十分熟悉,負責根據公司業務和運營的需要擬定合理的解決方案,并最終落地實施,
Base地:北京
薪資區間:月薪35K+
2. 技術看點
各技術點將從直播內容中進行整理,直接上干貨,可能順序上會有調整,給出的參考答案因為時間的關系都會比較凝練,建議大家不要直接去背,因為如果你從來就沒有接觸過是不能夠用一個答案去應付面試的,遇到你會的當做復習,遇到你不會的一定自己去查一查,真正理解之后再回來自己補充和豐富答案,
- 基本的離線資料處理流程?(以面試者專案為例)
資料源型別:專案日志檔案,
資料采集:使用Flume + Kafka從日志服務器采集資料,存放至HDFS,
數倉搭建:ODS層(存放原始資料) - 操作型資料存盤、DWD層(初步資料清洗) - 資料倉庫明細層、DWS層 - 資料倉庫匯總層、ADS層(報表資訊) - 應用資料存盤層,
結果匯出:Spark -》 MySQL
定時任務:Azkaban
- 資料處理都經歷了哪些階段?
資料采集 -》 資料預處理(去噪、去重、單位統一) -》 資料入庫(數倉 - 劃分主題) -》 報表展示
- 在數倉中劃分主題時的依據是什么?
按業務線劃分
按部門劃分
其他劃分方式
- 在進行資料采集時需要注意哪些問題?
保證資料采集穩定性(可靠性)
避免資料的丟失或重復采集
資料源型別復雜
資料源結構有可能產生變化
Flume:Source、Channel、Sink
- HDFS有哪些特點?
HDFS(Hadoop Distributed File System):分布式檔案系統
支持分布式、采用塊存盤、冗余存盤機制
考慮安全性、穩定性、擴展性
- Hive的優化方式有哪些?
避免使用部分原生API
使用自定義函式(UDAF、UDTF)
合理指定MR的Task數量
LZO資料壓縮、小檔案合并
合理使用本地模式
啟用JVM重用
連接查詢優化:小表在前、大表在后,使用相同連接鍵,資料盡早過濾
- 如何解決資料傾斜問題?
增加分配的記憶體
增加Reduce的個數
自定義磁區器
對Key進行重新設計(打散)
自定義Combiner
單獨處理傾斜資料
- 如何評判DW層的設計質量?
表間關系簡明
表的復用性高
適當冗余(構建寬表)
3. 總結擴展
- 對面試者的評價?
基礎很扎實,清楚底層原理,并且能進行獨立的思考,薪資可達20K,
- 大廠面試特點?
重視基礎:編程語言、資料結構、計算機網路、演算法等,
- 如何回答大資料場景設問?
在熟悉各大資料組件特點的前提下,充分分析給出的場景,根據各組件的特點構建出一個完整的資料分析流程,因為很有可能之前并沒有接觸過這個場景,盡量的貼合,保證合理即可,
4. 山豬亂彈
這次面試的小伙伴本身就比較優秀,之前已經在美團的大資料崗位作業過一段時間,在回答問題的時候也是自信滿滿,并且對不了解的問題也會坦誠的說自己沒有接觸過,隨后盡量的說一些自己的想法,
在面試的程序中,其實不需要在意是否能夠百分百的回答出所有的問題,因為對于剛走入職場的小伙伴,面試官和面試者的實力通常都是不對等的,有些作業中才會遇到的問題,被問到了,回答的不是很完美也沒有關系,在面試結束后一定要多總結,不單單是整理面試題,而是什么樣的公司、崗位通常會問什么樣的問題,這樣在準備的時候可以更有針對性,大家也可以持續關注本專欄,
三、視頻直達
視頻地址:https://www.bilibili.com/video/BV1AA411j7e7,喜歡的小伙伴兒一定要三連加關注哦~
模擬面試系列:斬獲多個大廠Offer的東大畢業生與大資料架構師的對決
寫在結尾:作者力求做到將每個知識點細化,并且對于有關聯的知識點都會使用傳送門掛載鏈接,文章采用:“文字 + 配圖 + 視頻”的方式來進行展現,均是擠時間所作,希望看到這里能留下評論點個贊,略表支持!

CSDN認證博客專家
全堆疊開發工程師
大資料高級開發
大資料金牌講師
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/231561.html
標籤:其他
