🌟今天下午面試兩家,位元組跳動資料研發一面和百度三面,百度那邊突然不面了,hr說下個星期再看看,是直接過了還是再來一面,需要和部門商量一下,先來總結一下位元組跳動的面試,對百度面試感興趣的同學可以參考如下文章:
- 鏈接: 2022百度大資料開發工程師實習面試經歷.
- 鏈接: spark學習之并行度、并發、core數和磁區的關系.
👊廢話不多上,先上圖,這里有個小插曲啊,我簡歷上的郵箱寫錯了,趕緊打電話給hr小姐姐,幫我重新發了一下面試鏈接,小姐姐人真好,給她點贊👍

目錄
- 1. 一面問題
- 2. 面試感覺
1. 一面問題
- 面試官先自我介紹了一下(👍)
- 自我介紹(用自己的)
- 說一下你在滴滴出行做的專案(正常的資料建模專案,拉鏈表專案)
- 你們的資料量大嗎?(不太大,企業內部資料,大概幾百個g)
- 你說你用的資料倉庫分層理論,你說說各層有啥用?為什么要分層?(ods、dwd、dws、app回答一下)
- 你看過什么大資料的書嗎?(這里我說的太多了,阿里巴巴大資料之路,spark權威指南、flink教程,hadoop之類的)
- 既然你看過《阿里巴巴大資料之路》,和我說一下維度建模和其他維度建模的特點,以及為什么要采用維度建模?(解釋了一下維度建模的原理)
- 我看你有個flink的專案,你介紹一下這個專案?(介紹博客里的專案,問到的頻率太高了,我下次好好整理一下)
- 說一下mapreduce的程序?(maptask、reducetask)
- 你在滴滴實作了全體員工表拉鏈表,說一下為什么使用拉鏈表,為什么不使用快照表?(解釋拉鏈表)
- 滴滴出行大資料的技術堆疊有哪?(批處理spark、流處理flink)
- 你們用的olap資料庫是什么?存了多少資料?(我們以前用mysql,現在也轉換到clickhouse上了,存了幾百個g)
- 我看你簡歷里,學校經歷里面你做的專案有點少呀?(我所做的東西都在我的博客里,您可以看下)
- 我看你的博客里寫到了日志采集,你知道日志是如何采集的嗎?以及采集日志有幾種方式嗎?(這道理就是我博客里看書的時候寫的,很早寫的,被挖出來,我只回答了在網頁里設定埋點,然后面試官說說到一部分,這道題有點超綱了,跳過,)
- 做題:1. sql 我們有一張表table1,欄位有room_id ,create_time,useid分別代表直播間號,用戶來到直播間的時間,和用戶id,請求出3-4點之間,每分鐘的用戶數量,直播間粒度?(用戶可以進入同一個直播間多次,但只算第一次的進入時間,)(這道題先要分組去重,然后篩選出時間為3-4點之間的,然后分組count()即可,正確完成)
- 你碰見過distinct會執行很久的情況嗎?(資料傾斜,所有資料到一個reduce里,會很卡,建議使用group by去重)
- 做題:2. 給你一個字符’([]){]}’,判斷合理括號,合理回傳true,不合理回傳false,(leetcode 20題,用一個堆疊,即可解決,正確完成)
- 我在你做題段時間看了一下你的博客,各方面都有所涉及,你以后想從事哪方面的作業呢?(把自己創作的博客的東西大致說了一下,還說了一些以后的打算,就當作閑聊了,)
- 你有什么想問的嗎?(你就問你想問的,我問了一些部門的問題,和面試要幾輪,然后聊了一會)
2. 面試感覺
面試完后,小姐姐叫我回去等hr的通知,整體來說,感徑訓行,大多數問題都回答出來了,唯一的不足可能是有些書讀的不是很透徹,有些概念能說出為什么這樣做,但沒法像書上的那些話一樣,簡練而精準地描述數倉的一些概念,有待加強吧,還有就是,多刷題,sql和演算法一起刷,希望我的經歷能給大家一點幫助,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/437988.html
標籤:其他
上一篇:專案實戰——引數配置化Spark將Hive表的資料寫入需要用戶名密碼認證的ElasticSearch(Java版本)
