
這是大資料入門常識第二篇,主要討論大資料作業的方向問題,第一篇沒看的同學可以補一下:
3000字長文教你大資料該怎么學!
有不少剛入門的同學在后臺會問類似這樣的問題
看招聘網站上,大資料相關的方向好多,不知道自己適合哪個怎么辦?
關注我公眾號的同學應該有不少是剛入門的,所以我把內容好好地整理總結了發出來希望能幫到更多人,
大資料開發工程師
大資料開發,大資料平臺開發,大資料系統開發,大資料應用開發等等好多種排列組合的說法其實都是類似的,都是同一種大資料猿類,只是各個公司的描述不同而已,為了更具有說服力,我在招聘網站上找了個比較通用的任職要求,大家先來看看,

首先,這種猿類對開發能力有比較高的要求,而且其實在實際作業中,大資料開發和Java后端開發是有一些關聯的(因此有后端的朋友問我轉方向事宜我都會建議這個方向),大資料開發需要提供介面服務,但是服務端的實作不同的是會對接更多的是大資料技術,也就是說需要用大資料的技術去實作一些需求然后通過介面的方式把資料回傳給業務方,涉及分布式存盤,分布式批/流計算,分布式調度,分布式協調等等大資料技術,
這個方向的活會比較多,在規模不大的公司,可以說是涵蓋了除了演算法相關以外所有的我下面提到的作業內容,大資料技術選型,資料倉庫建設,ETL鏈路設計,報表系統資料支持,用戶畫像系統,任務調度系統,BI系統等等還有好多系統都是需要大資料開發去建設的,
所以入門的同學會很煩惱,大資料技術真的是太多了,Hadoop生態圈這一套東西就已經學到頭暈了,學了這個忘了那個,學完之后還是感覺沒入門,確實其實學這些技術組件只是開始,真正有價值的是我們用這些組件技術去搭建各種系統為業務服務,解決各種問題,
大資料架構師也要簡單說一下,招聘網站上也是有不少需求的,這個職稱聽起來有點牛逼,其實簡單點說就是上面說的大資料開發這種猿類加上了經驗和能力buff的產物,
大資料架構師需要做的事情其實更多,他不僅僅需要設計技術架構,還需要掌控公司的整個大資料平臺的所有細節,任何一個地方出了問題,沒人能解決的話,都需要他在第一線解決問題,還有平臺的發展方向,任務的分工,團隊技術能力的培養,大資料產品的推廣等等,小到碼代碼bugfix,大到發展方向,哪里需要他,他就在哪里,所以并不是大家想的只指揮人作業的角色,
老讀者應該知道這個也是我目前的作業方向,后續的文章我也會圍繞這個方向展開,做大資料架構其實是一件非常有意思的事情,有空我會分享一下我的一些經驗給大家,
資料分析工程師
資料倉庫的建設也是資料分析工程師作業的一部分,所以資料倉庫工程師我就不分開討論了,直接來看看要求,

這個方向python是常規武器,同時很考驗業務能力,相比大資料開發的代碼能力更重要的是寫"高級"SQL的能力,傳聞中上萬行的SQL大多來自資料分析師之手,這種猿類主要干一些能體現資料本身價值的事情,包括資料建模,資料治理,血緣分析,資料分析等內容,目的是讓資料充分發揮價值,和業務部門會有比較多的交集,
在入門級別可能可以不需要有演算法能力,但是因為會接觸到很多的業務場景,而做演算法是需要場景的,所以后期很多人都是會往資料挖掘的方向轉(畢竟工資更高),
資料挖掘工程師
剛才提到了資料挖掘,那就來講講這個神秘的“高工資”物種,

資料挖掘工程師是搞演算法的,工程能力也有一定要求,但是沒有大資料開發那么高的要求,所以,數學不太好且本科學歷的同學,建議謹慎選擇這條路,除非真的是興趣濃厚,學習能力強,如果你說是為了錢多,非要選擇這條路,那我勸你再慎重想想,資料挖掘普遍工資高是因為高段位的同學把平均數拉高了,高段位的同學也就是你的競爭對手大部分都是研究生和博士,
如果你不是我說的這種情況,那么資料挖掘確實是一個非常好的方向,
ETL / BI / ... 工程師
把這些都寫在一塊并不是說這兩種作業內容是一樣的,其實差別還是挺大的,不過 ETL 和 BI 的活其實是大資料開發作業的一部分(傳統架構的 ETL 就不討論啦),這種專項的招聘要不就工資非常高,需要這方面的專家,來引導大方向;要不就很低,招聘的主要目的是為了能解決掉一些比較繁瑣的且其他人不想干的活,

之前老有同學問我 “做 ETL 或者 BI 或者其他 xx 工程師是不是就不用學spark或者其他的技術了?” 類似這種問題,我想說的是如果你想當一條咸魚而且碰巧還能找到個作業,那你確實可以什么都不學,學點皮毛就行了,但是 “啥也不學” 的后果是會直接體現在工資上的,所以,還是自己好好想想吧,
一般情況下,大資料學習想要“精”之前你必須先“通”,要知道了整體是什么樣子的,才能更好地在一個方向深入下去,當然也是可以把這種專項的作業當做是一個過度,從區域看整體,但是不變的是最終你肯定是要看清整體全貌的,這只是我的一點小建議,
工資
最后想聊聊工資,因為這是大家最在意的部分,具體多少不好討論,因為各個城市的生活成本不同,也會造成工資水平不同,我只排個序,而且這個順序肯定也不是絕對,算是個平均值吧,
總的來說,資料挖掘的工資水平最高,因為做演算法的大多都是碩士博士的學歷,起點就比一般的工程師高,拉高了平均水平,
其次是大資料開發,需要很強的工程能力和學習能力,學得多,干的活也多,煩惱也多,問題也多,唯一少的可能就是頭發了,
然后是大資料分析,工程能力要求相對較低,入門的門檻也相對低一點,很多小公司需要會SQL即可,晉升路線建議可以盡量往資料挖掘上靠,同時盡量培養自己的業務能力,雖然最后可能比不上演算法大佬的工資水平,但是高級的資料分析工資水平也是相當可觀的,
最后就是 ETL/BI 這種專項的工程師,高可很高,低可很低,如果不幸你很低,建議往大資料開發方向發展,
推薦閱讀
3000字長文教你大資料該怎么學!
還沒看過癮?更多內容掃下面二維碼關注下公眾號吧,
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/8652.html
標籤:大數據
上一篇:【漫畫】CAS原理分析!無鎖原子類也能解決并發問題!
下一篇:大資料學習路線
