引子
小明又來了~

小明接過大明給的考卷:
想轉行大資料?這66個問題你搞懂了沒?
看到第一題:
1. 你能談談你對大資料的認知嗎?大資料到底是什么?
“我要是知道什么是大資料,我還擔心轉行干嘛,直接就干啊!”
“算了,還是猜吧”

“怎么突然想到了一句歌詞,,草,又走神了”
小明答到:
大資料應該就是很大的資料吧,,
大明看到這里:
“就這?”
小明苦笑:
“還能咋滴?我一個搞Java后端的,大資料也是從手機電視上知道的,只能這么猜啊,,”

大明看了小明半晌,嘆了口氣:
“誒,要不是你媽和我媽是鐵閨蜜,要不是我媽和我嘮叨了好幾天,我才懶得搭理你呢,”
“我來跟你簡單概括一下大資料,你好好聽著,當然,丑話說在前頭,我干大資料也沒幾年,我就簡單跟你談談我對大資料的認知,”
正文
- 大資料是圍繞著龐大資料所構建的一種技術生態體系
- 大資料本質上是一種技術手段
- 大資料的核心就是資料
- 大資料最核心的價值就是利用廉價的機器進行大規模資料的處理分析
大明繼續解釋到:
大資料,本質上就是圍繞了龐大的資料(Volumn) 所構建的一種技術生態體系,包括資料的采集、傳輸、計算、分析、調度、存盤等,
這個資料量級早期還只有GB級別,伴隨著技術的發展,已經逐漸上升到TB,PB的級別,
更為關鍵的是,資料的來源多種多樣(Variety),
一般來說,大資料的資料來源于四大源頭:
- 互聯網,包括手機電腦等
- 企業資料
- 物聯網,這也是未來的科技核心之一
- 科學研究
形式也是千變萬化,比如文本,音頻,視頻等等,
這么龐大的資料量,使用傳統的單機根本無法存盤下來,但是超級計算機太貴(億元為單位),不利于大資料的普及與發展,故歷史的潮流推動著大資料朝著“更多節點”的方向發展,只有更多的廉價機器(萬元為單位)才能存盤這么龐大的資料量,才能滿足大多數公司的需求,但是想要將這么龐大的機器數目統一成一個綜合對外提供服務的集群,也不是一件容易的事情,
此外,人們也逐漸的意識到大資料中蘊藏的無限價值(Value),舉個簡單的例子,頭條你也用過對吧,頭條能夠發展起來,大資料功不可沒,因為頭條公司是最早一批發現大資料中存在無限價值的公司,所以頭條成功了,頭條也把他們吸取的經驗應用到了抖音上面,所以抖音也成功了,
而且,隨著越來越多的企業投入到大資料的開發,以及越來越多的場景亟待大資料來支撐,資料處理的速度和時效性(Velocity)要求也會更高,因為很多資料是有時效要求的,比如你走路,走到一個地方,如果資料不及時處理,等你走到另一個地方再去給你推送附近的店鋪,這可就太遲了,再比如一個更典型時效要求更高的場景——實時防欺詐,支付的時長就那么長,用戶最多等你幾秒鐘,你幾秒鐘之內除了完成基本的支付邏輯外,不能實時的進行詐騙檢測,等用戶把錢匯過去就太晚了,
事實證明,很多資料的價值隨著時間的流逝在慢慢變低,而且存盤歷史資料會帶來更高的存盤成本,所以支持更快處理速度的實時流處理技術越來越受到企業的青睞,
其實我上面提到的 4V:
- Volume
- Variety
- Value
- Velocity
就是大資料最典型的四大特征,
說到這里,你基本上對大資料有了一個基礎的認知了吧,
小明:

大明:

“爽!被我裝到了!嘿嘿,突然有點喜歡小明了,”
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/290039.html
標籤:其他
