主要是做畢設現在想用flink。在網上找到了flink讀寫mysql的demo,本來很高興,就想寫個簡單的統計不同種類的的資料有多少份。后來想了一下這個一條sql陳述句就搞的定啊:select count(*) from T where type is "xxx" 。感覺我還是對大資料有誤區,不知道究竟能干什么。
我知道flink優勢是流處理,如果硬要用flink批處理mysql資料庫,到底能做什么資料分析是mysql自己做不了的呢?
資料庫是關于車聯網的安全事件的,就是哪些人在開車打手機,那些人在開車抽煙,這種資料。
uj5u.com熱心網友回復:
從幾個角度去解答:1、你目前在校,還未見識到真正的“大”資料。自己想象一下,淘寶運營了十幾年,所有用戶訂單有多少?千億萬億級別吧?那一個MYSQL資料庫能扛得住?扛不住。所以他們會拆分歷史和熱點資料,又將熱點根據一定規則再次拆分為分片,分散到很多個資料庫上,以不至于你查個訂單等上一兩天,而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單,每個地區怎么樣等等各種維度的時候,你覺得sql還能在mysql上跑嗎?
2、基于上述,業務資料面向業務上的拆分,而分析又需要他們統一起來,那么,業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務(OLTP),而資料倉庫面向分析(OLAP)。一般實作,就是資料倉庫會把業務上分散的資料,通過特定的技術手段匯集到一張表上。那么,淘寶的資料開發去滿足馬云想法的時候,就可以寫類似一個資料庫上的SQL,去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務,比如你發現flink能實作的sql,mysql上也能寫。但是他們專精在于處理事務。而OLAP,則針對分析,有很多OLTP沒有的功能,比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點,是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
uj5u.com熱心網友回復:
感謝,寫的真好能不能再問你一個問題,拿現在flink一般批處理都是做哪種統計分析,能舉點例子嗎? 拿我現在來說,我現在在學校,只想用學一下試試,現在不知道能干哪些事,我百度的好像沒人討論這個(應該大家都懂),我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法,flink也一樣的嗎? 如果我現在想對我的小專案的資料做些大資料分析,能分析點啥,主要是和車聯網、用戶開車時候的行為有關的資料
uj5u.com熱心網友回復:
flink在業界的最佳實踐,就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型,通過flink進行實時預測分析。
spark對于實時處理,基本都是基于視窗,也就是一定時間段加滑動距離去定義好視窗后,針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流,也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下,flink也有意往這邊發展,咱們拭目以待。
你想針對某些資料進行分析,首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書,例如《資料倉庫工具箱》。把事實維度模型構建好之后,根據多種維度進行組合,就能發現新東西。
uj5u.com熱心網友回復:
感謝,寫的真好
從幾個角度去解答:
1、你目前在校,還未見識到真正的“大”資料。自己想象一下,淘寶運營了十幾年,所有用戶訂單有多少?千億萬億級別吧?那一個MYSQL資料庫能扛得住?扛不住。所以他們會拆分歷史和熱點資料,又將熱點根據一定規則再次拆分為分片,分散到很多個資料庫上,以不至于你查個訂單等上一兩天,而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單,每個地區怎么樣等等各種維度的時候,你覺得sql還能在mysql上跑嗎?
2、基于上述,業務資料面向業務上的拆分,而分析又需要他們統一起來,那么,業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務(OLTP),而資料倉庫面向分析(OLAP)。一般實作,就是資料倉庫會把業務上分散的資料,通過特定的技術手段匯集到一張表上。那么,淘寶的資料開發去滿足馬云想法的時候,就可以寫類似一個資料庫上的SQL,去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務,比如你發現flink能實作的sql,mysql上也能寫。但是他們專精在于處理事務。而OLAP,則針對分析,有很多OLTP沒有的功能,比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點,是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
能不能再問你一個問題,拿現在flink一般批處理都是做哪種統計分析,能舉點例子嗎? 拿我現在來說,我現在在學校,只想用學一下試試,現在不知道能干哪些事,我百度的好像沒人討論這個(應該大家都懂),我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法,flink也一樣的嗎? 如果我現在想對我的小專案的資料做些大資料分析,能分析點啥,主要是和車聯網、用戶開車時候的行為有關的資料
flink在業界的最佳實踐,就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型,通過flink進行實時預測分析。
spark對于實時處理,基本都是基于視窗,也就是一定時間段加滑動距離去定義好視窗后,針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流,也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下,flink也有意往這邊發展,咱們拭目以待。
你想針對某些資料進行分析,首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書,例如《資料倉庫工具箱》。把事實維度模型構建好之后,根據多種維度進行組合,就能發現新東西。
感謝,寫的真好
從幾個角度去解答:
1、你目前在校,還未見識到真正的“大”資料。自己想象一下,淘寶運營了十幾年,所有用戶訂單有多少?千億萬億級別吧?那一個MYSQL資料庫能扛得住?扛不住。所以他們會拆分歷史和熱點資料,又將熱點根據一定規則再次拆分為分片,分散到很多個資料庫上,以不至于你查個訂單等上一兩天,而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單,每個地區怎么樣等等各種維度的時候,你覺得sql還能在mysql上跑嗎?
2、基于上述,業務資料面向業務上的拆分,而分析又需要他們統一起來,那么,業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務(OLTP),而資料倉庫面向分析(OLAP)。一般實作,就是資料倉庫會把業務上分散的資料,通過特定的技術手段匯集到一張表上。那么,淘寶的資料開發去滿足馬云想法的時候,就可以寫類似一個資料庫上的SQL,去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務,比如你發現flink能實作的sql,mysql上也能寫。但是他們專精在于處理事務。而OLAP,則針對分析,有很多OLTP沒有的功能,比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點,是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
能不能再問你一個問題,拿現在flink一般批處理都是做哪種統計分析,能舉點例子嗎? 拿我現在來說,我現在在學校,只想用學一下試試,現在不知道能干哪些事,我百度的好像沒人討論這個(應該大家都懂),我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法,flink也一樣的嗎? 如果我現在想對我的小專案的資料做些大資料分析,能分析點啥,主要是和車聯網、用戶開車時候的行為有關的資料
flink在業界的最佳實踐,就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型,通過flink進行實時預測分析。
spark對于實時處理,基本都是基于視窗,也就是一定時間段加滑動距離去定義好視窗后,針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流,也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下,flink也有意往這邊發展,咱們拭目以待。
你想針對某些資料進行分析,首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書,例如《資料倉庫工具箱》。把事實維度模型構建好之后,根據多種維度進行組合,就能發現新東西。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/15673.html
標籤:Spark
上一篇:AWS RDSmysql如何做主從復制?只復制指定的表
下一篇:云計算技術
