請問如果用flink處理mysql，有什么優點呢？-有解無憂

主要是做畢設現在想用flink。在網上找到了flink讀寫mysql的demo，本來很高興，就想寫個簡單的統計不同種類的的資料有多少份。后來想了一下這個一條sql陳述句就搞的定啊：select count(*) from T where type is "xxx" 。感覺我還是對大資料有誤區，不知道究竟能干什么。

我知道flink優勢是流處理，如果硬要用flink批處理mysql資料庫，到底能做什么資料分析是mysql自己做不了的呢？

資料庫是關于車聯網的安全事件的，就是哪些人在開車打手機，那些人在開車抽煙，這種資料。

uj5u.com熱心網友回復：

從幾個角度去解答：
1、你目前在校，還未見識到真正的“大”資料。自己想象一下，淘寶運營了十幾年，所有用戶訂單有多少？千億萬億級別吧？那一個MYSQL資料庫能扛得住？扛不住。所以他們會拆分歷史和熱點資料，又將熱點根據一定規則再次拆分為分片，分散到很多個資料庫上，以不至于你查個訂單等上一兩天，而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單，每個地區怎么樣等等各種維度的時候，你覺得sql還能在mysql上跑嗎？
2、基于上述，業務資料面向業務上的拆分，而分析又需要他們統一起來，那么，業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務（OLTP），而資料倉庫面向分析（OLAP）。一般實作，就是資料倉庫會把業務上分散的資料，通過特定的技術手段匯集到一張表上。那么，淘寶的資料開發去滿足馬云想法的時候，就可以寫類似一個資料庫上的SQL，去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務，比如你發現flink能實作的sql，mysql上也能寫。但是他們專精在于處理事務。而OLAP，則針對分析，有很多OLTP沒有的功能，比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點，是發現了他倆的交集而已。他倆還有對方完全不具備的地方。

uj5u.com熱心網友回復：

參考 1 樓 LinkSe7en 的回復:

從幾個角度去解答：
1、你目前在校，還未見識到真正的“大”資料。自己想象一下，淘寶運營了十幾年，所有用戶訂單有多少？千億萬億級別吧？那一個MYSQL資料庫能扛得住？扛不住。所以他們會拆分歷史和熱點資料，又將熱點根據一定規則再次拆分為分片，分散到很多個資料庫上，以不至于你查個訂單等上一兩天，而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單，每個地區怎么樣等等各種維度的時候，你覺得sql還能在mysql上跑嗎？
2、基于上述，業務資料面向業務上的拆分，而分析又需要他們統一起來，那么，業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務（OLTP），而資料倉庫面向分析（OLAP）。一般實作，就是資料倉庫會把業務上分散的資料，通過特定的技術手段匯集到一張表上。那么，淘寶的資料開發去滿足馬云想法的時候，就可以寫類似一個資料庫上的SQL，去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務，比如你發現flink能實作的sql，mysql上也能寫。但是他們專精在于處理事務。而OLAP，則針對分析，有很多OLTP沒有的功能，比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點，是發現了他倆的交集而已。他倆還有對方完全不具備的地方。

感謝，寫的真好

能不能再問你一個問題，拿現在flink一般批處理都是做哪種統計分析，能舉點例子嗎？拿我現在來說，我現在在學校，只想用學一下試試，現在不知道能干哪些事，我百度的好像沒人討論這個（應該大家都懂），我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法，flink也一樣的嗎？如果我現在想對我的小專案的資料做些大資料分析，能分析點啥，主要是和車聯網、用戶開車時候的行為有關的資料

uj5u.com熱心網友回復：

參考 2 樓 WmxL56 的回復:

Quote: 參考 1 樓 LinkSe7en 的回復:

從幾個角度去解答：
1、你目前在校，還未見識到真正的“大”資料。自己想象一下，淘寶運營了十幾年，所有用戶訂單有多少？千億萬億級別吧？那一個MYSQL資料庫能扛得住？扛不住。所以他們會拆分歷史和熱點資料，又將熱點根據一定規則再次拆分為分片，分散到很多個資料庫上，以不至于你查個訂單等上一兩天，而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單，每個地區怎么樣等等各種維度的時候，你覺得sql還能在mysql上跑嗎？
2、基于上述，業務資料面向業務上的拆分，而分析又需要他們統一起來，那么，業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務（OLTP），而資料倉庫面向分析（OLAP）。一般實作，就是資料倉庫會把業務上分散的資料，通過特定的技術手段匯集到一張表上。那么，淘寶的資料開發去滿足馬云想法的時候，就可以寫類似一個資料庫上的SQL，去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務，比如你發現flink能實作的sql，mysql上也能寫。但是他們專精在于處理事務。而OLAP，則針對分析，有很多OLTP沒有的功能，比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點，是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
感謝，寫的真好

能不能再問你一個問題，拿現在flink一般批處理都是做哪種統計分析，能舉點例子嗎？拿我現在來說，我現在在學校，只想用學一下試試，現在不知道能干哪些事，我百度的好像沒人討論這個（應該大家都懂），我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法，flink也一樣的嗎？如果我現在想對我的小專案的資料做些大資料分析，能分析點啥，主要是和車聯網、用戶開車時候的行為有關的資料

flink在業界的最佳實踐，就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型，通過flink進行實時預測分析。
spark對于實時處理，基本都是基于視窗，也就是一定時間段加滑動距離去定義好視窗后，針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流，也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下，flink也有意往這邊發展，咱們拭目以待。

你想針對某些資料進行分析，首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書，例如《資料倉庫工具箱》。把事實維度模型構建好之后，根據多種維度進行組合，就能發現新東西。

uj5u.com熱心網友回復：

參考 3 樓 LinkSe7en 的回復:

Quote: 參考 2 樓 WmxL56 的回復:

Quote: 參考 1 樓 LinkSe7en 的回復:

從幾個角度去解答：
1、你目前在校，還未見識到真正的“大”資料。自己想象一下，淘寶運營了十幾年，所有用戶訂單有多少？千億萬億級別吧？那一個MYSQL資料庫能扛得住？扛不住。所以他們會拆分歷史和熱點資料，又將熱點根據一定規則再次拆分為分片，分散到很多個資料庫上，以不至于你查個訂單等上一兩天，而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單，每個地區怎么樣等等各種維度的時候，你覺得sql還能在mysql上跑嗎？
2、基于上述，業務資料面向業務上的拆分，而分析又需要他們統一起來，那么，業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務（OLTP），而資料倉庫面向分析（OLAP）。一般實作，就是資料倉庫會把業務上分散的資料，通過特定的技術手段匯集到一張表上。那么，淘寶的資料開發去滿足馬云想法的時候，就可以寫類似一個資料庫上的SQL，去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務，比如你發現flink能實作的sql，mysql上也能寫。但是他們專精在于處理事務。而OLAP，則針對分析，有很多OLTP沒有的功能，比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點，是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
感謝，寫的真好

能不能再問你一個問題，拿現在flink一般批處理都是做哪種統計分析，能舉點例子嗎？拿我現在來說，我現在在學校，只想用學一下試試，現在不知道能干哪些事，我百度的好像沒人討論這個（應該大家都懂），我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法，flink也一樣的嗎？如果我現在想對我的小專案的資料做些大資料分析，能分析點啥，主要是和車聯網、用戶開車時候的行為有關的資料

flink在業界的最佳實踐，就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型，通過flink進行實時預測分析。
spark對于實時處理，基本都是基于視窗，也就是一定時間段加滑動距離去定義好視窗后，針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流，也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下，flink也有意往這邊發展，咱們拭目以待。

你想針對某些資料進行分析，首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書，例如《資料倉庫工具箱》。把事實維度模型構建好之后，根據多種維度進行組合，就能發現新東西。

明白你的意思了。。。。哎就是

參考 3 樓 LinkSe7en 的回復:

Quote: 參考 2 樓 WmxL56 的回復:

Quote: 參考 1 樓 LinkSe7en 的回復:

從幾個角度去解答：
1、你目前在校，還未見識到真正的“大”資料。自己想象一下，淘寶運營了十幾年，所有用戶訂單有多少？千億萬億級別吧？那一個MYSQL資料庫能扛得住？扛不住。所以他們會拆分歷史和熱點資料，又將熱點根據一定規則再次拆分為分片，分散到很多個資料庫上，以不至于你查個訂單等上一兩天，而是幾毫秒就有結果了。
如果馬云想知道淘寶下了多少單，每個地區怎么樣等等各種維度的時候，你覺得sql還能在mysql上跑嗎？
2、基于上述，業務資料面向業務上的拆分，而分析又需要他們統一起來，那么，業務資料庫和資料倉庫的概念就出來了。業務資料庫面向業務事務（OLTP），而資料倉庫面向分析（OLAP）。一般實作，就是資料倉庫會把業務上分散的資料，通過特定的技術手段匯集到一張表上。那么，淘寶的資料開發去滿足馬云想法的時候，就可以寫類似一個資料庫上的SQL，去分析離散在各處的資料了。
3、OLTP能完成大部分OLAP的任務，比如你發現flink能實作的sql，mysql上也能寫。但是他們專精在于處理事務。而OLAP，則針對分析，有很多OLTP沒有的功能，比如HIVE有針對視窗分析的SQL方言。因此你的疑惑點，是發現了他倆的交集而已。他倆還有對方完全不具備的地方。
感謝，寫的真好

能不能再問你一個問題，拿現在flink一般批處理都是做哪種統計分析，能舉點例子嗎？拿我現在來說，我現在在學校，只想用學一下試試，現在不知道能干哪些事，我百度的好像沒人討論這個（應該大家都懂），我現在只知道可spark可以調一些機器學習的庫去算那個那些演算法，flink也一樣的嗎？如果我現在想對我的小專案的資料做些大資料分析，能分析點啥，主要是和車聯網、用戶開車時候的行為有關的資料

flink在業界的最佳實踐，就是從kafka等訊息佇列里消費日志類資料。簡單理解就是mysql里只增不改不刪的資料。大部分都是基于某些邏輯進行統計。也有訓練好的機器學習模型，通過flink進行實時預測分析。
spark對于實時處理，基本都是基于視窗，也就是一定時間段加滑動距離去定義好視窗后，針對視窗進行統計分析和模型預測。也就是俗稱的微批處理。當然spark也開始支持連續流，也就是一條一條訊息進行處理了。
離線基本就是hive presto spark impala等老牌的天下，flink也有意往這邊發展，咱們拭目以待。

你想針對某些資料進行分析，首先你要根據事實維度模型進行建模。建議你先看看數倉建模相關的工具書，例如《資料倉庫工具箱》。把事實維度模型構建好之后，根據多種維度進行組合，就能發現新東西。

唉你說的我大概懂了，可是資料倉庫建模這些我也不會啊。。現在沒幾天就要交初稿了。。。資料分析和展示這塊到底怎么弄啊愁死我了現在就想能用fink對mysql里的資料做簡單的統計分析就行了。這樣可以做嗎？應該怎么做

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/15673.html

標籤：Spark

上一篇：AWS RDSmysql如何做主從復制？只復制指定的表

下一篇：云計算技術