如何構建大資料中心-有解無憂

背景：
最近公司需要構建大資料中心，資料中心想建立在A市，資料來源于各個子應用系統，分別位于B市，C市，D市。現在需要將位于A,B,C市的子系統的部分資料（分散在各個表中）傳輸到A市的資料中心進行資料處理。A,B,C的每個子系統的資料儲存在MSSQL。

由于之前沒有做過大資料處理和構建資料中心，缺乏經驗，現在有如下疑問，還請各位前輩指點一二，萬分感謝！
1、將資料從子應用系統傳輸到資料中心，應該采取什么技術。
2、資料中心的機器的作業系統，資料的存盤，資料的處理，集群管理，應該采用什么系統和技術及如何架構。

請各位前輩指點一下，如果覺得麻煩，只要指出什么地方需要哪些技術即可，拜托了，非常感謝！

uj5u.com熱心網友回復：

由于之前沒有做過大資料處理和構建資料中心，缺乏經驗，現在有如下疑問，還請各位前輩指點一二，萬分感謝！
1、將資料從子應用系統傳輸到資料中心，應該采取什么技術。
2、資料中心的機器的作業系統，資料的存盤，資料的處理，集群管理，應該采用什么系統和技術及如何架構。

請各位前輩指點一下，如果覺得麻煩，只要指出什么地方需要哪些技術即可，拜托了，非常感謝！

uj5u.com熱心網友回復：

傳輸不懂，但是存盤可以采用HDFS。
MSSQL的資料可以通過主從復制的方法，在資料中心建立副本，然后通過Sqoop導成parquet檔案格式放到HDFS，通過hive/spark去訪問并進行資料分析等上層大資料應用。
服務器日志可以通過flume采集到HDFS，然后通過ELK（Elasticsearch、Logstash和Kibana）進行分析。不過我們之前的做法是flume 直接sink到HBase，用Spark去訪問（我們資料分析基本圍繞Spark）并分析。

uj5u.com熱心網友回復：

還有如果是大規模的集群可以用ambari來搭建和監控。ambari自動幫你裝配Hortonworks發行版的Hadoop（HDP），還可以按需裝配其他Hadoop生態的組件如hbase hive ZooKeeper spark 等等。不過根據我的實測它跟centos比較兼容，這個就要考慮下慣用linux的問題了。。。
如果實在牛逼的資料中心還可以搭私有云（OpenStark）以及容器云（Docker），不過這塊完全不了解

uj5u.com熱心網友回復：

https://nieoding.gitbooks.io/spark/content/

uj5u.com熱心網友回復：

參考 3 樓 link0007 的回復:

還有如果是大規模的集群可以用ambari來搭建和監控。ambari自動幫你裝配Hortonworks發行版的Hadoop（HDP），還可以按需裝配其他Hadoop生態的組件如hbase hive ZooKeeper spark 等等。不過根據我的實測它跟centos比較兼容，這個就要考慮下慣用linux的問題了。。。
如果實在牛逼的資料中心還可以搭私有云（OpenStark）以及容器云（Docker），不過這塊完全不了解

非常感謝！
由于統計分析需要時間，所以，怎么才能做到實時查詢，然后得到分析結果，有思路嗎？我的思想是使用資料庫存盤分析結果，你怎么看？謝謝！

uj5u.com熱心網友回復：

參考 4 樓 IamNieo 的回復:

https://nieoding.gitbooks.io/spark/content/

非常感謝，資料很實用。

uj5u.com熱心網友回復：

參考 5 樓 strongyoung88 的回復:

Quote: 參考 3 樓 link0007 的回復:

還有如果是大規模的集群可以用ambari來搭建和監控。ambari自動幫你裝配Hortonworks發行版的Hadoop（HDP），還可以按需裝配其他Hadoop生態的組件如hbase hive ZooKeeper spark 等等。不過根據我的實測它跟centos比較兼容，這個就要考慮下慣用linux的問題了。。。
如果實在牛逼的資料中心還可以搭私有云（OpenStark）以及容器云（Docker），不過這塊完全不了解

非常感謝！
由于統計分析需要時間，所以，怎么才能做到實時查詢，然后得到分析結果，有思路嗎？我的思想是使用資料庫存盤分析結果，你怎么看？謝謝！

這要分情況。假設你是訂單系統的統計查詢，你可以把訂單資料發布到kafka上，然后用SparkStreaming這種基于時間區間進行批處理的流式引擎去處理，然后結果可以輸出到資料庫里，前端去實時查詢。但是如果是比較龐大的分析，可以用Hive或impala等SQL on Hadoop去做即席查詢。如果是運維相關的例如日志分析可以用ELK等日志分析架構（之前寫錯了，Flume和Logstash一樣是日志采集的ETL工具，所以Flume可以代替Logstash）。

uj5u.com熱心網友回復：

搭私有云（OpenStark）以及容器云（Docker）

uj5u.com熱心網友回復：

參考 9 樓 jintian520mingtian 的回復:

我是大三的學生，想學普開資料大資料課程來著。因為自己是計算機系的，但是出去作業都要求要有作業經驗，尤其是程式猿，一直到現在畢業，找了很多家培訓機構都不是很滿意，聽同學說普開資料大資料培訓課程不錯，請有經驗的朋友給點意見。萬分感謝！！！

這樣打廣告，有意思嗎？？？？？

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/75835.html

標籤：Spark

上一篇：javaweb提交通過yarn-client提交spark程式遇到的問題

下一篇：關于大資料排序的問題，求大神解答