背景:
最近公司需要構建大資料中心,資料中心想建立在A市,資料來源于各個子應用系統,分別位于B市,C市,D市。現在需要將位于A,B,C市的子系統的部分資料(分散在各個表中)傳輸到A市的資料中心進行資料處理。A,B,C的每個子系統的資料儲存在MSSQL。
由于之前沒有做過大資料處理和構建資料中心,缺乏經驗,現在有如下疑問,還請各位前輩指點一二,萬分感謝!
1、將資料從子應用系統傳輸到資料中心,應該采取什么技術。
2、資料中心的機器的作業系統,資料的存盤,資料的處理,集群管理,應該采用什么系統和技術及如何架構。
請各位前輩指點一下,如果覺得麻煩,只要指出什么地方需要哪些技術即可,拜托了,非常感謝!
uj5u.com熱心網友回復:
由于之前沒有做過大資料處理和構建資料中心,缺乏經驗,現在有如下疑問,還請各位前輩指點一二,萬分感謝!1、將資料從子應用系統傳輸到資料中心,應該采取什么技術。
2、資料中心的機器的作業系統,資料的存盤,資料的處理,集群管理,應該采用什么系統和技術及如何架構。
請各位前輩指點一下,如果覺得麻煩,只要指出什么地方需要哪些技術即可,拜托了,非常感謝!
uj5u.com熱心網友回復:
傳輸不懂,但是存盤可以采用HDFS。MSSQL的資料可以通過主從復制的方法,在資料中心建立副本,然后通過Sqoop導成parquet檔案格式放到HDFS,通過hive/spark去訪問并進行資料分析等上層大資料應用。
服務器日志可以通過flume采集到HDFS,然后通過ELK(Elasticsearch、Logstash和Kibana)進行分析。不過我們之前的做法是flume 直接sink到HBase,用Spark去訪問(我們資料分析基本圍繞Spark)并分析。
uj5u.com熱心網友回復:
還有如果是大規模的集群可以用ambari來搭建和監控。ambari自動幫你裝配Hortonworks發行版的Hadoop(HDP),還可以按需裝配其他Hadoop生態的組件如hbase hive ZooKeeper spark 等等。不過根據我的實測它跟centos比較兼容,這個就要考慮下慣用linux的問題了。。。如果實在牛逼的資料中心還可以搭私有云(OpenStark)以及容器云(Docker),不過這塊完全不了解
uj5u.com熱心網友回復:
https://nieoding.gitbooks.io/spark/content/uj5u.com熱心網友回復:
非常感謝!
由于統計分析需要時間,所以,怎么才能做到實時查詢,然后得到分析結果,有思路嗎?我的思想是使用資料庫存盤分析結果,你怎么看?謝謝!
uj5u.com熱心網友回復:
非常感謝,資料很實用。
uj5u.com熱心網友回復:
這要分情況。假設你是訂單系統的統計查詢,你可以把訂單資料發布到kafka上,然后用SparkStreaming這種基于時間區間進行批處理的流式引擎去處理,然后結果可以輸出到資料庫里,前端去實時查詢。但是如果是比較龐大的分析,可以用Hive或impala等SQL on Hadoop去做即席查詢。如果是運維相關的例如日志分析可以用ELK等日志分析架構(之前寫錯了,Flume和Logstash一樣是日志采集的ETL工具,所以Flume可以代替Logstash)。
uj5u.com熱心網友回復:
搭私有云(OpenStark)以及容器云(Docker)uj5u.com熱心網友回復:
我是大三的學生,想學普開資料大資料課程來著。因為自己是計算機系的,但是出去作業都要求要有作業經驗,尤其是程式猿,一直到現在畢業,找了很多家培訓機構都不是很滿意,聽同學說普開資料大資料培訓課程不錯,請有經驗的朋友給點意見。萬分感謝!!!
這樣打廣告,有意思嗎?????
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/75835.html
標籤:Spark
上一篇:javaweb提交通過yarn-client提交spark程式遇到的問題
下一篇:關于大資料排序的問題,求大神解答
