往大資料方向發展需要學哪些技術?網上一搜真是指不勝屈,對于小白來說,實在是一頭霧水,到底哪些是當下流行的?哪些是必須要先學會的?流行?主次搞不清,為了解決這些疑惑,羚羊專門花了些時間, 挨個技術去研究對比歸類,大概總結出以下的技術點:
檔案存盤: Hadoop HDFS、GFS、KFS、Tachyon
離線計算: Hadoop MapReduce、Spark
流式、實時計算:flink、Storm、JStorm、Spark Structured Streaming、Heron、Spark Streaming
存盤格式:kudu、ORC、Apache Parquet、CarbonData
資料庫: HBase、Redis、MongoDB、Couchbase、LevelDB、Apache Cassandra、Ignite、TiDB
資源管理: YARN、Mesos
日志收集: Flume、Scribe、Logstash、FileBeat
訊息系統: Kafka、StormMQ、ZeroMQ、RabbitMQ、Confluent Platform
在線、離線查詢搜索分析: Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid、ClickHouse、Elasticsearch
資料可視化查詢分析工具:Apache Zeppelin、Kibana
分布式協調服務:Zookeeper
集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
資料同步: Sqoop、DataX、Cannal、Maxwell、Debezium、DataBus
任務調度: Azkaban、Oozie
資料安全:Apache Eagle
機器學習、資料挖掘:Spark MLLib、Mahout
下圖是羚羊根據當下流行的大資料技術點,結合之前的專案經驗,基于HDFS檔案系統搭建了一個基本的、通用的完整大資料平臺技術架構,一切的技術都是來源于不同的需求場景,所以根據不同的產品需求搭建出來的技術架構也會有差異,

【著作權宣告】
本文著作權歸作者(深圳伊人網網路有限公司)和博客園共有,歡迎轉載,但未經作者同意必須在文章頁面給出原文鏈接,否則保留追究法律責任的權利,如您有任何商業合作或者授權方面的協商,請給我留言:[email protected]
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/3135.html
標籤:大數據
