進入大資料行業數載，也從一個開發小白走到了今天，期間也歷經過一摸番著石頭過河的探索，到如今的胸有點墨；玩過demo,使用過負責過上千節點的大資料集群開發與使用；被人面虐過，也面跪過一些人，如今，趁著自己心中有火，眼里有光的年紀，把自己的一點心得與經驗分享大資料行業的愛好者，也希望有助于后面的童鞋少走彎路，歡迎大家私信交流，持續每周更新，

死磕大資料系列

1.死磕大資料系列將從企業上千節點集群的搭建（包括cdh集群，以及升級后apache hadoop3集群），性能優化，牽扯到的組件包括HDFS,MapReduce,YARN,Hive,Spark,Zookeeper,Hbase,Kafka,Flink,Flume等搭配使用與優化，這次不搞demo，只展示大規模集群的生產應用與實施方案；
2.深入組件內部死磕HDFS內部原理，NameNode性能優化，datanode資料存盤設計，深入HDFS的存盤架構，知其然又知其所以然，實時分享大規模集群存盤相關設計，優化以及實戰運維經驗；
3.死磕MR/Hive,Spark等計算引擎，實時案例展示企業開發中遇到的性能瓶頸，例外分析與性能優化，解決方案；我一直覺得只有碰到過性能瓶頸才能談優化，脫離此都是紙上談兵，
4.死磕YARN三大組件，RM,NM,APPmaster，展示上千節點集群資源調度設計，優化改造的方案與實施；讓你明白集群優化前后的巨大差別，合理優化的重要性；
5.死磕Kafka/Flume，SparkStreaming等流式組件，展示日均500Tb流式資料組件設計與使用，分享遇到的性能瓶頸與組件優化；
6.死磕大資料架構，案例分析讓你見識企業中數倉建模的來龍去脈，上百PB資料的處理，你會發現實戰其實與書本相差甚遠，大規模集群組件的選型與設計；大廠實際中大資料開發與管理的規范，如何提高效率；

1.生產CDH集群搭建前準備

對于大資料初學者，強烈建議使用cdh版本，使用cm搭建管理集群進行測驗，學習，因為更加好用，方便，直觀，見識下啥叫成熟的架構，學習要先見森林，再見樹木，最后再見森林，不要一頭扎進去linux黑視窗，那不是酷，那是傻，可以說80%的大資料開發者在大廠里是不允許直接操作linux跳板機的，而是成型的，成熟的，穩定的大資料web開發環境，

中小型的公司，使用CDH集群的還是很多，因為實在很方便，免費的且強大的功能，一般中小型公司節點個數從幾十臺到幾百臺不等，可以考慮使用CDH，但是現在CDH和HDP合并了，從今年2月以后CDH不支持在線下載安裝了（收費），且免費的版本不超過100臺節點了，很多功能還用不了，像我們公司上千節點，現在都在遷移開源的 Apache Hadoop3了，組件的二次開發，監控平臺開發等成本很高，

但是學會CDH的生產部署，在小公司還是有市場的，安裝部署集群前，最重要的是先把集群的主要服務架構部署清楚，一般生產上稍微規模大點的集群，核心服務都會使用單獨的服務器，不會在上面開啟計算和存盤節點的，考慮成本的話，也會在不影響集群核心服務的同時存盤計算等混合使用，

下面以十幾臺服務器為例，全流程展示生產CDH集群的安裝與使用,展示使用的系統centos6.9，linux命令比較簡單，centos7的話對應命令直接百度，關于CDH集群組件與介紹等可以百度，也可以參考CDH官網手冊，可以這里下載

鏈接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼：abcD

1.1 安裝前服務器核心配置與檢查

1.1.1.關閉防火墻

參考命令：service iptables status/ stop

1.1.2.關閉 Selinux

參考命令：vim /etc/selinux/config --> SELINUX=disable

1.1.3.所有主機hosts-ip映射到每個hosts

參考命令：vi/cat /etc/hosts

實際上大規模集群，規范化集群都不用這種hosts方式，低效，一般都用dns決議，

1.1.4.配置主機賬號密碼一致

參考命令： passwd

配置所有主機的root或者具有root權限賬號的密碼一致，方便后面操作，

1.1.5 JDK配置

所有主機的jdk環境可以不部署，下面安裝的時候使用自帶的通過自定義yum源安裝

1.1.6 磁盤格式化，掛載等

一般一臺服務器至少8T*12盤，磁盤需要格式化成某種特定格式，然后掛載到服務器上，可以使用腳本一鍵格式化，一鍵命名掛載所有磁盤，如果是虛擬機搭建可以不考慮，網上搜下很多成熟的腳本，

1.1.7 NTP時間同步服務器搭建

各個服務器之間時間要同步，一般所有服務器的時間以某臺節點為準，

1.所有節點安裝ntp服務

參考命令：yum install -y ntp ntpdate

chkconfig ntpd on 設定開機自啟動

2 修改組態檔：

修改主服務器 vim /etc/ntp.conf 一下是主服務的配置,安裝時可以粘貼替換使用

driftfile /var/lib/ntp/drift
restrict default kod nomodify notrap nopeer noquery
restrict -6 default kod nomodify notrap nopeer noquery
restrict 127.0.0.1
restrict -6 ::1
server 127.127.1.0     # local clock
fudge  127.127.1.0 stratum 10
restrict 10.0.0.0 mask 255.0.0.0 nomodify

修改其他從服務器的組態檔，可以使用一鍵分發腳本，ansible等工具

修改所有從服務器 vim  /etc/ntp.conf

注釋掉所有server打頭的配置項，添加如下配置項：

server 10-90-50-52-jhdxyjd.mob.local 這個是主服務器的主機名

3.先重啟主服務器，再重啟從服務器，命令一樣

參考命令：service ntpd start

查看同步狀態ntpq -p，其他從服務器是否從主服務器同步時間

這些基礎配置，如果是大廠的話，一般會有專門的基礎運維處理；

2. CDH 6.1.0的CM安裝

注意CDH集群的安裝與開源的Apache Hadoop不同，非常方便，只需要單節點安裝一個cm server 管理即可，后面所有服務的安裝部署，引數優化等都可以通過部署的cm節點的web界面去操作了，

2.1為啥需要配置yum源？

現在cdh也不支持在線安裝了，除非你有cm的賬號，否則免費版只支持離線安裝， CDH集群的安裝簡單就簡單在他只需要配置yum源，不需要每個節點都分發cm的安裝包，只需要配置一個web的網路yum即可，其他節點安裝使用時，直接從這個節點下載分發使用即可，所有配置yum源就是配置網路yum源，

cdh6.1生產需要的所有離線包，直接下載即可，

鏈接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼：abcD

2.2 配置主節點yum源

選一個裝cm的主節點，后面的操作都基于這個節點即可，比如我這里選擇的是10.90.50.52這臺服務器，在這臺節點配置yum源和安裝cm管理，

2.2.1 安裝httpd 服務&啟動httpd

參考命令：yum -y install httpd

chkconfig httpd on 添加開機自啟動

service httpd start 啟動httpd服務

這個安裝好了可以10.90.50.52:80 web打開界面

2.22 配置yum 倉庫

下載所有CDH6.1.0離線安裝需要的包與依賴，

鏈接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼：abcD

1.上傳 cm6.1.0.tar.gz 到/var/www/html目錄下（目錄沒有話，直接創建，注意這個目錄不要改，是cm默認安裝目錄，可以改，但是你要熟悉）并解壓

參考命令：cd /var/www/html/;tar -zxvf cm6.1.0.tar.gz

2.配置yum 源檔案：

參考命令：cd /etc/yum.repos.d/

vim  cloudera-manager.repo 添加如下內容：

#當前ip就是你配置cm主節點與網路yum源的節點

[cloudera-manager]

name = Cloudera Manager, Version

baseurl = http://10.90.50.52/cm6.1.0/

gpgcheck = 1

3.檢查配置是否成功

參考命令：yum list | grep cloudera 有如下輸出即可

或者直接在瀏覽器中訪問 http://10.90.50.52/cm6.1.0/

2.3 安裝mysql

mysql主要作用是存盤cm，各個組件等相關元資料資訊，比如hive的元資料，可以共用一個mysql資料，也可以分開mysql，比如我們之前生產hive元資料的存盤用的就是pg，高可用，小集群一般不分開沒啥事，但為了元資料的安全要配置mysql的高可用，或者定時同步mysql元資料進行備份，

1.上傳上面下載的mysql安裝包到服務器，將其解壓到指定路徑，隨便都可以，這里使用的是 /data/centos6為例

參考命令： tar -xvf mysql-5.7.33-1.el6.x86_64.rpm-bundle.tar -C /data/centos6

2.進入解壓目錄，執行yum 安裝

cd /data/centos6;

yum install -y  mysql-community-{server,client,common,libs}-*;

可以參考mysql配置你檔案，修改mysql資料存盤路徑等，大規模生產有必要，

more /etc/my.cnf

3.等待安裝完成，初始化資料目錄

mysqld --defaults-file=/etc/my.cnf --initialize-insecure --user=mysql

4.初始化完成，啟動mysql服務

service  mysqld  start;

chkconfig mysqld on 設定開機自動

5.執行mysql客戶端命令mysql，進入mysql，修改root密碼；

這里密碼以123456為例
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';

mysql> grant all privileges on *.* to 'root' @'%' identified by '123456';  ##修改遠程可訪問

注意后面還需要創建一些資料庫，等使用時在創建吧，這樣你知道為啥創建

2.5 主節點安裝CM-server

2.5.1 jdk的安裝

yum -y install oracle-j2sdk1.8.x86_64

yum -y install     oracle-j2sdk1.8-1.8.0+update141-1.x86_64.rpm

2.5.2 安裝依賴（如果上面報依賴的錯誤）

yum -y install cyrus-sasl-gssapi fuse-libs MySQL-python openssl-devel fuse lsb portmap mod_ssl python-psycopg2 libxslt

2.5.3 安裝主服務

yum install -y cloudera-manager-server.x86_64 cloudera-manager-daemons.x86_64  cloudera-manager-agent.x86_64

1.安裝后修改 cm_server 的組態檔

vim /etc/cloudera-scm-server/db.properties

注釋掉此行 #com.cloudera.cmf.db.setupType=INIT

添加如下內如：

com.cloudera.cmf.db.type=mysql
com.cloudera.cmf.db.host=localhost
com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.setupType=EXTERNAL
com.cloudera.cmf.db.password=scm

2.登入mysql 創建上面配置的用戶和資料庫

mysql> create database scm DEFAULT CHARACTER SET utf8; 
mysql> grant all on scm.* TO 'scm'@'%' IDENTIFIED BY 'scm';

3.上傳添加安裝包里的mysql-connector-java.jar包到指定位置

cd /opt/cloudera/cm/lib; 添加進到這個目錄

上傳完以后檢查一下ll /opt/cloudera/cm/lib/mysql-connector-java.jar

2.5.4 配置本地的parcel 檔案

cd /opt/cloudera/parcel-repo ，需要將上面百度網盤下載parces檔案copy到這個目錄下，此目錄下有以下三個檔案（注意此目錄的權限，應該是用戶cloudera-scm所屬權限），總共三個檔案，如下圖所示，

2.5.5 啟動cm server

1.啟動 cm_server

service cloudera-scm-server start 如果顯示【ok】

2.也進入日志目錄，查看日志詳情

cd /var/log/cloudera-scm-server/; tail -f cloudera-scm-server.log

出現一下內容表示啟動成功：

3.埠檢驗，cm 默認使用7180埠（也可以改），所以要在本地能通服務器10.90.50.52:7180，否則打不開cm界面，無法進行下一步，

netstat -anptl | grep 7180

2.5.6 登錄wed頁面進行相關服務組件添加

http://10.90.50.52:7180/

初始用戶名密碼：admin/admin

cdh集群的默認的超級用戶是hdfs

到此結束，cm server已經安裝好了，后面所有的zookeeper,hdfs,yarn,hbase,hive,spark,flume,kafka等組件的安裝配置，配置優化，節點添加，退役等等都可以通過這個界面進行操作了，

3. 基于CM安裝配置大資料組件與應用

3.1 cm的監控與配置等安裝

上面安裝好10.90.50.52的cm后，admin/admin登錄進去，如下界面，配置cm的基礎資訊，

注意，這里要選擇免費版本

下面直接繼續，默認完成即可，然后選擇集群安裝

注意，默認埠22不用更改，我這里更改是因為公司修改了默認埠，

這一步要注意：yum源地址就是上面配置的，注意版本，是否跟提供的安裝包一致，一般一樣的，

jdK使用cdh自帶的即可，cdh要求orace-jdk.

下面直接輸入主機密碼，建議所有主機剛開始統一設定密碼，方便后面操作，

安裝程序也可以后端查看進度

等待繼續，直到安裝完成，可以看到cm6自帶了哪些版本的大資料組件，非常豐富，

cm安裝好了，添加cm的監控服務.

cm自帶很多服務，比如分發，監控等，可以將這些服務分開安裝不同機器，也可以放到一臺機器，這里是放到一臺機器，規模不大，這些服務也不怎么消耗性能，下面的安裝直到下一步即可，安裝完成可以在cm界面查看，

注意這里需要在10.90.50.52的mysql中創建一個元資料庫給active_monitor存放元資料

mysql> create database Active_Monitor DEFAULT CHARACTER SET utf8;
mysql> grant all on Active_Monitor.* TO 'Active_Monitor'@'%' IDENTIFIED BY 'Active_Monitor';

點擊完成后：各圖示開始有監控指標

3.2 添加主機，進行大資料組件安裝

上面講cm的所有服務都安裝10.90.50.52上，生產上也可以分開，小規模集群也無所謂，這個節點只裝服務即可，然后安裝集群，需要先添加主機，添加一定數量的主機，完成大資料主服務的安裝，其他就是擴容DN,NM節點而已，很簡單，比如，一般大資料集群，至少有6臺用來安裝主服務，且配置相對要好，尤其namenode節點，都是ssd固態硬碟等，記憶體條也賊好，集群的安裝，要先設計好組件架構

3.2.1添加主機

直接將需要添加的主機，全部粘貼到這個文本框里然后檢索

注意這里是給添加到集群的主機，配置yun源的，然后繼續

配置密碼，cdh的安裝不需要ssh，直接配置密碼即可

下一步直到安裝完成，主機檢查可以跳過，直接點回主頁即可，查看添加成功的主機

3.3 大資料組件Zookeeper的安裝

cdh組件的安裝是分開的，不想apache，一個hadoop包，可以安裝好yarn，hdfs等，cdh把不同組件拆分安裝，方便單獨配置，集群安裝的第一步zookeeper.

1.首頁，添加服務，選中zookeeper.

這里zookeeper裝3臺，選擇三個節點，裝5臺就選5個節點即可

后面全部可以默認安裝完成即可，當然也可以修改部分安裝存盤目錄，新手不建議修改，

3.4 安裝HDFS組件,配置HA,JN

1.首頁，添加服務，選中hdfs

注意這里配置的secondarynaenode節點后面是為了ha的，備namenode，

這里需要注意，一般cdh6很智能了，會自動檢索你主機掛載的盤符，根據盤符的數量進行自動分組，你也可以修改一些引數，當然也可以安裝后在統一修改，后面直接默認，下一步安裝完成即可，

然后點擊啟動namenode ha,配置JN,完成即可

這里配置對應namenode本地存盤目錄，然后繼續下一步，后面的主機檢查可以忽略跳過，然后hdfs就安裝完成了，

3.5安裝YARN組件,配置HA

1.首頁，添加服務，選中YARN

然后直接下一步安裝跟上面hdfs安裝一樣，最后完成即可，啟動 ResourceManager HA,添加ha兩臺主機，下一步即可，裝好以后這些服務會自動重啟，這里NM,RM安裝在同一個節點，實際生產可以分開，配置不同主機即可，

3.6安裝Hive組件

1.首頁，添加服務，選中Hive

注意 hive gateway其實就是hive客戶端，根據需求配置，我這里都分發了，也可以后面配置，

注意，這里需要在10.90.50.52上創建mysql里資料庫，庫名這里以hive_metastore為例，存盤hive元資料，

mysql> create database hive_metastore DEFAULT CHARACTER SET utf8;
mysql> grant all on hive_metastore.* TO 'hive_metastore'@'%' IDENTIFIED BY 'hive_metastore';

注意，這里直接安裝會報錯，需要把mysql的jdbc連接放到hive/lib目錄下，這個跟apache一致

cp /opt/cloudera/cm/lib/mysql-connector-java.jar /opt/cloudera/parcels/CDH/lib/hive/lib/

安裝完后，可以創建hive資料庫，要用hdfs超級管理員操作

export HADOOP_USER_NAME=hdfs ，hive

3.7 Spark的安裝與配置

1.首頁，添加服務，選中Spark

2.注意安裝完后，spark history需要手動重啟

4. 生成集群監控指標

上面所有的圖示支持拖拉，生成指標，如下，命令可以去cdh官網查詢，或者可以打開圖示查看命令格式，

5.集群優化，引數配置

可以進去不同組件，配置里，修改默認的引數，比如NodeManager的資源分配等，這些是不能使用默認值的，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/286938.html

標籤：其他

上一篇：鴻蒙開發|HarmonyOS是什么

下一篇：RuoYI-Cloud后端專案修改為自己的專案從0搭建程序(二次開發搭建)

超詳細版企業離線部署CDH6.10集群與配置使用

1.生產CDH集群搭建前準備

1.1 安裝前服務器核心配置與檢查

1.1.1.關閉防火墻

1.1.2.關閉 Selinux

1.1.3.所有主機hosts-ip映射到每個hosts

1.1.4.配置主機賬號密碼一致

1.1.5 JDK配置

1.1.6 磁盤格式化，掛載等

1.1.7 NTP時間同步服務器搭建

2. CDH 6.1.0的CM安裝

2.1為啥需要配置yum源？

2.2 配置主節點yum源

2.2.1 安裝httpd 服務&啟動httpd

2.22 配置yum 倉庫

2.3 安裝mysql

2.5 主節點安裝CM-server

2.5.1 jdk的安裝

2.5.2 安裝依賴（如果上面報依賴的錯誤）

2.5.3 安裝主服務

2.5.4 配置本地的parcel 檔案

2.5.5 啟動cm server

2.5.6 登錄wed頁面進行相關服務組件添加

3. 基于CM安裝配置大資料組件與應用

3.1 cm的監控與配置等安裝

3.2 添加主機，進行大資料組件安裝

3.2.1添加主機

3.3 大資料組件Zookeeper的安裝

3.4 安裝HDFS組件,配置HA,JN

3.5安裝YARN組件,配置HA

3.6安裝Hive組件

3.7 Spark的安裝與配置

4. 生成集群監控指標

5.集群優化，引數配置