進入大資料行業數載,也從一個開發小白走到了今天,期間也歷經過一摸番著石頭過河的探索,到如今的胸有點墨;玩過demo,使用過負責過上千節點的大資料集群開發與使用;被人面虐過,也面跪過一些人,如今,趁著自己心中有火,眼里有光的年紀,把自己的一點心得與經驗分享大資料行業的愛好者,也希望有助于后面的童鞋少走彎路,歡迎大家私信交流,持續每周更新,

死磕大資料系列
- 1.死磕大資料系列將從企業上千節點集群的搭建(包括cdh集群,以及升級后apache hadoop3集群),性能優化,牽扯到的組件包括HDFS,MapReduce,YARN,Hive,Spark,Zookeeper,Hbase,Kafka,Flink,Flume等搭配使用與優化,這次不搞demo,只展示大規模集群的生產應用與實施方案;
- 2.深入組件內部死磕HDFS內部原理,NameNode性能優化,datanode資料存盤設計,深入HDFS的存盤架構,知其然又知其所以然,實時分享大規模集群存盤相關設計,優化以及實戰運維經驗;
- 3.死磕MR/Hive,Spark等計算引擎,實時案例展示企業開發中遇到的性能瓶頸,例外分析與性能優化,解決方案;我一直覺得只有碰到過性能瓶頸才能談優化,脫離此都是紙上談兵,
- 4.死磕YARN三大組件,RM,NM,APPmaster,展示上千節點集群資源調度設計,優化改造的方案與實施;讓你明白集群優化前后的巨大差別,合理優化的重要性;
- 5.死磕Kafka/Flume,SparkStreaming等流式組件,展示日均500Tb流式資料組件設計與使用,分享遇到的性能瓶頸與組件優化;
- 6.死磕大資料架構,案例分析讓你見識企業中數倉建模的來龍去脈,上百PB資料的處理,你會發現實戰其實與書本相差甚遠,大規模集群組件的選型與設計;大廠實際中大資料開發與管理的規范,如何提高效率;
1.生產CDH集群搭建前準備
對于大資料初學者,強烈建議使用cdh版本,使用cm搭建管理集群進行測驗,學習,因為更加好用,方便,直觀,見識下啥叫成熟的架構,學習要先見森林,再見樹木,最后再見森林,不要一頭扎進去linux黑視窗,那不是酷,那是傻,可以說80%的大資料開發者在大廠里是不允許直接操作linux跳板機的,而是成型的,成熟的,穩定的大資料web開發環境,
中小型的公司,使用CDH集群的還是很多,因為實在很方便,免費的且強大的功能,一般中小型公司節點個數從幾十臺到幾百臺不等,可以考慮使用CDH,但是現在CDH和HDP合并了,從今年2月以后CDH不支持在線下載安裝了(收費),且免費的版本不超過100臺節點了,很多功能還用不了,像我們公司上千節點,現在都在遷移開源的 Apache Hadoop3了,組件的二次開發,監控平臺開發等成本很高,
但是學會CDH的生產部署,在小公司還是有市場的,安裝部署集群前,最重要的是先把集群的主要服務架構部署清楚,一般生產上稍微規模大點的集群,核心服務都會使用單獨的服務器,不會在上面開啟計算和存盤節點的,考慮成本的話,也會在不影響集群核心服務的同時存盤計算等混合使用,
下面以十幾臺服務器為例,全流程展示生產CDH集群的安裝與使用,展示使用的系統centos6.9,linux命令比較簡單,centos7的話對應命令直接百度,關于CDH集群組件與介紹等可以百度,也可以參考CDH官網手冊,可以這里下載
鏈接:https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼:abcD
1.1 安裝前服務器核心配置與檢查
1.1.1.關閉防火墻
參考命令:service iptables status/ stop
1.1.2.關閉 Selinux
參考命令:vim /etc/selinux/config --> SELINUX=disable
1.1.3.所有主機hosts-ip映射到每個hosts
參考命令:vi/cat /etc/hosts
實際上大規模集群,規范化集群都不用這種hosts方式,低效,一般都用dns決議,
1.1.4.配置主機賬號密碼一致
參考命令: passwd
配置所有主機的root或者具有root權限賬號的密碼一致,方便后面操作,
1.1.5 JDK配置
所有主機的jdk環境可以不部署,下面安裝的時候使用自帶的通過自定義yum源安裝
1.1.6 磁盤格式化,掛載等
一般一臺服務器至少8T*12盤,磁盤需要格式化成某種特定格式,然后掛載到服務器上,可以使用腳本一鍵格式化,一鍵命名掛載所有磁盤,如果是虛擬機搭建可以不考慮,網上搜下很多成熟的腳本,
1.1.7 NTP時間同步服務器搭建
各個服務器之間時間要同步 ,一般所有服務器的時間以某臺節點為準,
1.所有節點安裝ntp服務
參考命令:yum install -y ntp ntpdate
chkconfig ntpd on 設定開機自啟動
2 修改組態檔:
修改主服務器 vim /etc/ntp.conf 一下是主服務的配置,安裝時可以粘貼替換使用
driftfile /var/lib/ntp/drift
restrict default kod nomodify notrap nopeer noquery
restrict -6 default kod nomodify notrap nopeer noquery
restrict 127.0.0.1
restrict -6 ::1
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 10
restrict 10.0.0.0 mask 255.0.0.0 nomodify
修改其他從服務器的組態檔,可以使用一鍵分發腳本,ansible等工具
修改所有從服務器 vim /etc/ntp.conf
注釋掉所有server打頭的配置項,添加如下配置項:
server 10-90-50-52-jhdxyjd.mob.local 這個是主服務器的主機名
3.先重啟主服務器,再重啟從服務器,命令一樣
參考命令:service ntpd start
查看同步狀態ntpq -p,其他從服務器是否從主服務器同步時間

這些基礎配置,如果是大廠的話,一般會有專門的基礎運維處理;
2. CDH 6.1.0的CM安裝
注意CDH集群的安裝與開源的Apache Hadoop不同,非常方便,只需要單節點安裝一個cm server 管理即可,后面所有服務的安裝部署,引數優化等都可以通過部署的cm節點的web界面去操作了,
2.1為啥需要配置yum源?
現在cdh也不支持在線安裝了,除非你有cm的賬號,否則免費版只支持離線安裝, CDH集群的安裝簡單就簡單在他只需要配置yum源,不需要每個節點都分發cm的安裝包,只需要配置一個web的網路yum即可,其他節點安裝使用時,直接從這個節點下載分發使用即可,所有配置yum源就是配置網路yum源,
cdh6.1生產需要的所有離線包,直接下載即可,
鏈接:https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼:abcD
2.2 配置主節點yum源
選一個裝cm的主節點,后面的操作都基于這個節點即可,比如我這里選擇的是10.90.50.52這臺服務器,在這臺節點配置yum源和安裝cm管理,
2.2.1 安裝httpd 服務&啟動httpd
參考命令:yum -y install httpd
chkconfig httpd on 添加開機自啟動
service httpd start 啟動httpd服務
這個安裝好了可以10.90.50.52:80 web打開界面
2.22 配置yum 倉庫
下載所有CDH6.1.0離線安裝需要的包與依賴,
鏈接:https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取碼:abcD
1.上傳 cm6.1.0.tar.gz 到/var/www/html目錄下(目錄沒有話,直接創建,注意這個目錄不要改,是cm默認安裝目錄,可以改,但是你要熟悉)并解壓
參考命令:cd /var/www/html/;tar -zxvf cm6.1.0.tar.gz

2.配置yum 源檔案:
參考命令:cd /etc/yum.repos.d/
vim cloudera-manager.repo 添加如下內容:
#當前ip就是你配置cm主節點與網路yum源的節點
[cloudera-manager]
name = Cloudera Manager, Version
baseurl = http://10.90.50.52/cm6.1.0/
gpgcheck = 1
3.檢查配置是否成功
參考命令:yum list | grep cloudera 有如下輸出即可

或者直接在瀏覽器中訪問 http://10.90.50.52/cm6.1.0/

2.3 安裝mysql
mysql主要作用是存盤cm,各個組件等相關元資料資訊,比如hive的元資料,可以共用一個mysql資料,也可以分開mysql,比如我們之前生產hive元資料的存盤用的就是pg,高可用,小集群一般不分開沒啥事,但為了元資料的安全要配置mysql的高可用,或者定時同步mysql元資料進行備份,
1.上傳上面下載的mysql安裝包到服務器,將其解壓到指定路徑,隨便都可以,這里使用的是 /data/centos6為例
參考命令: tar -xvf mysql-5.7.33-1.el6.x86_64.rpm-bundle.tar -C /data/centos6

2.進入解壓目錄,執行yum 安裝
cd /data/centos6;
yum install -y mysql-community-{server,client,common,libs}-*;
可以參考mysql配置你檔案,修改mysql資料存盤路徑等,大規模生產有必要,
more /etc/my.cnf

3.等待安裝完成,初始化資料目錄
mysqld --defaults-file=/etc/my.cnf --initialize-insecure --user=mysql
4.初始化完成,啟動mysql服務
service mysqld start;
chkconfig mysqld on 設定開機自動
5.執行mysql客戶端命令mysql,進入mysql,修改root密碼;
這里密碼以123456為例
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';
mysql> grant all privileges on *.* to 'root' @'%' identified by '123456'; ##修改遠程可訪問
注意后面還需要創建一些資料庫,等使用時在創建吧,這樣你知道為啥創建
2.5 主節點安裝CM-server
2.5.1 jdk的安裝
yum -y install oracle-j2sdk1.8.x86_64
yum -y install oracle-j2sdk1.8-1.8.0+update141-1.x86_64.rpm
2.5.2 安裝依賴(如果上面報依賴的錯誤)
yum -y install cyrus-sasl-gssapi fuse-libs MySQL-python openssl-devel fuse lsb portmap mod_ssl python-psycopg2 libxslt
2.5.3 安裝主服務
yum install -y cloudera-manager-server.x86_64 cloudera-manager-daemons.x86_64 cloudera-manager-agent.x86_64
1.安裝后修改 cm_server 的組態檔
vim /etc/cloudera-scm-server/db.properties
注釋掉此行 #com.cloudera.cmf.db.setupType=INIT
添加如下內如:
com.cloudera.cmf.db.type=mysql
com.cloudera.cmf.db.host=localhost
com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.setupType=EXTERNAL
com.cloudera.cmf.db.password=scm

2.登入mysql 創建上面配置的用戶和資料庫

mysql> create database scm DEFAULT CHARACTER SET utf8;
mysql> grant all on scm.* TO 'scm'@'%' IDENTIFIED BY 'scm';
3.上傳添加安裝包里的mysql-connector-java.jar包到指定位置
cd /opt/cloudera/cm/lib; 添加進到這個目錄
上傳完以后檢查一下ll /opt/cloudera/cm/lib/mysql-connector-java.jar

2.5.4 配置本地的parcel 檔案
cd /opt/cloudera/parcel-repo ,需要將上面百度網盤下載parces檔案copy到這個目錄下,此目錄下有以下三個檔案(注意此目錄的權限,應該是用戶cloudera-scm所屬權限),總共三個檔案,如下圖所示,
![]()

2.5.5 啟動cm server
1.啟動 cm_server
service cloudera-scm-server start 如果顯示【ok】
2.也進入日志目錄,查看日志詳情
cd /var/log/cloudera-scm-server/; tail -f cloudera-scm-server.log
出現一下內容表示啟動成功:

3.埠檢驗,cm 默認使用7180埠(也可以改),所以要在本地能通服務器10.90.50.52:7180,否則打不開cm界面,無法進行下一步,
netstat -anptl | grep 7180


2.5.6 登錄wed頁面進行相關服務組件添加
http://10.90.50.52:7180/
初始用戶名密碼:admin/admin
cdh集群的默認的超級用戶是hdfs

到此結束,cm server已經安裝好了,后面所有的zookeeper,hdfs,yarn,hbase,hive,spark,flume,kafka等組件的安裝配置,配置優化,節點添加,退役等等都可以通過這個界面進行操作了,
3. 基于CM安裝配置大資料組件與應用
3.1 cm的監控與配置等安裝
上面安裝好10.90.50.52的cm后,admin/admin登錄進去,如下界面,配置cm的基礎資訊,


注意,這里要選擇免費版本

下面直接繼續,默認完成即可,然后選擇集群安裝

注意,默認埠22不用更改,我這里更改是因為公司修改了默認埠,

這一步要注意:yum源地址就是上面配置的,注意版本,是否跟提供的安裝包一致,一般一樣的,

jdK使用cdh自帶的即可,cdh要求orace-jdk.

下面直接輸入主機密碼,建議所有主機剛開始統一設定密碼,方便后面操作,


安裝程序也可以后端查看進度

等待繼續,直到安裝完成,可以看到cm6自帶了哪些版本的大資料組件,非常豐富,

cm安裝好了,添加cm的監控服務.

cm自帶很多服務,比如分發,監控等,可以將這些服務分開安裝不同機器,也可以放到一臺機器,這里是放到一臺機器,規模不大,這些服務也不怎么消耗性能,下面的安裝直到下一步即可,安裝完成可以在cm界面查看,

注意這里需要在10.90.50.52的mysql中創建一個元資料庫給active_monitor存放元資料
mysql> create database Active_Monitor DEFAULT CHARACTER SET utf8;
mysql> grant all on Active_Monitor.* TO 'Active_Monitor'@'%' IDENTIFIED BY 'Active_Monitor';

點擊完成后:各圖示開始有監控指標


3.2 添加主機,進行大資料組件安裝
上面講cm的所有服務都安裝10.90.50.52上,生產上也可以分開,小規模集群也無所謂,這個節點只裝服務即可,然后安裝集群,需要先添加主機,添加一定數量的主機,完成大資料主服務的安裝,其他就是擴容DN,NM節點而已,很簡單,比如,一般大資料集群,至少有6臺用來安裝主服務,且配置相對要好,尤其namenode節點,都是ssd固態硬碟等,記憶體條也賊好,集群的安裝,要先設計好組件架構

3.2.1添加主機


直接將需要添加的主機,全部粘貼到這個文本框里然后檢索

注意這里是給添加到集群的主機,配置yun源的,然后繼續


配置密碼,cdh的安裝不需要ssh,直接配置密碼即可

下一步直到安裝完成,主機檢查可以跳過,直接點回主頁即可,查看添加成功的主機

3.3 大資料組件Zookeeper的安裝
cdh組件的安裝是分開的,不想apache,一個hadoop包,可以安裝好yarn,hdfs等,cdh把不同組件拆分安裝,方便單獨配置,集群安裝的第一步zookeeper.
1.首頁,添加服務,選中zookeeper.


這里zookeeper裝3臺,選擇三個節點,裝5臺就選5個節點即可

后面全部可以默認安裝完成即可,當然也可以修改部分安裝存盤目錄,新手不建議修改,
3.4 安裝HDFS組件,配置HA,JN
1.首頁,添加服務,選中hdfs
注意這里配置的secondarynaenode節點后面是為了ha的,備namenode,

這里需要注意,一般cdh6很智能了,會自動檢索你主機掛載的盤符,根據盤符的數量進行自動分組,你也可以修改一些引數,當然也可以安裝后在統一修改,后面直接默認,下一步安裝完成即可,

然后點擊啟動namenode ha,配置JN,完成即可


這里配置對應namenode本地存盤目錄,然后繼續下一步,后面的主機檢查可以忽略跳過,然后hdfs就安裝完成了,

3.5安裝YARN組件,配置HA
1.首頁,添加服務,選中YARN


然后直接下一步安裝跟上面hdfs安裝一樣,最后完成即可,啟動 ResourceManager HA,添加ha兩臺主機,下一步即可,裝好以后這些服務會自動重啟,這里NM,RM安裝在同一個節點,實際生產可以分開,配置不同主機即可,

3.6安裝Hive組件
1.首頁,添加服務,選中Hive
注意 hive gateway其實就是hive客戶端,根據需求配置,我這里都分發了,也可以后面配置,

注意,這里需要在10.90.50.52上創建mysql里資料庫,庫名這里以hive_metastore為例,存盤hive元資料,
mysql> create database hive_metastore DEFAULT CHARACTER SET utf8;
mysql> grant all on hive_metastore.* TO 'hive_metastore'@'%' IDENTIFIED BY 'hive_metastore';

注意,這里直接安裝會報錯,需要把mysql的jdbc連接放到hive/lib目錄下,這個跟apache一致
cp /opt/cloudera/cm/lib/mysql-connector-java.jar /opt/cloudera/parcels/CDH/lib/hive/lib/

安裝完后,可以創建hive資料庫,要用hdfs超級管理員操作
export HADOOP_USER_NAME=hdfs ,hive
3.7 Spark的安裝與配置
1.首頁,添加服務,選中Spark
2.注意安裝完后,spark history需要手動重啟

4. 生成集群監控指標
上面所有的圖示支持拖拉,生成指標,如下,命令可以去cdh官網查詢,或者可以打開圖示查看命令格式,

5.集群優化,引數配置
可以進去不同組件,配置里,修改默認的引數,比如NodeManager的資源分配等,這些是不能使用默認值的,


轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/286938.html
標籤:其他
