Clickhouse Docker集群部署-有解無憂

寫在前面

　　抽空來更新一下大資料的玩意兒了，起初架構選型的時候有考慮Hadoop那一套做數倉，但是Hadoop要求的服務器數量有點高，集群至少6臺或以上，所以選擇了Clickhouse（后面簡稱CH），CH做集群的話，3臺服務器起步就可以的，當然，不是硬性，取決于你的zookeeper做不做集群，其次CH性能更強大，對于量不是非常巨大的場景來說，單機已經足夠應對OLAP多種場景了，

　　進入正題，相關環境：

IP	服務器名	作業系統	服務	備注
172.192.13.10	server01	Ubuntu20.04	兩個Clickhouse實體、Zookeeper	CH實體1埠:tcp 9000, http 8123, 同步埠9009，MySQL 9004, 型別: 主分片1 CH實體2埠:tcp 9000, http 8124, 同步埠9010，MySQL 9005, 型別: server02的副本
172.192.13.11	server02	Ubuntu20.04	兩個Clickhouse實體、Zookeeper	CH實體3埠:tcp 9000, http 8123, 同步埠9009，MySQL 9004, 型別: 主分片2 CH實體4埠:tcp 9000, http 8124, 同步埠9010，MySQL 9005, 型別: server03的副本
172.192.13.12	server03	Ubuntu20.04	兩個Clickhouse實體、Zookeeper	CH實體5埠:tcp 9000, http 8123, 同步埠9009，MySQL 9004, 型別: 主分片3 CH實體6埠:tcp 9000, http 8124, 同步埠9010，MySQL 9005, 型別: server01的副本

　　在每一臺服務上都安裝docker，docker里面分別安裝有3個服務：ch-main，ch-sub，zookeeper_node，如圖所示：

　　細心的已經看到，PORTS沒有映射關系，這里是使用Docker host網路模式，模式簡單并且性能高，避免了很多容器間或跨服務器的通信問題，這個踩了很久，

環境部署

1. 服務器環境配置

　　在每一臺服務器上執行： vim /etc/hosts ，打開hosts之后新增配置：

172.192.13.10 server01
172.192.13.11 server02
172.192.13.12 server03

2.安裝docker

　　太簡單，略...

3.拉取clickhouse、zookeeper鏡像

　　太簡單，略...

Zookeeper集群部署

　　在每個服務器上你想存放的位置，新建一個檔案夾來存放zk的配置資訊，這里是 /usr/soft/zookeeper/ ，在每個服務器上依次運行以下啟動命令：

server01執行：

docker run -d -p 2181:2181 -p 2888:2888 -p 3888:3888 --name zookeeper_node --restart always \
-v /usr/soft/zookeeper/data:/data \
-v /usr/soft/zookeeper/datalog:/datalog \
-v /usr/soft/zookeeper/logs:/logs \
-v /usr/soft/zookeeper/conf:/conf \
--network host  \
-e ZOO_MY_ID=1  zookeeper

server02執行：

docker run -d -p 2181:2181 -p 2888:2888 -p 3888:3888 --name zookeeper_node --restart always \
-v /usr/soft/zookeeper/data:/data \
-v /usr/soft/zookeeper/datalog:/datalog \
-v /usr/soft/zookeeper/logs:/logs \
-v /usr/soft/zookeeper/conf:/conf \
--network host  \
-e ZOO_MY_ID=2  zookeeper

server03執行：

docker run -d -p 2181:2181 -p 2888:2888 -p 3888:3888 --name zookeeper_node --restart always \
-v /usr/soft/zookeeper/data:/data \
-v /usr/soft/zookeeper/datalog:/datalog \
-v /usr/soft/zookeeper/logs:/logs \
-v /usr/soft/zookeeper/conf:/conf \
--network host  \
-e ZOO_MY_ID=3  zookeeper

唯一的差別是： -e ZOO_MY_ID=* 而已，

　　其次，每臺服務上打開 /usr/soft/zookeeper/conf 路徑，找到 zoo.cfg 組態檔，修改為：

dataDir=/data
dataLogDir=/datalog
tickTime=2000
initLimit=5
syncLimit=2
clientPort=2181
autopurge.snapRetainCount=3
autopurge.purgeInterval=0
maxClientCnxns=60

server.1=172.192.13.10:2888:3888
server.2=172.192.13.11:2888:3888
server.3=172.192.13.12:2888:3888

然后進入其中一臺服務器，進入zk查看是否配置啟動成功：

docker exec -it zookeeper_node /bin/bash

./bin/zkServer.sh status

Clickhouse集群部署

1.臨時鏡像拷貝出配置　　

　　運行一個臨時容器，目的是為了將配置、資料、日志等資訊存盤到宿主機上：

docker run --rm -d --name=temp-ch yandex/clickhouse-server

　　拷貝容器內的檔案：

docker cp temp-ch:/etc/clickhouse-server/ /etc/

//https://www.cnblogs.com/EminemJK/p/15138536.html

2.修改config.xml配置

//同時兼容IPV6，一勞永逸
<listen_host>0.0.0.0</listen_host>

//設定時區
<timezone>Asia/Shanghai</timezone>

//洗掉原節點<remote_servers>的測驗資訊
<remote_servers incl="clickhouse_remote_servers" />

//新增，和上面的remote_servers 節點同級
<include_from>/etc/clickhouse-server/metrika.xml</include_from>

//新增，和上面的remote_servers 節點同級
<zookeeper incl="zookeeper-servers" optional="true" />

//新增，和上面的remote_servers 節點同級
<macros incl="macros" optional="true" />

其他 listen_host 僅保留一項即可，其他listen_host 則注釋掉，

3.拷貝到其他檔案夾

cp -rf /etc/clickhouse-server/ /usr/soft/clickhouse-server/main
cp -rf /etc/clickhouse-server/ /usr/soft/clickhouse-server/sub

main為主分片，sub為副本，

4.分發到其他服務器

#拷貝配置到server02上
scp /usr/soft/clickhouse-server/main/ server02:/usr/soft/clickhouse-server/main/
scp /usr/soft/clickhouse-server/sub/ server02:/usr/soft/clickhouse-server/sub/ 
#拷貝配置到server03上
scp /usr/soft/clickhouse-server/main/ server03:/usr/soft/clickhouse-server/main/
scp /usr/soft/clickhouse-server/sub/ server03:/usr/soft/clickhouse-server/sub/

SCP真香，

　　然后就可以洗掉掉臨時容器： docker rm -f temp-ch

配置集群

　　這里三臺服務器，每臺服務器起2個CH實體，環狀相互備份，達到高可用的目的，資源充裕的情況下，可以將副本Sub實體完全獨立出來，修改配置即可，這個又是Clickhouse的好處之一，橫向擴展非常方便，

1.修改配置

　　進入server1服務器， /usr/soft/clickhouse-server/sub/conf 修改config.xml檔案，主要修改內容：

原：
<http_port>8123</http_port>
<tcp_port>9000</tcp_port>
<mysql_port>9004</mysql_port>
<interserver_http_port>9009</interserver_http_port>

修改為：
<http_port>8124</http_port>
<tcp_port>9001</tcp_port>
<mysql_port>9005</mysql_port>
<interserver_http_port>9010</interserver_http_port>

　　修改的目的目的是為了和主分片 main的配置區分開來，埠不能同時應用于兩個程式，server02和server03如此修改或scp命令進行分發，

2.新增集群組態檔metrika.xml

server01，main主分片配置：

　　進入/usr/soft/clickhouse-server/main/conf 檔案夾內，新增metrika.xml檔案（檔案編碼：utf-8），

<yandex>
    <!-- CH集群配置,所有服務器都一樣 -->
    <clickhouse_remote_servers>
        <cluster_3s_1r>
            <!-- 資料分片1  -->
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>server01</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
                <replica>
                    <host>server03</host>
                    <port>9001</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
            <!-- 資料分片2  -->
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>server02</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
                <replica>
                    <host>server01</host>
                    <port>9001</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
            <!-- 資料分片3  -->
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>server03</host>
                    <port>9000</port>
                    <user>default</user>
                    <password></password>
                </replica>
                <replica>
                    <host>server02</host>
                    <port>9001</port>
                    <user>default</user>
                    <password></password>
                </replica>
            </shard>
        </cluster_3s_1r>
    </clickhouse_remote_servers>

    <!-- zookeeper_servers所有實體配置都一樣 -->
    <zookeeper-servers>
        <node index="1">
            <host>172.16.13.10</host>
            <port>2181</port>
        </node>
        <node index="2">
            <host>172.16.13.11</host>
            <port>2181</port>
        </node>
        <node index="3">
            <host>172.16.13.12</host>
            <port>2181</port>
        </node>
    </zookeeper-servers>

    <!-- marcos每個實體配置不一樣 -->
    <macros>
        <layer>01</layer>
        <shard>01</shard>
        <replica>cluster01-01-1</replica>
    </macros>

    <networks>
        <ip>::/0</ip>
    </networks>

    <!-- 資料壓縮演算法  -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>

　　<macros>節點每個服務器每個實體不同，其他節點配置一樣即可，下面僅列舉<macros>節點差異的配置，

server01，sub副本配置：

<macros>
    <layer>01</layer>
    <shard>02</shard>
    <replica>cluster01-02-2</replica>
</macros>

server02，main主分片配置：

<macros>
    <layer>01</layer>
    <shard>02</shard>
    <replica>cluster01-02-1</replica>
</macros>

server02，sub副本配置：

<macros>
    <layer>01</layer>
    <shard>03</shard>
    <replica>cluster01-03-2</replica>
</macros>

server03，main主分片配置：

<macros>
    <layer>01</layer>
    <shard>03</shard>
    <replica>cluster01-03-1</replica>
</macros>

server03，sub副本配置：

<macros>
    <layer>01</layer>
    <shard>02</shard>
    <replica>cluster01-01-2</replica>
</macros>

　　至此，已經完成全部配置，其他的比如密碼等配置，可以按需增加，

集群運行及測驗

　　在每一臺服務器上依次運行實體，zookeeper前面已經提前運行，沒有則需先運行zk集群，

運行main實體：

docker run -d --name=ch-main -p 8123:8123 -p 9000:9000 -p 9009:9009 --ulimit nofile=262144:262144 \
-v /usr/soft/clickhouse-server/main/data:/var/lib/clickhouse:rw \
-v /usr/soft/clickhouse-server/main/conf:/etc/clickhouse-server:rw \
-v /usr/soft/clickhouse-server/main/log:/var/log/clickhouse-server:rw \
--add-host server01:172.192.13.10 \
--add-host server02:172.192.13.11 \
--add-host server03:172.192.13.12 \
--hostname server01 \
--network host \
--restart=always \
 yandex/clickhouse-server

運行sub實體：

docker run -d --name=ch-sub -p 8124:8124 -p 9001:9001 -p 9010:9010 --ulimit nofile=262144:262144 \
-v /usr/soft/clickhouse-server/sub/data:/var/lib/clickhouse:rw \
-v /usr/soft/clickhouse-server/sub/conf:/etc/clickhouse-server:rw \
-v /usr/soft/clickhouse-server/sub/log:/var/log/clickhouse-server:rw \
--add-host server01:172.192.13.10 \
--add-host server02:172.192.13.11 \
--add-host server03:172.192.13.12 \
--hostname server01 \
--network host \
--restart=always \
 yandex/clickhouse-server

　　在每臺服務器執行命令，唯一不同的參數是hostname，因為我們前面已經設定了hostname來指定服務器，否則在執行 select * from system.clusters 查詢集群的時候，將 is_local 列全為0，則表示找不到本地服務，這是需要注意的地方，在每臺服務器的實體都啟動之后，這里使用正版DataGrip來打開：

　　在任一實體上新建一個查詢：

create table T_UserTest on cluster cluster_3s_1r
(
    ts  DateTime,
    uid String,
    biz String
)
    engine = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/T_UserTest', '{replica}')
        PARTITION BY toYYYYMMDD(ts)
        ORDER BY ts
        SETTINGS index_granularity = 8192;

　　cluster_3s_1r是前面配置的集群名稱，需一一對應上， /clickhouse/tables/ 是固定的前綴，相關語法可以查看官方檔案了，

　　重繪每個實體，即可看到全部實體中都有這張T_UserTest表，因為已經搭建zookeeper，很容易實作分布式DDL，

　　繼續新建Distributed分布式表：

CREATE TABLE T_UserTest_All ON CLUSTER cluster_3s_1r AS T_UserTest ENGINE = Distributed(cluster_3s_1r, default,  T_UserTest, rand())

每個主分片分別插入相關資訊：

--server01
insert into  T_UserTest values ('2021-08-16 17:00:00',1,1)
--server02
insert into  T_UserTest values ('2021-08-16 17:00:00',2,1)
--server03
insert into  T_UserTest values ('2021-08-16 17:00:00',3,1)

然后查詢分布式表 select * from T_UserTest_All ，

　　查詢對應的副本表或者關閉其中一臺服務器的docker實體，查詢也是不受影響，時間關系不在測驗，

最后

　　下班，

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/294107.html

標籤：大數據

上一篇：單表七千六百萬資料量（oracle）進行實時匯總，sql很慢客戶不能忍一下，該怎么辦？

下一篇：Clickhouse Docker集群部署