文章目錄
- 摘要
- 1 總體介紹
- 1.1.系統介紹
- 1.2.組件說明
- 1.3.系統架構
- 2 詳細設計
- 2.1.部署規劃
- 2.2.主機資源和作業系統要求
- 2.3.網路要求
- 3 搭建虛擬環境
- 3.1 硬體要求
- 3.2 軟體
- 3.3 安裝 VMWare虛擬機安裝
- 3.4 CentOS安裝
- 4 虛擬環境配置
- 4.1 hostname配置
- 4.2 關閉selinux
- 4.3 配置yum倉庫
- 4.4 修改Linux系統引數
- 4.5 **修改系統mysql配置**
- 4.6 關閉防火墻(可選)
- 4.7 創建APP用戶
- **4.8 給APP用戶配置sudo**
- 4.9 增加虛擬記憶體
- 4.10 安裝依賴包
- **4.11 設定projects目錄**
- 4.12 **配置ssh無密登錄**
- 5 專案部署
- 5.1 系統檢查
- 5.2 獲取專案
- 5.3 組態檔修改和示例
- 5.3.1 初始化組態檔
- 5.3.2 證書制作配置(可選)(這一步我沒有做,官方給的有)
- 5.3.3 修改組態檔
- 5.4 部署
- 5.5 問題定位
- 6 測驗
- 6.1 Toy_example部署驗證
- 6.1.1 單邊測驗
- 6.1.2 雙邊測驗
- 6.2 最小化測驗
- **6.2.1 上傳預設資料:**
- **6.2.2 快速模式:**
- **6.2.3 正常模式**:
- 6.3 Fateboard testing
- 7 系統運維
- 7.1 服務管理
- 7.1.1 服務管理
- 7.2 查看行程和埠
- 7.2.1 查看行程
- 7.2.2 查看行程埠
- 7.2.3 服務日志
- 7.2.4 檔案目錄說明
- 8. 卸載
- 8.1 概述
- 8.2 執行卸載
摘要
這篇文章是我對Fate cluster部署方式的總結,從零開始,一步一步實作Fate cluster的部署,如果有不對的地方請給我留言,PDF版本我上傳到CSDN了,有需要的可以下載,地址:
https://download.csdn.net/download/hhhhhhhhhhwwwwwwwwww/21314477
1 總體介紹
1.1.系統介紹
1)FATE
FATE (Federated AI Technology Enabler) 是微眾銀行AI部門發起的開源專案,
提供了一種基于資料隱私保護的安全計算框架,為機器學習、深度學習、遷移學習演算法提供強有力的安全計算支持,
安全底層支持同態加密、秘密共享、哈希散列等多種多方安全計算機制,演算法層支持多方安全計算模式下的邏輯回歸、Boosting、聯邦遷移學習等,
2)EggRoll
Eggroll 是一個適用于機器學習和深度學習的大規模分布式架構,包括了計算、存盤和通信等模塊,為FATE框架提供底層支撐,
3)FATE官方網站:https://fate.fedai.org/
本文將介紹使用ansible部署腳本進行FATE集群的部署,
1.2.組件說明
| 軟體產品 | 組件 | 埠 | 說明 |
|---|---|---|---|
| fate | fate_flow | 9360;9380 | 聯合學習任務流水線管理模塊 |
| fate | fateboard | 8080 | 聯合學習程序可視化模塊 |
| fate | FederatedML | 演算法代碼包 | |
| eggroll | clustermanager | 4670 | cluster manager管理集群 |
| eggroll | nodemanger | 4671 | node manager管理每臺機器資源 |
| eggroll | rollsite | 9370 | 跨站點或者跨party通訊組件 |
| mysql | mysql | 3306 | 資料存盤,clustermanager和fateflow依賴 |
1.3.系統架構

2 詳細設計
2.1.部署規劃
本示例是每端只有一臺主機,每端可以多臺主機,目前只支持nodemanager多節點部署,其他組件都是單節點,
| role | partyid | IP地址 | 作業系統 | 主機配置 | 存盤 | 部署模塊 |
|---|---|---|---|---|---|---|
| host | 10000 | 192.168.65.161 (有外網) | CentOS 7.2/Ubuntu 18.04 | 8C16G | 500G | fate_flow,fateboard,clustermanager,nodemanger,rollsite,mysql |
| guest | 9999 | 192.168.65.162 | CentOS 7.2/Ubuntu 18.04 | 8C16G | 500G | fate_flow,fateboard,clustermanager,nodemanger,rollsite,mysql |
2.2.主機資源和作業系統要求
| 類別 | 說明 |
|---|---|
| 主機配置 | 不低于8C16G500G,千兆網卡 |
| 作業系統 | CentOS linux 7.2及以上同時低于8/Ubuntu 18.04 |
| 依賴包 | 需要安裝如下依賴包: #centos gcc gcc-c++ make openssl-devel gmp-devel mpfr-devel libmpc-devel libaio numactl autoconf automake libtool libffi-devel ansible #ubuntu gcc g++ make openssl ansible libgmp-dev libmpfr-dev libmpc-dev libaio1 libaio-dev numactl autoconf automake libtool libffi-dev cd /usr/lib/x86_64-linux-gnu if [ ! -f “libssl.so.10” ];then ln -s libssl.so.1.0.0 libssl.so.10 ln -s libcrypto.so.1.0.0 libcrypto.so.10 fi |
| 用戶 | 用戶:app,屬主:apps(app用戶需可以sudo su root而無需密碼) |
| 檔案系統 | 1、資料盤掛載在/data目錄下, 2、創建/data/projects目錄,目錄屬主為:app:apps, 3、根目錄空閑空間不低于20G, |
| 虛擬記憶體 | 不低于128G |
| 系統引數 | 1、檔案句柄數不低于65535, 2、用戶行程數不低于65535, |
2.3.網路要求
| 類別 | 說明 |
|---|---|
| 防火墻策略 | 1、如果通過公網互通,兩端rollsite所部署主機需互相開通出和入防火墻策略, 2、防火墻設備需要支持長連接和需要對連接數無限制, |
| 外網帶寬 | 入通過公網互通,公網帶寬不低于20Mb |
| 負載均衡設備 | 1、如果出或入口有負載均衡設備則此設備需要支持grpc或者支持透明轉發, 2、fate為雙向通訊,需支持出和入方向主動請求, |
3 搭建虛擬環境
3.1 硬體要求
準備一臺至少12核CPU、24G記憶體、1T硬碟(最好SSD)和一個不低于10MB能上互聯網的網路,(最好能滿足上面的條件,要不然即使安裝的沒有問題,也可能跑不起來),
3.2 軟體
Xshell 、VMware Workstation 16 Pro,這兩款軟體的下載地址: https://pan.baidu.com/s/1j6j4n4TMlxxvtSFb-r_G5A 提取碼:52bv
Centos,下載地址:http://vault.centos.org/7.5.1804/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso
3.3 安裝 VMWare虛擬機安裝
從我給的網盤地址將VMWare軟體下載下來安裝即可,自行激活,如果有問題問度娘,
安裝完成后,點擊“編輯→虛擬網路編輯器”,如下圖:

查找網關

選擇VMnet8,然后點擊NAT設定,

在這里找到網關:192.168.65.2 記住這個網關,后面配置網路的時候要用到,
3.4 CentOS安裝
打開vwmare軟體,點擊創建新的虛擬機

選擇“典型(推薦)“,然后選擇”下一步“,

選擇“下一步“

如下圖,選擇“Linux“、”Centos7 64位“、然后選擇”下一步“

給虛擬機命名,第一臺命名為“fate01”,第二臺虛擬機命名為“fate02”,
然后選擇安裝路徑,安裝在空間較大的盤符,然后選擇“下一步”

最大磁盤大小設定為“500G”,選擇“將磁盤拆分成多個檔案”,然后選擇“下一步”.

選擇“自定義硬體”,如下圖:

然后設定記憶體為8G,處理器數量設定為1,每個處理器的內核數量設定為4,在“新CD/DCD(IDE)”選項中設定“CentOS-7-x86_64-DVD-1804.iso”檔案的路徑,完成上面的設定后選擇關閉,



然后我們就能看到虛擬機的配置,如果沒有問題,則選擇”完成”,等待虛擬機安裝結束,

出現下圖則說明安裝完成,選擇“開啟此虛擬機”,你就可以看到Centos7的安裝頁面,

選擇“Install CentOS 7”,然后按“Enter”鍵,

出下面如下畫面,選擇“中文”,在右側選擇“簡體中文(中國)”,然后選擇“繼續”,

選擇“鍵盤”,點擊“+”,選擇“英語(英國)”,然后點擊“添加”,再選擇“完成”,



接下來,點擊“軟體選擇”,在左側選擇“最小安裝”,在右側選擇“除錯工具”和”系統管理工具”,然后選擇“完成”,


設定“安裝位置”,然后選擇“我要配置磁區”,選擇“完成”,


然后出現如下畫面,選擇“點這里自動創建他們”

選擇“home”,設定期望容量為100GiB,然后點擊“+”

添加新的掛載點“/data”,容量為“341.12GiB”,然后點擊“添加掛載點”,

然后點擊“完成”,選擇“接受更改”


點擊“網路和主機名”

以太網,選擇“打開”,設定主機名為“fate01”,點擊“應用”,然后選擇“配置”,

點擊“IPv4設定”,方法設定為“手動”,點擊“Add”,增加IP地址,如下圖,ip地址為“192.168.65.161”,另一臺的ip地址設定為192.168.65.162,子網掩碼和網關相同都,分別設定為“24”和“192.168.65.2”(這個網關我們在前面提到過),DNS服務器設定為“192.168.65.2”,勾選“需要IPv4地址完成這個連接”,

點擊”IPv6設定”,方法選擇“忽略”,然后選擇“保存”,

然后觀察IP設定是否正確,如果沒有問題則選擇“完成”,

完成上面的設定后,選擇“開始安裝”,然后設定root密碼,

將密碼設定為“123456”,然后點擊“完成”,等待安裝完成,

安裝完成后,點擊“重啟”,

重啟之后,出現如下畫面,輸入“root”,密碼“123456”登錄root賬戶,

另一臺虛擬機的安裝步驟和第一臺一樣只是名字是“fate02”,IP地址為“192.168.65.162”,
安裝完成后,安裝Xshell,用Xshell登錄,個人認為用xshell執行命令方便一些,
4 虛擬環境配置
4.1 hostname配置
1)修改主機名
在192.168.65.161 root用戶下執行:
hostnamectl set-hostname VM_0_1_centos
在192.168.65.162 root用戶下執行:
hostnamectl set-hostname VM_0_2_centos
2)加入主機映射
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行:
vi /etc/hosts
添加內容
192.168.0.1 VM_0_1_centos
192.168.0.2 VM_0_2_centos

添加完成后,執行"su root"命令重新登錄,
4.2 關閉selinux
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行:
確認是否已安裝selinux
centos系統執行:rpm -qa | grep selinux
ubuntu系統執行:apt list --installed | grep selinux
如果已安裝了selinux就執行:setenforce 0

4.3 配置yum倉庫
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行:
1)備份CentOS-Base.repo檔案
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak

2)修改yum倉庫配置
vi /etc/yum.repos.d/CentOS-Base.repo
添加內容:
# CentOS-Base.repo
#
# The mirror system uses the connecting IP address of the client and the
# update status of each mirror to pick mirrors that are updated to and
# geographically close to the client. You should use this for CentOS updates
# unless you are manually picking other mirrors.
#
# If the mirrorlist= does not work for you, as a fall back you can try the
# remarked out baseurl= line instead.
#
#
[base]
name=CentOS-$releasever - Base
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/os/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#released updates
[updates]
name=CentOS-$releasever - Updates
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/updates/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#additional packages that may be useful
[extras]
name=CentOS-$releasever - Extras
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/extras/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=extras
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
#additional packages that extend functionality of existing packages
[centosplus]
name=CentOS-$releasever - Plus
baseurl=https://mirrors.tuna.tsinghua.edu.cn/centos/$releasever/centosplus/$basearch/
#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=centosplus
gpgcheck=1
enabled=0
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7
3)使新倉庫配置生效
yum clean all
yum makecache

4.4 修改Linux系統引數
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行:
1)清理20-nproc.conf檔案
cd /etc/security/limits.d
ls -lrt 20-nproc.conf
存在則:
mv 20-nproc.conf 20-nproc.conf_bak

2)修改limits.conf檔案
vi /etc/security/limits.conf
添加下面的資訊:
* soft nofile 65535
* hard nofile 65535
* soft nproc 65535
* hard nproc 65535

重新登陸,ulimit -a查看是否生效

4.5 修改系統mysql配置
mv /etc/my.cnf /etc/my.cnf_bak

4.6 關閉防火墻(可選)
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行
systemctl disable firewalld.service
systemctl stop firewalld.service
systemctl status firewalld.service

4.7 創建APP用戶
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行
groupadd -g 6000 apps
useradd -s /bin/bash -g apps -d /home/app app
passwd app
app初識密碼設定為123456

4.8 給APP用戶配置sudo
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行
vi /etc/sudoers.d/app
添加內容:
app ALL=(ALL) ALL
app ALL=(ALL) NOPASSWD: ALL
Defaults !env_reset

給檔案sudoers檔案增加寫入權限
chmod u+w /etc/sudoers
編輯 sudoers檔案
vi /etc/sudoers
在root ALL=(ALL) ALL下面追加:
root ALL=(ALL) NOPASSWD: ALL
app ALL=(ALL) ALL
app ALL=(ALL) NOPASSWD: ALL
給檔案sudoers檔案洗掉寫入權限
chmod u-w /etc/sudoers

4.9 增加虛擬記憶體
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行
生產環境使用時,因記憶體計算需要增加128G虛擬記憶體,執行前需檢查存盤空間是否足夠,
手工創建,root用戶執行:
cd /data
dd if=/dev/zero of=/data/swapfile128G bs=1024 count=134217728
mkswap /data/swapfile128G
swapon /data/swapfile128G
cat /proc/swaps
echo '/data/swapfile128G swap swap defaults 0 0' >> /etc/fstab

4.10 安裝依賴包
目標服務器(192.168.65.161 192.168.65.162)root用戶執行
#安裝基礎依賴包
#centos
yum install -y gcc gcc-c++ make openssl-devel gmp-devel mpfr-devel libmpc-devel libaio numactl autoconf automake
#ubuntu
apt-get install -y gcc g++ make openssl libgmp-dev libmpfr-dev libmpc-dev libaio1 libaio-dev numactl autoconf automake libtool libffi-dev
#如果有報錯,需要解決依賴安裝源問題,
#安裝ansible和行程管理依賴包
#centos
yum install -y ansible
#ubuntu
apt-get install -y ansible
#如果安裝有報錯同時服務器有外網,沒有外網的需要解決yum源不全的問題,執行:
#centos
yum install -y epel-release
#增加一個更全面的第三方的源,然后再重新安裝ansible
4.11 設定projects目錄
在目標服務器(192.168.65.161 192.168.65.162)root用戶下執行
cd /data
mkdir projects
chown app:apps projects
ls -l
chown -R app /data

4.12 配置ssh無密登錄
1)配置自身免密
在目標服務器(192.168.65.161 192.168.65.162)app用戶下執行
在虛擬機VM_0_1_centos 上以app用戶身份在home目錄下執行
su app
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >>/home/app/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

使用ssh 192.168.65.161命令測驗,第一次需要確認yes ,之后應可以不需密碼登錄為成功,

在VM_0_2_centos 上執行相同步驟配置VM_0_2_centos 的自身免密登錄,
2)配置VM_0_1_centos 免密登錄VM_0_2_centos
在VM_0_1_centos app用戶下執行
scp ~/.ssh/authorized_keys app@192.168.65.162:/home/app/.ssh
輸入VM_0_2_centos的app密碼
在VM_0_2_centos app用戶下執行
cat ~/.ssh/id_rsa.pub >> /home/app/.ssh/authorized_keys
scp ~/.ssh/authorized_keys app@192.168.65.161:/home/app/.ssh
輸入VM_0_1_centos 的app密碼完成檔案傳輸,
在VM_0_1_centos app用戶下執行
ssh 192.168.65.162
應不需要密碼即可登錄fate02機,到這里我們已經完成環境的配置了,
5 專案部署
5.1 系統檢查
在目標服務器(192.168.65.161 192.168.65.162)app用戶下執行
#虛擬記憶體,size不低于128G,如不滿足需參考3.6章節重新設定
cat /proc/swaps
Filename Type Size Used Priority
/data/swapfile128G file 134217724 384 -1
#檔案句柄數,不低于65535,如不滿足需參考3.3章節重新設定
ulimit -n
65535
#用戶行程數,不低于64000,如不滿足需參考3.3章節重新設定
ulimit -u
65535
#檢查行程是否有fate行程殘留,如有則需要停止服務
ps -ef| grep -i fate
netstat -tlnp | grep 4670
netstat -tlnp | grep 4671
netstat -tlnp | grep 9370
netstat -tlnp | grep 9371
netstat -tlnp | grep 9360
netstat -tlnp | grep 8080
netstat -tlnp | grep 3306
#檢查部署目錄,如有需先進行mv
ls -ld /data/projects/fate
ls -ld /data/projects/data
ls -ld /data/projects/snmp
#檢查supervisord組態檔,如有則需要mv或者洗掉掉
ls -lrt /data/projects/common/supervisord/supervisord.d/fate-*.conf
5.2 獲取專案
在目標服務器(192.168.65.161 具備外網環境)app用戶下執行
進入執行節點的/data/projects/目錄,執行:
#注意:URL鏈接有換行,拷貝的時候注意整理成一行
cd /data/projects/
wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.com/ansible_nfate_1.6.0_release-1.0.0.tar.gz
tar xzf ansible_nfate_1.6.0_release-1.0.0.tar.gz
5.3 組態檔修改和示例
5.3.1 初始化組態檔
cd ansible-nfate-*
#init.sh檔案不需要修改,主要是輔助生成一些組態檔
#生產環境加prod引數執行
sh ./tools/init.sh prod
>sh ./tools/init.sh prod
clean old config
init environments/prod
init var_files/prod
init project_prod.yml
5.3.2 證書制作配置(可選)(這一步我沒有做,官方給的有)
1)證書制作
vi /data/projects/ansible-nfate-1.*/tools/make.sh
#1、自定義安全證書需同時部署兩端,只部署一端需要手工處理證書,手工處理部分暫不介紹,
#2、安全證書支持如下部署方式:
1)部署host+guest,host和guest使用安全證書通訊,
2)部署host+exchange+guest,其中host和exchange使用安全證書通訊,guest和exchange普通通訊,
3)部署host+exchange+guest,其中guest和exchange使用安全證書通訊,host和exchange普通通訊,
guest_host="192.168.65.161" ---根據實際IP修改
host_host="192.168.65.162" ---根據實際IP修改
exchange_host="192.168.65.160" ---根據實際IP修改,本示例不部署無需修改
2)執行腳本制作證書
cd tools
sh ./make.sh
在keys/host,guest目錄下會產生證書檔案,
3)拷貝證書到部署目錄
sh cp-keys.sh host guest
證書檔案會拷貝到roles/eggroll/files/keys目錄
特別說明:
1、目前腳本部署只支持2方設定證書認證,(host&guest、host&exchange、guest&exchange)
5.3.3 修改組態檔
1)修改初始化主機IP
vi /data/projects/ansible-nfate-1.*/environments/prod/hosts
#ansible格式組態檔
[fate] ---把需要部署的主機IP填入fate組
192.168.65.161
192.168.65.162
[deploy_check] ---把執行ansible的本機IP填入deploy_check組
192.168.65.161
[all:vars]
ansible_connection=ssh
ansible_ssh_port=22 ---根據實際情況修改
ansible_ssh_user=app
#ansible_ssh_pass=test ---如果未做免密登陸需提供密碼
##method: sudo or su
ansible_become_method=sudo
ansible_become_user=root
ansible_become_pass= ---各個主機未做免密sudo需填寫root密碼
2)修改host方引數
注意:默認是不啟用安全證書的配置,如果啟用安全證書通訊需把server_secure,client_secure,is_secure設定為true,以及is_secure對應的port設定為9371,
#不部署host方則不用修改
#除了nodemanger可以設定多個IP外,其他都是單個IP
vi /data/projects/ansible-nfate-1.*/var_files/prod/fate_host
host:
partyid: 10000 ---host端partyid,根據實際規劃修改
rollsite:
enable: True
ips: ---IP串列,目前rollsite只支持部署到一臺服務器
- 192.168.65.161
port: 9370 ---grpc埠
secure_port: 9371 ---grpcs埠
pool_size: 600 ---執行緒池大小,推薦設為:min(1000 + len(party_ids) * 200, 5000)
max_memory: ---rollsite行程JVM記憶體引數,默認是物理記憶體的1/4,可根據實際情況設定,如12G,如果是rollsite專用的機器,配置成物理記憶體的75%,
server_secure: False ---作為服務端,開啟安全證書驗證,不使用安全證書默認即可
client_secure: False ---作為客戶端,使用證書發起安全請求,不使用安全證書默認即可
polling: ---是否使用單向模式,本示例不支持,默認false即可
enable: False
default_rules: ---本party指向exchange或者其他party的IP、埠路由配置
- name: default
ip: 192.168.65.162 ---exchange或者對端party rollsite IP
port: 9370 ---exchange或者對端party rollsite 埠,一般默認9370,即無安全證書部署;如需開啟安全證書通信,應設定為9371;
is_secure: False ---是否使用安全認證通訊;需要結合server_secure或者client_secure使用,當三者都為true時,表示和下一跳rollsite使用安全認證通訊,同時上一個引數port需設定為9371;不使用安全證書默認即可,
rules: ---本party自身路由配置
- name: default
ip: 192.168.65.161
port: 9370
- name: fateflow
ip: 192.168.65.161
port: 9360
clustermanager:
enable: True
ips:
- 192.168.65.161 ---只支持部署一臺主機
port: 4670
cores_per_node: 16 ---nodemanager節點cpu核數,多個nodemanager節點按照CPU核數最小的設定
nodemanager:
enable: True
ips: ---支持部署多臺
- 192.168.65.161
port: 4671
eggroll:
dbname: "eggroll_meta"
egg: 2
fate_flow:
enable: True
ips:
- 192.168.65.161 ---只支持部署一臺主機
grpcPort: 9360
httpPort: 9380
dbname: "fate_flow"
proxy: rollsite ---fate_flow通訊服務的前置代理是rollsite還是nginx,默認即可
fateboard:
enable: True
ips:
- 192.168.65.161 ---只支持部署一臺主機
port: 8080
dbname: "fate_flow"
mysql:
enable: True
ips:
- 192.168.0.1 ---只支持部署一臺主機
port: 3306
dbuser: "fate"
dbpasswd: "fate_deV2999"
zk:
enable: False
lists:
- ip: 192.168.65.161
port: 2181
use_acl: false
user: "fate"
passwd: "fate"
servings:
ip: 192.168.65.161
port: 8000
將默認的192.168.0.1替換為192.168.65.161,將192.168.0.2替換為192.168.65.162 其他的不要改動!
4)修改guest引數
注意:默認是不啟用安全證書的配置,如果啟用安全證書通訊需把server_secure,client_secure,is_secure設定為true,以及is_secure對應的port設定為9371,
#不部署guest方則不用修改
#除了nodemanger可以設定多個IP外,其他都是單個IP
vi /data/projects/ansible-nfate-1.*/var_files/prod/fate_guest
guest:
partyid: 9999 ---根據實際規劃修改
rollsite:
enable: True
ips: ---IP串列,目前rollsite只支持部署到一臺服務器
- 192.168.65.162
port: 9370 ---grpc埠
secure_port: 9371 ---grpcs埠
pool_size: 600 ---執行緒池大小,推薦設為:min(1000 + len(party_ids) * 200, 5000)
max_memory: ---rollsite行程JVM記憶體引數,默認是物理記憶體的1/4,可根據實際情況設定,如12G,如果是rollsite專用的機器,配置成物理記憶體的75%,
server_secure: False ---作為服務端,開啟安全證書驗證,不使用安全證書默認即可
client_secure: False ---作為客戶端,使用證書發起安全請求,不使用安全證書默認即可
polling: ---是否使用單向模式,本示例不支持,默認false即可
enable: False
default_rules: ---本party指向exchange或者其他party的IP、埠路由配置
- name: default
ip: 192.168.65.161 ---exchange或者對端party rollsite IP
port: 9370 ---exchange或者對端party rollsite 埠,一般默認9370,即無安全證書部署;如需開啟安全證書通信,應設定為9371;
is_secure: False ---server_secure或者client_secure為true,指向的下一跳rollsite也開啟了安全認證,此引數需要設定為true,上一個引數port需設定為9371,不使用安全證書默認即可
rules: ---本party自身路由配置
- name: default
ip: 192.168.65.162
port: 9370
- name: fateflow
ip: 192.168.65.162
port: 9360
clustermanager:
enable: True
ips: ---只支持部署一臺主機
- 192.168.65.162
port: 4670
cores_per_node: 16 ---nodemanager節點cpu核數,多個nodemanager節點按照CPU核數最小的設定
nodemanager:
enable: True
ips: ---支持部署多臺主機
- 192.168.65.162
port: 4671
eggroll:
dbname: "eggroll_meta"
egg: 2
fate_flow:
enable: True
ips: ---只支持部署一臺主機
- 192.168.65.162
grpcPort: 9360
httpPort: 9380
dbname: "fate_flow"
proxy: rollsite ---fate_flow通訊服務的前置代理是rollsite還是nginx,默認即可
fateboard:
enable: True
ips: ---只支持部署一臺主機
- 192.168.65.162
port: 8080
dbname: "fate_flow"
mysql:
enable: True
ips: ---只支持部署一臺主機
- 192.168.65.162
port: 3306
dbuser: "fate"
dbpasswd: "fate_deV2999"
zk:
enable: False
lists:
- ip: 192.168.65.162
port: 2181
use_acl: false
user: "fate"
passwd: "fate"
servings:
ip: 192.168.65.162
port: 8000
5)修改exchange引數(不用exchange,這里不用配置)
注意:默認是不啟用安全證書的配置,如果啟用安全證書通訊需把server_secure,client_secure,is_secure設定為true,以及is_secure對應的port設定為9371,
#不部署exchange則不需要修改
vi /data/projects/ansible-nfate-1.*/var_files/prod/fate_exchange
exchange:
enable: False --部署exchange需修改為True
rollsite:
ips:
- 192.168.0.88
port: 9370
secure_port: 9371 ---grpcs埠
pool_size: 600,推薦設為:min(1000 + len(party_ids) * 200, 5000)
max_memory: ---rollsite行程JVM記憶體引數,默認是物理記憶體的1/4,可根據實際情況設定,如12G,如果是rollsite專用的機器,配置成物理記憶體的75%,
server_secure: False ---作為服務端,開啟安全證書驗證,不使用安全證書默認即可
client_secure: False ---作為客戶端,使用證書發起安全請求,不使用安全證書默認即可
polling: ---是否使用單向模式,本示例不支持,默認false即可
enable: False
id: 10000
partys: ---指向各party的路由配置
- id: 10000
rules:
- name: default
ip: 192.168.0.1
port: 9370 ---對應party rollsite 埠,一般默認9370,即無安全證書通訊;如需開啟安全證書通信,應設定為9371;
is_secure: False ---server_secure或者client_secure為true,指向的下一跳rollsite也開啟了安全認證,此引數需要設定為true,上一個引數port需設定為9371,不使用安全證書默認即可
- id: 9999
rules:
- name: default
ip: 192.168.0.2
port: 9370 ---對應party rollsite 埠,一般默認9370,即無安全證書通訊;如需開啟安全證書通信,應設定為9371;
is_secure: False ---server_secure或者client_secure為true,指向的下一跳rollsite也開啟了安全認證,此引數需要設定為true,上一個引數port需設定為9371,不使用安全證書默認即可
5.4 部署
按照上述配置含義修改對應的配置項后,然后執行部署腳本:
#相對ansible-nfate-*目錄
cd /data/projects/ansible-nfate-1.*
#生產環境加prod引數執行
nohup sh ./boot.sh prod -D > logs/boot.log 2>&1 &
在這里需要等待一段時間,大約十幾分鐘,部署日志輸出在logs目錄下,實時查看是否有報錯:
#相對ansible-nfate-*目錄
cd logs
tail -f ansible.log (實時查看部署情況,如果沒有這個日志檔案,需要查看是否有安裝ansible)
檢查項不通過提示串列:
1、"Warning: now swap is 0, need to turn up"
---沒有設定虛擬記憶體,請參考前面章節進行設定,不低于128G,
2、"Warning: key fate process exists, please has a check and clean"
---環境沒有清理干凈,需要把以前部署的fate行程停掉,
3、"Warning: these ports: 4670 4671 9360 9370 9380 have been used"
---環境沒有清理干凈,需要把以前部署的fate行程停掉,
4、"Warning: if reinstall mysql, please stop mysql, and rename /etc/my.cnf"
---mysql沒有停止,需要停止,如果有/etc/my.cnf檔案,需要mv改名,
5、"Waring: please rename /data/projects/fate"
---fate目錄存在,需要先mv,
6、"Warning: please rename /data/projects/data/fate/mysql"
---/data/projects/data存在,需要mv,
7、"Warning: supervisor_fate_conf exists, please remove ls /data/projects/common/supervisord/supervisord.d/fate-*.conf"
---/data/projects/common目錄存在,需要mv,
fateflow部署完重啟:
#因為fate_flow依賴的組件比較多,可能啟動會有例外,處理如下:
netstat -tlnp | grep 9360
如果沒有埠則重起fateflow:
sh service.sh stop fate-fateflow
sh service.sh start fate-fateflow
5.5 問題定位
1)eggroll日志
/data/logs/fate/eggroll/bootstrap.clustermanager.err
/data/logs/fate/eggroll/logs/eggroll/clustermanager.jvm.err.log
/data/logs/fate/eggroll/logs/eggroll/nodemanager.jvm.err.log
/data/logs/fate/eggroll/logs/eggroll/bootstrap.nodemanager.err
/data/logs/fate/eggroll/logs/eggroll/bootstrap.rollsite.err
/data/logs/fate/eggroll/logs/eggroll/rollsite.jvm.err.log
2)fateflow日志
/data/logs/fate/python/logs/fate_flow/
3)fateboard日志
/data/logs/fate/fate/fateboard/logs
6 測驗
6.1 Toy_example部署驗證
此測驗您需要設定3個引數:guest_partyid,host_partyid,work_mode,
6.1.1 單邊測驗
1)192.16865.161上執行,guest_partyid和host_partyid都設為10000:
source /data/projects/fate/bin/init_env.sh
cd /data/projects/fate/examples/toy_example/
python run_toy_example.py 10000 10000 1
注意:如果超過1分鐘沒輸出,表示部署有問題,需要看日志進行問題定位,
類似如下結果表示成功:
“2020-04-28 18:26:20,789 - secure_add_guest.py[line:126] - INFO: success to calculate secure_sum, it is 1999.9999999999998”
提示:如出現max cores per job is 1, please modify job parameters報錯提示,需要修改當前目錄下檔案toy_example_conf.json中引數task_cores為1.
2)192.168.65.162 上執行,guest_partyid和host_partyid都設為9999:
source /data/projects/fate/bin/init_env.sh
cd /data/projects/fate/examples/toy_example/
python run_toy_example.py 9999 9999 1
注意:如果超過1分鐘沒輸出,表示部署有問題,需要看日志進行問題定位,
類似如下結果表示成功:
“2020-04-28 18:26:20,789 - secure_add_guest.py[line:126] - INFO: success to calculate secure_sum, it is 1999.9999999999998”
6.1.2 雙邊測驗
選定9999為guest方,在192.168.65.162上執行:
source /data/projects/fate/bin/init_env.sh
cd /data/projects/fate/examples/toy_example/
python run_toy_example.py 9999 10000 1
類似如下結果表示成功:
“2020-04-28 18:26:20,789 - secure_add_guest.py[line:126] - INFO: success to calculate secure_sum, it is 1999.9999999999998”
6.2 最小化測驗
6.2.1 上傳預設資料:
分別在192.168.65.161和192.168.65.162上執行:
source /data/projects/fate/bin/init_env.sh
cd /data/projects/fate/examples/scripts/
python upload_default_data.py -m 1
更多細節資訊,敬請參考腳本README
6.2.2 快速模式:
請確保guest和host兩方均已分別通過給定腳本上傳了預設資料,
快速模式下,最小化測驗腳本將使用一個相對較小的資料集,即包含了569條資料的breast資料集,
選定9999為guest方,在192.168.65.162上執行:
source /data/projects/fate/bin/init_env.sh
cd /data/projects/fate/examples/min_test_task/
#單邊測驗
python run_task.py -m 1 -gid 9999 -hid 9999 -aid 9999 -f fast
#兩邊測驗
python run_task.py -m 1 -gid 9999 -hid 10000 -aid 10000 -f fast
其他一些可能有用的引數包括:
- -f: 使用的檔案型別. “fast” 代表 breast資料集, “normal” 代表 default credit 資料集.
- –add_sbt: 如果被設定為1, 將在運行完lr以后,啟動secureboost任務,設定為0則不啟動secureboost任務,不設定此引數系統默認為1,
若數分鐘后在結果中顯示了“success”字樣則表明該操作已經運行成功了,若出現“FAILED”或者程式卡住,則意味著測驗失敗,
6.2.3 正常模式:
只需在命令中將“fast”替換為“normal”,其余部分與快速模式相同,
6.3 Fateboard testing
Fateboard是一項Web服務,如果成功啟動了fateboard服務,則可以通過訪問 http://192.168.65.161:8080 和 http://192.168.65.162:8080 來查看任務資訊,如果本地辦公電腦和服務器之間有防火墻則需開通,
7 系統運維
7.1 服務管理
在目標服務器(192.168.0.1 192.168.0.2)app用戶下執行
7.1.1 服務管理
cd /data/projects/common/supervisord
啟動/關閉/重啟/查看所有:
#注意:因mysql是基礎組件,啟動較慢,建議重啟操作是先停止所有組件,然后先啟動mysql,再啟動其他組件
sh service.sh start/stop/restart/status all
#說明:因為fateflow依賴的組件比較多,重啟所有的操作可能會導致fateflow啟動例外,處理如下:
netstat -tlnp | grep 9360
如果沒有埠則重起fateflow:
sh service.sh stop fate-fateflow
sh service.sh start fate-fateflow
啟動/關閉/重啟/查看單個模塊(可選:clustermanager,nodemanager,rollsite,fateflow,fateboard,mysql):
sh service.sh start/stop/restart/status fate-clustermanager
7.2 查看行程和埠
在目標服務器(192.168.0.1 192.168.0.2 )app用戶下執行
7.2.1 查看行程
#根據部署規劃查看行程是否啟動
ps -ef | grep -i clustermanager
ps -ef | grep -i nodemanager
ps -ef | grep -i rollsite
ps -ef | grep -i fate_flow_server.py
ps -ef | grep -i fateboard
7.2.2 查看行程埠
#根據部署規劃查看行程埠是否存在
#clustermanager
netstat -tlnp | grep 4670
#nodemanager
netstat -tlnp | grep 4671
#rollsite
netstat -tlnp | grep 9370
#fate_flow_server
netstat -tlnp | grep 9360
#fateboard
netstat -tlnp | grep 8080
7.2.3 服務日志
| 服務 | 日志路徑 |
|---|---|
| eggroll | /data/logs/fate/eggroll/logs |
| fate_flow&任務日志(fateflow節點) | /data/logs/fate/python/logs |
| fateboard | /data/logs/fate/fateboard/logs |
| mysql | /data/logs/fate/mysql/ |
7.2.4 檔案目錄說明
| 檔案路徑 | 說明 |
|---|---|
| /data/projects/fate | 軟體部署路徑 |
| /data/projects/data | mysql資料存放路徑 |
| /data/logs | 日志路徑 |
| /data/projects/common/supervisord | 行程管理工具supervisor安裝路徑 |
8. 卸載
8.1 概述
支持所有服務服務的卸載以及單個服務的卸載,
8.2 執行卸載
cd /data/projects/ansible-nfate-1.*
sh ./uninstall.sh prod all
#卸載命令說明
sh ./uninstall.sh $arg1 $arg2
- $arg1引數同4.4.1步驟init執行的引數,為test|prod,
- $arg2引數為選擇的服務,可選引數為(all|mysql|eggroll|fate_flow|fateboard),all代表卸載所有服務,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/295291.html
標籤:其他
