全網首發國行內邦學習框架研究-有解無憂

前言

受到近年來對隱私資料的安全性重視，各國頒布的相關的法律法規維護個人資料的安全性以及隱私性，企業與企業之間，甚至于部門與部門之間形成資料孤島的現象，一定程度地降低社會效率，在以上各種因素的影響下，聯邦學習應運而生，尤其是在2020年年初，國內乘著AI基礎設施演算法組件在社會各業紛紛落地的貧訓，聯邦學習框架也伴隨著進入了我們的視線，

接下主要對國內的聯邦學習框架從各個方向進行研究，為后面應用落地提供技術方案選擇，

微眾銀行FATE

FATE (Federated AI Technology Enabler) 是微眾銀行AI部門發起的開源專案，為聯邦學習生態系統提供了可靠的安全計算框架，FATE專案使用多方安全計算 (MPC) 以及同態加密 (HE) 技術構建底層安全計算協議，以此支持不同種類的機器學習的安全計算，包括邏輯回歸、基于樹的演算法、深度學習和遷移學習等，

開源地址：https://github.com/FederatedAI/

演算法支持

FATE目前支持三種型別聯邦學習演算法：橫向聯邦學習、縱向聯邦學習以及遷移學習，

Federatedml模塊包括許多常見機器學習演算法聯邦化實作，所有模塊均采用去耦的模塊化方法開發，以增強模塊的可擴展性，具體來說，主要提供：

聯邦統計: 包括隱私交集計算，并集計算，皮爾遜系數等，
聯邦特征工程：包括聯邦采樣，聯邦特征分箱，聯邦特征選擇等，
聯邦機器學習演算法：包括橫向和縱向的聯邦LR, GBDT， DNN，遷移學習等，
模型評估：提供對二分類，多分類，回歸評估，聯邦和單邊對比評估，
安全協議：提供了多種安全協議，以進行更安全的多方互動計算，

詳細演算法清單： https://github.com/FederatedAI/DOC-CHN/tree/master/Federatedml

Fate整體架構

Fate主要分成以FateFlow以及FederatedML為主體的離線訓練平臺，以及以FateServing為主體的在線預測平臺，

離線訓練平臺

架構

其中離線平臺的整體架構如下：

離線訓練平臺的架構通過上圖來看已經很明晰了，主要分成基礎設施層、計算存盤層、核心組件層、任務執行層、任務調度層、可視化面板層以及跨網路互動層，

在基礎設施層的話，Fate主要支持Docker形式的部署，雖然也支持二進制，但是用Docker還是能降低物理環境的差異性，便于落地，而且Fate友好地提供KubeFATE模式，如果是開發或者測驗場景, 推薦使用docker-compose部署方式. 這種模式僅僅需要 Docker 環境，如果生產環境或者大規模部署, 推薦使用Kubernetes方式來管理FATE系統，
在計算存盤層，主要以EggRoll以及Spark作為分布式計算引擎，據我了解Spark應該是v1.4版本的新特性之一，而EggRoll跟Spark的比較下，Spark是相對成熟而且資料比較多，Spark跟EggRoll的主要差別就是Spark的存盤使用HDFS，EggRoll是把存盤和計算系結在一起的，就是不傳輸資料，而是把計算邏輯傳輸到資料所在的地方去執行，由于計算邏輯較小，所以不需要進行大規模的資料移動，
核心組件層主要提供資料權限、資料互動、演算法相關、模型訓練評估發布相關的實作，
上面的任務執行層以及調度層，主要是FateFlow這個模塊去實作這部分功能，籠統的說明就是聯邦學習建模Pipeline 調度和生命周期管理工具，為用戶構建端到端的聯邦學習pipeline生產服務，實作了pipeline的狀態管理及運行的協同調度，同時自動追蹤任務中產生的資料、模型、指標、日志等便于建模人員分析，

使用流程

開發者通過撰寫DSL構建自己模型訓練的pipeline，提交Job到任務佇列，然后任務調度器從佇列拉取任務，調度不同的計算節點執行pipeline，

部署架構

下面是v1.4的多節點部署架構圖，可以看到對于多節點（主要是guest跟host兩種角色）的部署組件主要有：

軟體產品	組件	說明
fate	fate_flow	聯合學習任務流水線管理模塊，每個party只能有一個此服務
fate	fateboard	聯合學習程序可視化模塊，每個party只能有一個此服務
eggroll	clustermanager	cluster manager管理集群，每個party只能有一個此服務
eggroll	nodemanager	node manager管理每臺機器資源，每個party可有多個此服務，但一臺服務器置只能有一個
eggroll	rollsite	跨站點或者說跨party通訊組件，相當于proxy+federation，每個party只能有一個此服務
mysql	mysql	資料存盤，clustermanager和fateflow依賴，每個party只需要一個此服務

在線預測平臺

架構

在線預測平臺主要通過加載離線訓練平臺訓練模型實作在線預測功能，

在線預測平臺主要由以下三個組件構成：

Serving-server:預測功能的核心模塊，提供演算法組件，實作基于模型的預測功能，
Serving-proxy:在多方互動的時候提供路由功能，協議轉換你功能，一般guest與host之間都是通過Serving-proxy進行通信，
Serving-admin:提供集群管理功能，實作可視化管理，

具體架構如下：

使用流程

打包部署：從Fate倉庫下載Fate-Serving的相關模塊編譯打包運行在本地，目前主要基于java開發，需要java環境，
推送模型：從Fate-Flow里面獲取模型，加載到Fate-Serving，
模型初始化：Fate-Serving將模型load到本地并初始化到記憶體，
注冊模型介面：Serving-Server將模型的資訊轉換成介面資訊注冊到注冊中心，主要基于GRPC協議，
提供服務：呼叫方從注冊中心拉取該模型的介面地址并發起呼叫，

部署架構

效率分析

以下材料來自于：https://blog.csdn.net/hellompc/article/details/105705745

LR演算法測驗

FATE在訓練10W*800樣本時（做過歸一化后）發現loss值雖在小范圍內波動，但最終結果亦沒有達到收斂，

樹類演算法測驗

[外鏈圖片轉存失敗,源站可能有防盜img]!鏈機制,建(https://img-WIQlog.csdnimg.cn/img_convert/213faedbc259861c614b34106a6265cc.png#pic_centerhtps://img-log.csdnimg.cn/img_convert/23d13faedbc259861c14b3646a6264cc.png)]

具體操作

參考：https://blog.csdn.net/qq_28540443/article/details/104562797

富數FMPC

富數多方安全計算平臺（FMPC ）是上海富數科技旗下產品，目前未開源，主要通過體驗或者服務購買方式使用，

產品官網地址：https://www.fudata.cn/

富數科技是安全計算的領跑者，公司立足于領先的安全計算與人工智能技術，幫助合規資料源搭建大資料安全建模的橋梁，落地金融、政務、醫療、營銷等業務場景，釋放大資料的商業價值；聚合海量資料源和應用場景，形成安全的資料價值流通平臺，通過連接、互動、結網，建設安全的資料互聯網生態，

相較于上面提到的Fate,FMPC是一匹黑馬，下面簡單說明一下他的四大產品模塊：

1）聯邦學習FMPC：
原始資料不出門，參與各方本地建模；沒有敏感資料流通，互動中間計算結果；參與方只有自己模型引數，
整個模型被保護；私有化部署；開放API快速開發；支持主流機器學習演算法；LR, DT, RF, Xgboost…；建模速度快3倍；密文訓練精度誤差<1%

2）多方安全計算：
落地應用計算量1.1萬+次/天；支持多方資料安全求交；支持一次多項式；支持多方歸因統計分析；支持多方多維資料鉆取分析；私有化部署

3）匿蹤查詢：

支持100億+條記錄；秒級回應時間；查詢授權存證；甲方查詢資訊不泄露；加密隧道避免中間留存；私有化部署，

4）聯盟區塊鏈：

聯盟節點30+；高性能擴展1萬TPS；合約呼叫20萬次/天；電子存證和智能合約；隱私保護協議；快捷部署場景應用；開源開發社區，

訪問地址：https://www.unitedata.link/

經過查看，目前開放的鏈是有故障狀態，

下面材料主要參考于：https://blog.csdn.net/hellompc/article/details/104822723

整體架構

FMPC目前公開的技術架構如下：

技術原理:

在確定共有用戶群體后，就可以利用這些資料訓練機器學習模型，以線性回歸模型為例，訓練程序可分為以下 5 步：

第①步：A和B把各自公鑰分發給對方，用以對訓練程序中需要交換的資料進行加密；

第②步：A和B分別進行本地的訓練，產生不含敏感資訊的中間結果，

第③步：A和B之間以加密形式互動用于計算梯度的中間結果；

第④步：A和B分別基于加密的梯度值進行計算，同時 B 根據其標簽資料計算損失，并匯總計算總梯度；

第⑤步：A和B根據新計算的梯度更新各自模型的引數，

使用流程

雖然目前需要申請體驗才能看到相關的使用流程，但根據目前網上查到的相關資料，主要分成以下幾個步驟：

部署架構

未公開

演算法支持

未公開

效率分析

為了模擬真實業務場景，本次測驗準備了如下兩份樣本：

樣本A：兩萬行資料，1列索引列欄位，26個特征欄位

樣本B：兩萬行資料，1列索引列欄位，1列目標值字典，2個特征欄位

在同等環境下同時部署FATE1.2/FMPC兩套產品，每次運行任務只獨立運行其中一款，得到指標如下：

結果分析

根據以上兩款產品使用流程可以看出，兩款產品均實作并完成安全建模的倍訓流程，但在某些方面還存在一定差異，

1）產品角度：FATE更偏向于面向技術人員，使用者需要具有一定開發能力及演算法功底；FMPC更偏向于面向業務人員，使之能在清晰的界面可視化操作，

2）功能健全程度：FATE具有基本建模功能，包括資料上傳，模型訓練，模型評估，模型預測；FMPC在此基礎上添加了特征分析及特征篩選功能，更貼近實際業務場景需求，

3）性能角度：FATE的secureBoost較lr相比訓練速度更快，模型精度更高，運行時間在業內屬于可接受范圍；FMPC與之相比，開創性地采用“松弛迭代法“，在保持精度和準確性的同時，速度提升了3倍左右，在實際業務的多次的迭代和調參中會有較明顯的優勢，

百度PaddleFL

PaddleFL是一個基于PaddlePaddle的開源聯邦學習框架，研究人員可以很輕松地用PaddleFL復制和比較不同的聯邦學習演算法，開發人員也可以從paddleFL中獲益，因為用PaddleFL在大規模分布式集群中部署聯邦學習系統很容易，PaddleFL提供很多聯邦學習策略及其在計算機視覺、自然語言處理、推薦演算法等領域的應用，此外，PaddleFL還將提供傳統機器學習訓練策略的應用，例如多任務學習、聯邦學習環境下的遷移學習，依靠著PaddlePaddle的大規模分布式訓練和Kubernetes對訓練任務的彈性調度能力，PaddleFL可以基于全堆疊開源軟體輕松地部署，

開源地址：https://github.com/PaddlePaddle/PaddleFL

筆者對PaddlePaddle這個深度學習框架也是挺熟悉的，也使用過一二，從易用性以及演算法效率來看，都不遜色，尤其背靠百度的資訊庫，PaddlePaddle提供的預訓練模型的準確率也很高，基本可以開箱即用，

整體架構

PaddleFL演算法支持：

A. 聯邦學習策略

縱向聯邦學習: 帶privc的邏輯回歸，帶ABY3的神經網路

橫向聯邦學習: 聯邦平均，差分隱私，安全聚合

B. 訓練策略

多任務學習

遷移學習

主動學習

PaddleFL 中主要提供兩種解決方案：Data Parallel 以及 Federated Learning with MPC (PFM)，

通過Data Parallel，各資料方可以基于經典的橫向聯邦學習策略（如 FedAvg，DPSGD等）完成模型訓練，

此外，PFM是基于多方安全計算（MPC）實作的聯邦學習方案，作為PaddleFL的一個重要組成部分，PFM可以很好地支持聯邦學習，包括橫向、縱向及聯邦遷移學習等多個場景，既提供了可靠的安全性，也擁有可觀的性能，

使用流程

Paddle FL MPC 中的安全訓練和推理任務是基于高效的多方計算協議實作的，如ABY3

在ABY3中，參與方可分為：輸入方、計算方和結果方，輸入方為訓練資料及模型的持有方，負責加密資料和模型，并將其發送到計算方，計算方為訓練的執行方，基于特定的多方安全計算協議完成訓練任務，計算方只能得到加密后的資料及模型，以保證資料隱私，計算結束后，結果方會拿到計算結果并恢復出明文資料，每個參與方可充當多個角色，如一個資料擁有方也可以作為計算方參與訓練，

PFM的整個訓練及推理程序主要由三個部分組成：資料準備，訓練/推理，結果決議，

A. 資料準備

私有資料對齊： PFM允許資料擁有方（資料方）在不泄露自己資料的情況下，找出多方共有的樣本集合，此功能在縱向聯邦學習中非常必要，因為其要求多個資料方在訓練前進行資料對齊，并且保護用戶的資料隱私，

資料加密及分發：在PFM中，資料方將資料和模型用秘密共享[10]的方法加密，然后用直接傳輸或者資料庫存盤的方式傳到計算方，每個計算方只會拿到資料的一部分，因此計算方無法還原真實資料，

B. 訓練/推理

PFM 擁有與PaddlePaddle相同的運行模式，在訓練前，用戶需要定義MPC協議，訓練模型以及訓練策略，paddle_fl.mpc中提供了可以操作加密資料的算子，在運行時算子的實體會被創建并被執行器依次運行，

C. 結果重構

安全訓練和推理作業完成后，模型（或預測結果）將由計算方以加密形式輸出，結果方可以收集加密的結果，使用PFM中的工具對其進行解密，并將明文結果傳遞給用戶，

部署架構

Paddle FL的部署基于docker或者k8s

整體部署架構如下：

在PaddeFL中，用于定義聯邦學習任務和聯邦學習訓練作業的組件如下：

A. 編譯時

FL-Strategy: 用戶可以使用FL-Strategy定義聯邦學習策略，例如Fed-Avg，

User-Defined-Program: PaddlePaddle的程式定義了機器學習模型結構和訓練策略，如多任務學習，

Distributed-Config: 在聯邦學習中，系統會部署在分布式環境中，分布式訓練配置定義分布式訓練節點資訊，

FL-Job-Generator: 給定FL-Strategy, User-Defined Program 和 Distributed Training Config，聯邦引數的Server端和Worker端的FL-Job將通過FL Job Generator生成，FL-Jobs 被發送到組織和聯邦引數服務器以進行聯合訓練，

B. 運行時

FL-Server: 在云或第三方集群中運行的聯邦引數服務器，

FL-Worker: 參與聯合學習的每個組織都將有一個或多個與聯合引數服務器通信的Worker，

FL-Scheduler: 訓練程序中起到調度Worker的作用，在每個更新周期前，決定哪些Worker可以參與訓練，

演算法支持

縱向聯邦學習: 帶privc的邏輯回歸，帶ABY3的神經網路

橫向聯邦學習: 聯邦平均，差分隱私，安全聚合

效率分析

資料集：

https://paddle-zwh.bj.bcebos.com/gru4rec_paddlefl_benchmark/gru4rec_benchmark.tar

Dataset	training methods	FL Strategy	recall@20
the whole dataset	private training		0.504
the whole dataset	federated learning	FedAvg	0.504
1/4 of the whole dataset	private training		0.286
1/4 of the whole dataset	private training		0.277
1/4 of the whole dataset	private training		0.269
1/4 of the whole dataset	private training		0.282

京東九數聯邦學習9NFL

基于業務需要,京東自研的聯邦學習平臺:九數聯邦學習平臺(9NFL)于2020年初正式上線，九數聯邦學習平臺(9NFL)基于京東商業提升事業部9N機器學習平臺進行開發,在9N平臺離線訓練,離線預估,線上inference、模型的發版等功能的基礎上,增加了多任務跨域調度、跨域高性能網路、大規模樣本匹配、大規模跨域聯合訓練、模型分層級加密等功能，整個平臺可以支持百億級/百T級超大規模的樣本匹配、聯合訓練,并且針對跨域與跨公網的復雜環境,對可用性與容災設計了一系列的機制與策略,保障整個系統的高吞吐、高可用、高性能，

開源地址：https://github.com/jd-9n/9nfl

整體架構

整個系統分為四個大模塊：

整體調度與轉發模塊

 整體控制資料求交與訓練的調度
 訓練器的配對作業
 高效的流量轉發

資源管理與調度模塊

使用k8s屏蔽底層資源差異
使用k8s進行資源的動態調度

資料求交模塊

大規模多模態跨域資料整合
異步分布式框架提升拼接效率

訓練器模塊

分布式框架訓練支持，提升系統的吞吐性能
例外恢復、failover機制
高效的網路傳輸協議設計

使用流程

9NFL主要的使用流程為：

1.資料準備

2.資料求交

3.模型訓練

部署架構

目前根據開源的程度，9NFL并未完全開源，從檔案來看也是基于Docker模式的部署，

演算法支持

主要基于tensorflow，

效率分析

暫無

總結

按照框架的成熟度來說，目前開源的框架里面Fate是相對較為成熟的，而且在演算法以及架構方向不斷優化，開源社區成熟，而FMPC就目前研究來說，他較之Fate在業務操作易用性上面領先一個身位，Fate、PaddleFL、9NFL目前操作界面都是沒有的，雖然Fate有完善的監控界面，因此FMPC對于業務場景落地還是稍有優勢，現在聯邦學習正在不斷發展，雖然目前落地的案例并不多，但是相信在不久的將來，在各方的共同學習努力下，必能共同進步，推動聯邦學習真正落地，保障個人資料隱私，解決資料孤島問題，

參考資料

https://github.com/FederatedAI/

https://blog.csdn.net/hellompc/article/details/105705745

https://blog.csdn.net/qq_28540443/article/details/104562797

https://www.fudata.cn/

https://blog.csdn.net/hellompc/article/details/104822723

https://github.com/PaddlePaddle/PaddleFL

https://github.com/jd-9n/9nfl

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/104275.html

標籤：其他

上一篇：我現在用的是cdh5 想讓其中的幾個節點不執行mr任務怎么配置

下一篇：在centos當中去部署PHP語言環境

全網首發國行內邦學習框架研究

前言

微眾銀行FATE

演算法支持

Fate整體架構

離線訓練平臺

架構

使用流程

部署架構

在線預測平臺

架構

使用流程

部署架構

效率分析

LR演算法測驗

樹類演算法測驗

相關界面

具體操作

富數FMPC

整體架構

使用流程

部署架構

演算法支持

效率分析

相關界面

百度PaddleFL

整體架構

使用流程

部署架構

演算法支持

效率分析

相關界面

京東九數聯邦學習9NFL

整體架構

使用流程

部署架構

演算法支持

效率分析

相關界面

總結

參考資料