主頁 >  其他 > 【讀】Federated Machine Learning: Concept and Applications

【讀】Federated Machine Learning: Concept and Applications

2020-10-24 23:30:35 其他

{% note info %}

論文線上閱讀

{% endnote %}

聯合機器學習中的概念及應用

Questions

heuristic fundamental
資料少,指的是樣本少;
資料的質量低,我覺得并不是資料不可信,而是資料的特征空間小,包含的資訊少,建模后并不能得到有效的結論,
早期有一種觀點是直接在這種資料少且質量低的情況下訓練模型,并致力于提高該模型的精確度,我覺得這不可行,至少使用機器學習的方法不能做到,機器學習研究的是統計問題,歸根到底是數學方法,它并不關心資料特征的具體含義,而敏感于資料的分布,我們借助機器學習,最終得到的是期望/可能性,是關于概率的,因此自然是樣本越多越好,精確度就越高了,
資料的持有者結成聯盟共同訓練模型,是另一種觀點,我覺得聯邦學習走在正確的路上,
1. 如何清洗資料?
理想的方法是直接將所有參與方的資料聚集在一起,不顧慮法律、技術和成本的約束,
而即使這樣,因為不同機構所持有的資料或多或少都是異構的,在聚集時就必須將資料對齊,這也意味著非交集資料的損失,
既然如此,為何不先完成對齊,再將資料聚合呢?并且加密需聚合的資料,這一方面,于最終訓練效果而言,并沒有太大影響;另一方面,又滿足了公眾對資料隱私的訴求,
2. 什么是資料中毒(data poisoning)?
水平聯邦學習增大了樣本空間,能夠提高模型的精確度;
垂直聯邦學期拓寬了特征空間,使得分析結果能夠涵蓋更多領域,產生1+1>2的效果
聯邦遷移學習到底是什么?
聯邦學習中,參與者越多越好嗎?

Abstract

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
strengthening n. 加強 propose vt. 提出,建議
beyond prep. 晚于,遲于 secure federated learning 安全聯邦學習
federated transfer learing 聯邦遷移學習 mechanism n. 機制,原理
compromise vt. 泄漏,使陷入危險,妥協 CCS abbr. Council of Communication Societies 通信學會理事會
methodology n. 方法論 phrase n. 短語
GDPR General Data Protection Regulation 通用資料保護協議

{% endhideToggle %}

目前AI領域面臨著兩個重要的挑戰:

  • 在大部分行業中,資料以孤島的形式存在
  • 加強資料隱私和安全

安全聯邦學習(secure federated learning)中包含的三個方面:

  • 水平聯邦學習(horizontal federated learning)
  • 垂直聯邦學習(vertical federated learning)
  • 聯邦遷移學習(federated transfer learning)

論文介紹了聯邦學習框架中的一些定義、架構和應用,并全面調查了聯邦學習方面已有的作業,此外,論文中還提出了如何在不同的組織之間基于聯邦機制來構建資料網路,作為一個解決方案使得能在不泄漏用戶隱私的情況下分享知識(knowledge),

Introduction

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
Go n. 圍棋 defeat vt. 擊敗
cutting-edge adj. 最新的,先進的 medical care 醫療護理
walks of life 各行各業 inevitable adj. 不可避免的
availability n. 可獲得性 permission n. 許可
hard copy 復印件 grant vt. 授予
commercial adj. 商業的,營利的 citation n. 參考
fuse vt. 融合 if not impossible 如果有可能的話
recommendation n. 推薦 complicated administrative procedure 復雜的管理程式
integration n. 集成 resistance n. 阻力,反抗
institution n. 公共機構 issue n. 問題
cause great concern 引起巨大的影響 data breach 資料外泄
protest n. 抗議,反抗 enforce vt. 實施
protect vt. 保護,防衛 plain adj. 簡單的
stiff fine 硬性罰款,嚴厲處罰 violate vt. 違反
bill n. 法案 act n. 法令
enact vt. 頒布 Cyber Security Law 網路安全法
General Principles of Civil Law 民法通則 tamper vi. 做手腳,破壞
tamper with 篡改 conduct vt. 實施,進行
obligation n. 義務,責任 pose vt. 造成,形成
dilemma n. 困境,進退兩難 data fragmentation 資料碎片
to be more specific 具體而言,準確來說 be responsible for 對...負責
promote vt. 促進 complaint adj. 服從的,順從的

{% endhideToggle %}

由于市場資金的注入和大資料的支持,AI自2016年便迎來了空前的繁榮,

在大部分領域,資料有限或者資料的質量低,這使得AI技術的實作超乎想象的困難,一種可能的方法就是將不同機構的資料運輸到同一個地方融合在一起,但是由于行業競爭、隱私安全和復雜管理程式方面的原因,即使是同一公司內不同部門之間的資料集成也會遇到很大的阻力,

Facebook泄密丑聞始末

facebook 的隱私外泄引起了廣泛的抗議,世界各國開始加強資料安全和隱私方面的法律法規,這也給如今在AI領域普遍使用的資料事務程式帶來了新的挑戰,

GDPR:通用資料保護協議

GDPR:

  • 禁止自主的建模和決定
  • 解釋模型的決定
  • 授予用戶遺忘資料的能力,允許用戶洗掉或者撤銷其個人資料
  • 在設計層上就考慮資料隱私
  • 使用清晰簡單的語言說明資料使用的用戶許可授權

AI 領域中傳統的資料處理(data processing)模型涉及了一些簡單的資料事務(data transactions)模型,其中一方收集和傳輸資料到負責清洗并融合資料的另一方,最終一個第三方會得到集成好的資料并構建其他方也可以使用的模型,構建好的模型通常也是最終的產品,作為一項服務銷售,傳統的處理程式面對著來自新法規的挑戰,而用戶也可能因不清楚模型在未來的使用從而觸犯法律,因此,我們處在這樣一個困境中:資料處于一種孤島的形式,而我們在很多情境中被禁止去收集、融合來自不同地點的資料用以AI處理,

為了促進聯邦學習的發展,論文作者希望能將AI發展的焦點從提高模型的表現切換到探索符合資料隱私安全法的資料集成方法上,前者是當前大部分AI領域都在做的事情,

An Overview of Federated Learning

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
effort n. 努力 personalizable adj. 個性化的
optimization n. 最佳化 massive adj. 大量的
partition vt. 分割,區分 decentralized adj. 分散管理的
preliminary adj. 初步的,開始的 foundation n. 基金會
multiagent theory 可替換主體理論 data mining 資料挖掘
workflow n. 作業流程 consolidate vt. 聯合,鞏固
respective adj. 各自的,分別的 conventional adj. 常見的,慣例的
guarantee n. 保證 identify vt. 鑒別,識別
simulation n. 模擬,仿真 proof n. 驗證
complete adj. 完全的,徹底的 desirable adj. 可取的,令人向往的
partial adj. 區域的 disclosure adj. 披露
semi-honest adj. 半誠實的 verification n. 核查,驗證
reveal vt. 顯示,泄漏 collude vi. 勾結,串通
well-defined adj. 定義明確的,界限清楚的 desire vt. 要求
line of work 行業 anonymity n. 匿名性,匿名者
diversification n. 多樣化,分化 obscure vt. 使...模糊不清,隱藏
restore vt. 恢復,重建 approach to 約等于,通往...的方法
transmit vt. 傳輸,傳播 homomorphic encryption 同態加密
adopt vt. 采用,采納 additively adv. 附加地,疊加地
polynomial approximation 多項式逼近 intermediate adj. 中間的,過渡的
constrain vt. 驅使
n. 約束
scale n. 規模
poisoning n. 中毒 loophole n. 漏洞
variant n. 變體,轉變 constant fraction 恒比
blockchain n. 區塊鏈 facilitate vt. 促進,幫助
leverage vt. 利用 scalability n. 可拓展性
robustness n. 健壯性 categorize vt. 分類
identical adj. 完全相同的 regional adj. 地區的,區域的
scheme n. 計劃,方案,模式 intersection n. 交集
address vt. 設法解決 straggler n. 掉隊者
partition vt. 分割,區分 compression n. 壓縮
bandwidth n. 帶寬 preserving n. 保護,保存
regression n. 回歸 linear adj. 線性的
entity n. 物體 applicable adj. 可應用的,合適的
commerce n. 貿易,商務 revenue n. 收益
expenditure n. 支出,花費 retain vt. 保持,記住
corrupted adj. 毀壞的 geographical adj. 地理的
restriction n. 限制 portion n. 部分
exceeding vt. 超越 decrypt vt. 解碼
converge vi. 聚集,收斂 subject adj. 容易遭受...的
Generative Adervasarial Network GAN 生成對抗性網路 entity n. 物體
alignment n. 對齊 lossless adj. 無損的
gather vt. 收集 scale vi. 改變大小
parallel adj. 平行的 randomness n. 隨機性
secrecy n. 機密性 inability n. 無能力
terminate vt. 使結束 oblivious adj. 遺忘的
overall adj. 全部的 commercialize vt. 商業化
incentive n. 激勵,動機 manifest vt. 表明,證明
permanent adj. 永久的,永恒的 better off 達到某數量的,富裕的,漸入佳境
consensus n. 一致

{% endhideToggle %}

聯邦學習中最優化問題的幾個重要因素:

  • 在大量分布地間進行交流的成本
  • 資料分布的不平衡
  • 設備的可靠性

Definition of Federated Learning

假定有 \(N\) 個資料擁有者 \(\{ \mathcal{F}_1,\cdots,\mathcal{F}_N \}\) 希望通過聯合他們各自的資料 \(\{ \mathcal{D}_1,\cdots,\mathcal{D}_N \}\) 來訓練一個機器學習的模型,一種常見的方法就是把資料放在一起,即有 \(\mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N\),由此訓練模型 \(\mathcal{M}_{SUM}\)

聯邦學習系統就是一個資料擁有者們合作性地訓練模型 \(\mathcal{M}_{FED}\) 的學習程序,在這個程序中任意資料擁有者 \(\mathcal{F}_i\) 都不會將其資料 \(\mathcal{D}_i\) 暴露給其他的資料持有者

\(\mathcal{V}_{FED}\) 表示模型 \(\mathcal{M}_{FED}\) 的精確度,\(\mathcal{V}_{FED}\) 必須十分接近 \(\mathcal{V}_{SUM}\) (\(\mathcal{M}_{SUM}\) 的性能)

\(\delta > 0\),若

\[\vert \mathcal{V}_{FED}-\mathcal{V}_{SUM} \vert < \delta \tag{1} \]

則稱這個聯邦學習演算法有 \(\delta\) 精確度損失

Privacy of Federated Learning

隱私是聯邦學習中的一個重要屬性,其需要安全模型和分析以提供有意義的隱私保證,論文介紹了聯邦學習中一些隱私技術,識別方法以及間接隱私泄漏的預防中的潛在挑戰,

  • 安全多方計算(Secure Multi-party Computation, SMC):

    SMC安全模型自然而然地包含了多個參與方,并且提供了安全驗證在定義明確的模擬框架中用以保證 complete zero knowledge,也就是每個參與方只能知道自身的輸入和輸出,zero knowledge 很讓人向往,但其通常需要復雜的計算協議,且也許不能有效的將之實作,而在低安全需求的情境中,可以構建一個基于SMC的安全模型以追求效率,

    已進行的研究:

    1. MPC protocols:用以模型的訓練和驗證,且不會泄漏敏感資料
    2. Sharemind:最先進的SMC框架之一
    3. 3PC model:在半誠實和惡意的假設(malicious assumptions)中,考慮安全性
  • 差分隱私(Differential Privacy):

    在差分隱私(Differential Privacy)、k-匿名(k-Anonymity)和分化(diversification)的方法中,都向資料中添加了噪聲,或者使用泛化方法(generalization methods)來隱藏一些敏感屬性讓第三方不能區分出個體之間的區別,由此使得資料不可能被重建,從而保護了用戶的隱私,然而這些方法的根本仍然是將資料傳輸到其他地方,且這些方法也需要在精確度和隱私之間權衡,

  • 同態加密(Homomorphic Encryption):

    (不同于差別隱私的保護方法)在同態加密中,資料和模型本身不會被運輸,也不能通過其他參與方的資料來猜中它們,因此,在原始資料的層次上幾乎不可能發生泄漏,

    在實踐中,疊加同態加密(Additively Homomorphic Encryption)被廣泛的使用,而多項式逼近(polynomial approximations)也被用于評估機器學習演算法中的非線性函式,這都將導致需要在精確度和隱私之間權衡,

  • 間接資訊泄漏(indirect information leakage):

    聯邦學習中的一些前驅作業會暴露中間結果,比如從優化演算法(如SGD演算法)中上傳引數時,由于未提供安全保證,梯度泄漏加上資料結構的暴露也許會導致重要的資料資訊外泄,

    聯邦學習系統中的成員可以惡意地攻擊其他參與者,通過植入后門來學習他們的資料,

研究者們也開始考慮引入區塊鏈(blockchain)作為平臺來促進聯邦學習,Hysung Kim 等人提出了一個基于區塊鏈的聯邦學習架構(BlockFL),通過利用區塊鏈來交換并驗證移動設備之間本地學習模型的更新,他們也考慮了 an optimal block generation、網路的可拓展性及健壯性的問題,

A Categorization of Federated Learning

我們可以資料的分布特征為標準,來給聯邦學習分類,

用矩陣 \(\mathcal{D}_i\) 表示資料擁有者 \(i\) 所持有的資料,矩陣的每一行都代表一個樣本,每一列都代表一種特征,

同時,一些資料集可能還包含了標簽(label)欄位,我們用 \(\mathcal{X}\) 表示特征空間,\(\mathcal{Y}\) 表示標簽空間,\(\mathcal{I}\) 表示樣本ID空間,這三者組成了完整的訓練資料集 \((\mathcal{I},\mathcal{X},\mathcal{Y})\)

參與方們的資料的特征空間和樣本空間也許不是完全相同的,所以我們可以基于資料在不同參與方(parties)的特征空間和樣本 ID 空間上的分布情況,將聯邦學習分為水平聯邦學習(horizontal federated learing)、垂直聯邦學習(vertical federated learning)和聯邦遷移學習(federated transfer learning),

  • 水平聯邦學習(horizontal federated learning):

    也就是基于樣本的聯邦學習(sample-based federated learning),在這種聯邦學習中,資料集共享了相同的特征但是各自的樣本不同,可以描述為:

    \[\mathcal{X}_i=\mathcal{X}_j,\quad\mathcal{Y}_i=\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{2} \]

    比如兩個不同地區的銀行,它們的用戶來自各自的地區,樣本空間的交集很小,但是它們的業務是非常相近的,所以特征空間相同,

    安全定義(security definition):一個典型的聯邦學習系統假定參與者是誠實的,而服務器是 honest-but-curious,也就是說只有服務器才有可能會泄漏參與者的隱私,但是參與者也可能不懷好意,這帶來了額外的隱私挑戰,

    水平聯邦學習
  • 垂直聯邦學習(vertical federated learning):

    也叫做基于特征的聯邦學學習(feature-based federated learning),適用于兩個資料集共享了相同的樣本 ID 空間但特征空間不同的情景,

    比如,同一個城市中的一家銀行以及一家電子商務公司,它們的用戶群體就是這個地區中的大部分居民,所以他們的樣本空間有很大的交集,但是,銀行記錄的是用戶的收入、支出以及信用等級,而電子商務公司保存的是用戶的瀏覽和購物的歷史資訊,它們的特征空間非常不同,

    垂直聯邦學習是一個聚集(aggregate)不同特征并計算訓練損失和梯度的程序,以隱私保護的方式來構建模型,資料來自所有的合作參與方,在這種聯邦機制下,所有參與方的身份和地位都相同,并且該聯邦系統會幫助所有人建立一個 common wealth 的策略,這就是其被稱為聯邦學習(federated learning)的原因,

    \[\mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i=\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{3} \]

    安全定義(security definition):一個典型的垂直聯邦學習系統假定了存在 honest-but-curious 的參與方,比如在一個只有兩個參與方的情境中,雙方沒有相互串通且最多只有一方被對手攻擊而發生資訊泄漏,那么安全就可以定義為,對手只能學習到被毀壞的客戶端的資料,并不能得到其他未發生泄漏的客戶端的資料,為了促進雙方之間的安全計算,可以引入一個半誠實的第三方(Semi-honest Third Party, STP),且假定其不與其他參與方串通,學習結束后,每個參與方只能持有與自身特征關聯的模型引數,因此在推理時,雙方需要一起合作來生成輸出,

    垂直聯邦學習
  • 聯邦遷移學習(federated transfer learning):

    聯邦遷移學習應用于這樣的場景中:兩個資料集在其樣本空間和特征空間上均不相同,

    假設有兩個機構,一個是位于中國的銀行,另一個是位于美國的電子商務公司,由于地理上的限制,這兩個機構的用戶群體只有很小的交集,另一方面,由于兩者業務的不同,特征空間也只有很小部分的重疊,

    \[\mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{4} \]

    安全定義:一個典型的聯邦遷移學習系統包含了兩個參與方,其安全定義與垂直聯邦學習系統相同,

    聯邦遷移學習

Architecture for a federated learning system

水平聯邦學習系統的架構

在水平聯邦學習系統中,k 個參與者擁有相同的資料結構,通過引數服務器或者云服務器來共同學習一個機器學習模型,假設參與者都是誠實的,而服務器是 honest-but-curious,因此從任何參與方到服務器的泄漏是不被允許的,水平聯邦學習系統的訓練程序包含了以下4個程序:

  1. 參與者在本地計算訓練梯度,使用加密(encryption)/差分隱私(differential privacy)/密鑰共享(secret sharing)技術來掩飾(mask)精選出來的梯度(a selection of gradients),然后將masked結果上傳到服務器
  2. 服務器執行安全資料聚集(secure aggregation),且不需要學習任何參與方的資訊
  3. 服務器將聚合結果(aggregated results)返還給參與方
  4. 參與方們使用解碼后的梯度更新各自的模型

不斷的迭代這4個步驟直到損失函式收斂,整個訓練程序就完成了,

水平聯邦學習的架構

這個構架不依賴特殊的機器學習演算法(如 logistic regression 和 DNN 等),并且所有的參與方都能分享最終模型的引數,

安全分析:如果采用了 SMC 或者同態加密來聚集梯度,這種架構就可以用來預防半誠實(semi-honest)的服務器引起的資料泄露,但是在其他安全模式的聯合訓練程序中,水平聯邦學習系統的架構很容易遭到惡意參與方的攻擊,通過訓練一個生成對抗性網路(Generative Aderversarial Network, GAN)

垂直聯邦學習系統的架構

假設公司 A 和 B 共同訓練一個模型,它們的商務系統有各自的資料,此外,公司B持有模型需要預測的標簽,出于資料隱私和安全的考慮,A 和 B 之間不能直接交換資料,為了確保在訓練程序中資料的機密性,可以引入一個第三方合作者 C,假設 C 是誠實的,且不與 A 或 B 串通,而 A、B 之間相互是 honest-but-curious,這樣一個可信任的第三方 C 通常由權威機構來充當,比如政府,或者安全計算結點(如Intel Software Guard Extension, SGX),垂直聯邦學習系統通常由兩部分構成:

垂直聯邦學習系統的架構
  • 加密物體對齊(encrypted entity alignment),由于兩個公司的用戶群體并不相同,系統使用了基于加密的用戶 ID 對齊技術來確保雙方公共的用戶集合中不會暴露各自的資料,在物體對齊程序中,系統不會暴露各自除了重疊部分的用戶資料,

  • 加密模型訓練(encrypted entity alignment),決定好公共物體后,我們就可以用這些物體的資料來訓練一個機器學習模型,訓練程序可以分為以下4步:

    1. 合作者 C 創造加密對(encryption pairs),把公鑰分發別發送給 A 和 B
    2. A 和 B 互相交換梯度和損失的中間計算結果
    3. A 和 B 分別計算加密后的梯度并添加額外的掩碼,且 B 也需要計算加密后的損失,然后 A 和 B 將它們加密后的值傳送給 C
    4. C 進行解碼且將解碼后的梯度和損失返還給 A 和 B,A 和 B 去除梯度上的屏蔽(unmask)并相應地更新模型引數

在物體對齊和模型訓練的程序中,A 和 B 的資料都被保存在本地,且資料參與訓練的交集部分也不會導致資料隱私泄漏,C 引起的資料泄露可能或不可能(may or may not)被認為是隱私泄露(privacy violation),在這個情境中為了進一步預防 C 學習來自 A 和 B 的資訊,A 和 B 會添加加密的隨機掩碼(encrypted random mask)來向 C 隱藏它們的資訊,因此,兩個參與方都到達了它們的目的:通過聯邦學習來聯合訓練一個公共模型,

因為在整個訓練程序中,每個參與方接收到的損失值和梯度,與在資料被收集在同一個地方且沒有隱私約束的情況下訓練模型而得到的損失值和梯度是一樣的,所以,這個模型是無損失的,其效率取決于交流的成本和加密資料計算的成本,

在每次迭代程序中,A 和 B 之間傳輸資料的規模取決于重疊樣本的多少,因此,可以采用分布式并行計算技術來進一步提高演算法的效率,

安全分析:訓練協議不會泄漏任何資訊給 C,因為 C 學習到的都是添加掩碼后的梯度,并且添加掩碼后的矩陣,其隨機性和安全性都得到了保證,在這樣的協議中,參與方 A 在每一步都能學習到自身的梯度,但這并不足夠讓其學習到 B 的任何資訊,因為標量積協議的安全性建立于這樣一個基本事實:不能從 n 個等式中求解出超過 n 個未知量,

聯邦遷移學習系統的架構

在上面垂直聯邦學習的例子中,A 和 B 只有很小的樣本交集,我們希望學習到參與方 A 所有資料集的標簽,垂直聯邦學習框架只操作了資料的重疊部分,為了將其覆寫范圍拓展到整個樣本空間,我們引入了遷移學習,這并沒有改變垂直聯邦學習整體的框架,但是參與方 A 和 B 之間交換中間計算結果的細節改變了,

遷移學習涉及了 A 和 B 的特征之間公共表示(common representation)的學習程序,以及利用原始域方(source-domain party)標簽來預測目標域方(target-domain party)標簽程序中的誤差最小化,因此,A 和 B 的梯度計算程序與在垂直聯邦學習中是不一樣的,在推理時,仍然需要每個參與方去計算其預測結果,

獎勵機制

為了將不同組織間的聯邦學習充分商業化,就需要去開發一個公平的平臺和激勵機制,模型建立后,其性能可以在具體的應用中表現,并且可以記錄在一個永久的資料記錄機制中(如區塊鏈),機構能更加寬裕的提供更多資料,而模型的效果取決于資料提供者對系統的貢獻,模型的效能惠及聯邦機制的各個參與者,這又繼續激勵更多的機構參與到資料聯合中,

這種架構的實作不止考慮了隱私保護和多機構間協作建模的效果,還顧及了如何獎勵貢獻了更多資料的機構以及如何通過共識機制(consensus mechanism)來執行獎勵措施,因此,聯邦學習是一種倍訓的學習機制,

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
originality n. 創意 devote vt. 致力于
garbled adj. 篡改的,混亂的 follow-up 后續的
allocate vt. 分配 autonomy n. 自治
cope vi. 處理,對付 stringent adj. 嚴格的,緊縮的
regulatory adj. 管理的,控制的 IID Independent Identically Distributed,獨立相似分布
coordination n. 協調性 convergence bound 收斂約束
manage vt. 管理,控制 interoperability n. 互操作性
heterogeneous adj. 多種多樣的,參差的 premise n. 前提,假定

{% endhideToggle %}

聯邦學習使得多個參與方能協作構建一個機器學習模型,且其私人訓練資料仍然保持私密性,作為一門新興的技術,聯邦學習有幾條有創意的路線,其中一些根植于已存在的領域,

Privacy-preserving machine learning

聯邦機器學習可以看作是保護隱私的分散協作機器學習(privacy-preserving decentralized collaborative machine learning),與多方保密的機器學習(multi-party privacy mechine learning)密切相關,

Federated Learning vs Distributed Machine Learning

第一眼看上去,水平聯邦學習很像分布式機器學習(distributed machine learning),分布式機器學習包含了很多方面:訓練資料的分布存盤、計算任務的分布式操作以及模型結果的分布式分布(distributed distribution of model results),

引數服務器(parameter server)是一個分布式機器學習中的典型元素,可用來加速訓練程序,引數服務器存盤了分布式作業結點上的資料,并且通過中心調度結點來分配資料和計算資源,這提高了訓練的效率,

在水平聯邦學習中,作業結點就是資料持有者,其對本地資料擁有完全的自治權,可以決定何時以及如何加入聯邦學習,而在其引數服務器中,中心結點始終保有控制權,所以,聯邦學習面對著更加復雜的學習環境,此外,聯邦學習強調在訓練程序中保護資料持有者的資料隱私,有效的隱私保護方法可以在未來更好的處理日益嚴格的隱私保護和資料安全管理環境,

如同在分布式機器學習中,聯邦學習也需要去定位非獨立相似分布的資料(address Non-IID data),

Federated Learning vs Edge Computing

聯邦學習提供了關于協調性和安全性的學習協議,所以也可以看作是邊緣計算的作業系統,

Federated Learning vs Federated Database Systems

聯邦資料庫系統將多個資料庫單元集成起來,并且將集成系統作為一個整體來管理,聯邦資料庫的概念被提出來用以實作多個相互獨立的資料庫之間的互操作性(interoperability),其資料庫單元使用分布式存盤,而每個單元中對資料的操作是多樣的(heterogeneous),因此,聯邦資料庫系統與聯邦學習在資料的型別和存盤上有很多相似的地方,

但是聯邦資料庫系統在集成資料庫的程序中沒有涉及任何隱私保護機制,所有的資料庫單元對于管理系統來說都是完全可見的,也就是說,聯邦資料庫系統致力于資料的基本操作(如插入、洗掉、搜索和合并等),而聯邦學習是在保護資料隱私的前提下創建一個聯合模型,因此資料包含的各種價值和規律為我們提供了更好的服務,

Applications

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
innovative adj. 創新的 intellectual property rights 知識產權
personalized adj. 個性化的 personal preference 個人喜好
characteristic n. 特征 hinder vt. 阻礙,打擾
heterogeneity n. 異質性 mutual adj. 共同的
limitation n. 限制,極限 ecosphere n. 生態圈
borrowing n. 借貸 loan n. 貸款
collapse v. 崩潰 symptom n. 臨床癥狀
envisage vt. 設想,想象 vision n. 想象,美景
pivotal adj. 關鍵的

{% endhideToggle %}

聯邦學習是一種創新的建模機制,能基于來自不同參與方的資料上訓練聯合模型,且不泄漏這些資料的隱私和安全,在銷售、金融以及其他(出于知識產權、隱私保護和資料安全的原因,資料不能直接聚集起來用以訓練機器學習模型的)行業上很有前途,

聯邦學學習可用于智慧零售(smart retail),智慧零售的目的是使用機器學習技術來給消費者提供個性化服務,主要包括商品推薦和銷售服務,其業務的資料特征主要有:

  • 用戶購買力——可從銀行存款上推測得出
  • 用戶個人喜好——從用戶的社交網中分析得到
  • 商品特性——通常在網店中留有記錄

這些資料通常存盤在三個不同的部門或者企業中,

這樣的話,我們就面臨了兩個問題:

  • 出于對資料隱私和安全的保護,很難去打破銀行、社交網站和網購站點之間的資料壁壘,因此資料不能直接聚合起來以訓練模型,
  • 存盤在三個地方的資料通常都是參差不齊的,而傳統的機器學習不能直接處理這種異構資料(heterogeneous data),

而使用聯邦學習和遷移學習時,這些問題迎刃而解,

  • 利用聯邦學習,我們可以在不暴露企業資料的前提下,就建立好機器學習模型,這不僅完全保護了資料隱私和資料安全,而且給用戶提供了個性化服務和針對性服務,并且由此實作了諸多好處,
  • 同時,我們可以利用遷移學習來定位資料異質性問題(data heterogeneity problems),并且打破傳統人工智能技術的局限性,

因此,聯邦學習為我們提供了很好的技術支持,讓我們能為大資料和人工智能構建跨企業、跨資料、跨領域的生態圈,

聯邦學習框架可用于不暴露資料的多方資料庫查詢(multi-party database querying without exposing the data),在金融的應用中,我們對探測多方借貸(detecting multi-party borrowing)很感興趣,這通常是銀行行業的一個主要風險因素,往往發生在有某些惡意用戶從一個銀行中借錢來支付另一家銀行的貸款時,多方借貸對金融穩定來說是一個威脅,大量的這種非法行為可能會導致整個金融系統崩潰,

銀行 A 和銀行 B 為了找到這種用戶且不將自身的用戶名單泄漏給對方,可以利用聯邦學習框架,特別是,我們可以采用加密機制來加密每個參與方的用戶名單,并且把加密名單的交集加入聯邦中,最終結果的譯碼給出了多方借貸者的名單,而且這并不會將參與方自身的“好”用戶暴露給其他參與方,我們可以看到,這種操作與垂直聯邦學習有關,

聯邦學習還可以用于智慧健康護理(smart healthcare),

Federated Learning and Data Alliance of Enterprises

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
alliance n. 聯盟 paradigm n. 范例
equitable adj. 公平的,公正的 regardless of 不管,不顧
carry out 實作

{% endhideToggle %}

借助區塊鏈技術中的共識機制(consensus mechanism),聯邦學習形成了公平分配利益的規則(profits allocation),

Conclusions and Prospects

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
bonus n. 紅利

{% endhideToggle %}

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/189510.html

標籤:其他

上一篇:API即服務

下一篇:TF2目標檢測API

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more