【一周聚焦】聯邦學習 arxiv 2.16-3.10-有解無憂

這是一個新開的每周六定期更新欄目，將本周arxiv上新出的聯邦學習等感興趣方向的文章進行總結，與之前精讀文章不同，本欄目只會簡要總結其研究內容、解決方法與效果，這篇作為欄目首發，可能不止本周內容（畢竟欠賬太多了），

量化

A. T. Suresh, Z. Sun, J. H. Ro, and F. Yu, “Correlated quantization for distributed mean estimation and optimization,” arXiv:2203.04925 [cs, math], Mar. 2022, Accessed: Mar. 10, 2022. [Online]. Available: http://arxiv.org/abs/2203.04925

這是谷歌團隊關于DME的最新研究成果，其中Suresh從2017年就深耕這一塊，算是老朋友了，而Felix X. Yu剛好是之前Federated Learning with Only Positive Labels這篇文章的作者，算是新朋友，

這篇文章的特點在于提出了correlated quantization protocol，把量化的重點從以前的資料邊界轉移到了deviation of data points，得到了比傳統隨機量化更好的性能，雖然之前的作業就提到了當資料點有更好的集中性質時，可以獲得更好的錯誤收斂表現，但都需要需要comcentration radius，location of the mean等先驗知識，而本文則不需要這些邊資訊，

結果表現除了更高的收斂速率，結合FL之后也有了更高的準確率，可以看到在DME上是取得了較為明顯的改善，不過對于具體應用上似乎改善較為有限，當然可能是因為MNIST過于簡單了，
J. Wang et al., “FedLite: A Scalable Approach for Federated Learning on Resource-constrained Clients,” arXiv:2201.11865 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2201.11865

這是CMU學生在谷歌實習時做的作業，作者串列里同樣有Felix Yu，這篇文章之前投過會議，因為寫作太差了被拒了，現在加了收斂性分析、梯度矯正等部分，寫法上也細致很多，文章研究的是大型模型傳輸的問題，選擇的方法是split learning，也就是每次只有一部分模型在用戶端存盤和訓練，而大部分模型都在服務器端，為了進一步降低通信開銷，文章用了聚類來得到梯度的質心從而進一步壓縮，最終能帶來490倍的通信開銷下降，整個結構的關鍵點在于部分網路傳輸時如何收斂，如何選取合適的梯度進行聚類、以及后向傳播時的梯度糾正到底有何作用，總的來說，這是一篇值得細讀和復現的文章，
E. Agrell and B. Allen, “On the best lattice quantizers,” arXiv:2202.09605 [astro-ph, physics:gr-qc, physics:math-ph], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2202.09605

將1996年Zamir and Feder的格量化的經典論文進行了推廣，

異構

S. S. Mahara, S. M., B. N. Bharath, and A. Murthy, “Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks,” arXiv:2108.02517 [cs, math], Mar. 2022, Accessed: Mar. 10, 2022. [Online]. Available: http://arxiv.org/abs/2108.02517

這是一篇IIT團隊的文章，有點三哥的特性，吹得神乎其技細看常規操作，作者研究的FL在multi-task領域，也就是每個用戶的神經網路不完全相同（原來這個已經有很多作業了），而本文新加了瑞利平坦衰落信道下的傳輸和收斂性理論分析兩個貢獻點，演算法上的創新在于將用戶的loss進行加權平均，并利用一些bound來限制住估計值和真實值的距離，從而提高估計的準確度，服務器使用符號梯度反饋來得到personalized NN，

看演算法似憾訓是從用戶梯度的差異性（或資料分布的相似度）來衡量相似度的，有一種聚類的感覺在里面，

最終在MNIST上的實驗結果表明比FedAvg和FedSGD要好，不過沒有比過sign SGD不知道是什么鬼，
C. Xu, Z. Hong, M. Huang, and T. Jiang, “Acceleration of Federated Learning with Alleviated Forgetting in Local Training,” arXiv:2203.02645 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2203.02645

這是清華的ICLR2022文章，研究了如何對抗聯邦學習中的異構性，作者認為現有方法較慢的原因在于本地學習會著重看到自己的資訊，從而遺忘之前學到的知識，因此在考慮所有用戶之前樣本的loss產生較大增幅，因此作者提出FedReg演算法來避免知識遺忘，具體做法時將global model學到的之前訓練資料的資料編碼成pseudo data，并且在本地訓練時對此添加正則化，實驗顯示生成的pseudo data包含了與其他用戶之前訓練資料相同的Fisher information，在MNIST上的實驗結果達到了0.978的準確率，在CIFAR10上也區的了比FedProx還要好的最佳性能，達到了0.616，可能的缺陷在于受調參的影響比較大，

這篇文章有開源的代碼，可以好好學習，
J. Mori, I. Teranishi, and R. Furukawa, “Continual Horizontal Federated Learning for Heterogeneous Data,” arXiv:2203.02108 [cs], Mar. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2203.02108

日本電氣股份有限公司的文章，解決異構資料的出發點依然是解決連續訓練中的遺忘問題（continue learning，catastrophic forgetting），與清華的思路異曲同工，這篇文章和我之前的思路是一致的，在異構資料中，對共有的標簽進行聯邦學習，對自己獨有的異構資料進行本地獨立學習，之前遇到的問題是沒有找到這兩種學習的合并方式，而這篇文章給出的方法是按照列劃分，分別對應共有標簽和特征標簽，不過在仿真部分，他沒有用常見的公開資料集，而是用的是forest covertype dataset等資料集，不太好比較性能，
S. Nikoloutsopoulos, I. Koutsopoulos, and M. K. Titsias, “Personalized Federated Learning with Exact Stochastic Gradient Descent,” arXiv:2202.09848 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2202.09848

依舊是研究personlized federated learning的文章，來源于雅典經濟與商業大學，與上一篇日本NEC集團的文章一樣，都是考慮兩種網路結構的組合，分別代表用戶間的共有層和個性化的用戶層，看來這種來自于FedPer (Arivazhagan et al., 2019)的思路已經并不新奇，只是訓練方式稍有不同，常見的personalized FL方法有
- fine tuning a global model
- feature transfer：類似multi-task of feature transfer model（看來異構網路的訓練與Multi-task learning結合的思路有很多研究）
本文提到的訓練方式是先隨機選取部分用戶來根據本地資料訓練用戶層，在最后上傳的時候，包括共有層地進行訓練并上傳梯度，

不過最終的結果看來，這個方法都不一定比FedAvg的效果好，估計在這種網路架構上研究不同訓練方法的路子已經不太好走了，
F. Chen, G. Long, Z. Wu, T. Zhou, and J. Jiang, “Personalized Federated Learning With Structure,” Mar. 2022, doi: 10.48550/arXiv.2203.00829.

同樣是考慮異構網路，另外一篇悉尼科技大學的文章重點研究的是personalized FL (PFL)，并在在knowledge sharing的基礎上進一步考慮了用戶間的結構資訊，這里的結構資訊其實就是圖神經網路里的拓撲資訊，具體實作上還是用戶模型引數的相似度，在優化的實作上，看起來也依然是通過增加表示相關關系的正則項來實作的，
D. Makhija, X. Han, N. Ho, and J. Ghosh, “Architecture Agnostic Federated Learning for Neural Networks,” Feb. 2022, doi: 10.48550/arXiv.2202.07757.

這是UT Austin團隊關于異構FL的解決方案，表面是打造personalised model，本質還是transfer learning 或者 knowledge distillation，作者說他考慮的是instance-level representations（又叫做proximal term），不過我理解和embedding應該大同小異，具體用的表示距離上的metric是centered kernel alignment (CKA)，屬于是不知道從哪兒找出來的指標，然后加在損失函式里面作為一個正則項，

\[\min _{\mathcal{W}_{i}} \mathcal{L}_{i}=\mathcal{F}\left(\mathcal{W}_{i}\right)+\eta \operatorname{CKA}\left(K_{i}, \bar{K}(t-1)\right) \]
H. Cho, A. Mathur, and F. Kawsar, “FLAME: Federated Learning Across Multi-device Environments,” arXiv:2202.08922 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2202.08922

這篇是CMU學生在諾基亞貝爾實驗室實習的文章，技術性不多，更像是一篇調度相關的期刊文章，文章考慮異構FL的以下三個方面
- 以用戶為中心的不同設備的時間調度
- 基于準確度與效率的設備選擇
- 設備的模型個性化
或許是和業界結合的原因，提出了用戶為中心的多設備FL其實比較有新意，設備的異構特性又很自然地引入到了FL的異構性當中，因此在訓練中需要兼顧用戶和設備的兩個異構性，不過文章給出的用戶異構性就是每個不同用戶序列地訓練，比較trivial，在設備選擇上，直觀地定義了多個變數，也就是statistical utility, system utility, time utility，作為選擇的依據，在模型個性化上，也是加正則項的老套路，

其中model updata部分\((v_i-w^r)\)的正則就是用于確保用戶模型的引數不會過于遠離全域模型，另外這篇文章比較體現業界形態的就是提出了experiment testbed，最后在文章總結的personalization in FL也比較全面，值得參考，
E. Gasanov, A. Khaled, S. Horváth, and P. Richtárik, “FLIX: A Simple and Communication-Efficient Alternative to Local Methods in Federated Learning,” arXiv:2111.11556 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2111.11556

這是KAUST和普林斯頓合作的文章，看到作者Richtárik就知道又有硬核的收斂性分析了，依然考慮personalized FL，本文的思路是直接修改優化目標函式，

\[\min _{x \in \mathbb{R}^{d}} \tilde{f}(x) \stackrel{\text { def }}{=} \frac{1}{n} \sum_{i=1}^{n} f_{i}\left(\alpha_{i} x+\left(1-\alpha_{i}\right) x_{i}\right) \]
其中\(x_i\)是每個用戶本地資料的最小值，\(\alpha_i\)是每個用戶的個性化系數，這個式子其實和正則項的形式很相近，只是把合并項拿到了自變數里面，同時集中的點從global model換成了本地的最優值，這種其實并不算深度學習了，主要是優化，在考慮\(L_i\)-smooth函式下進行分析，而且真要跑實驗效果的話，超參\(\alpha\)感覺也需要autoML來處理，
O. Marfoq, G. Neglia, A. Bellet, L. Kameni, and R. Vidal, “Federated Multi-Task Learning under a Mixture of Distributions,” arXiv:2108.10252 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.10252

之前都不知道法國在機器學習這一塊有多強，這篇法國國家資訊與自動化研究所的NeurIPS 2021文章簡直太猛了，在面對異構資料的時候，文章假設每個本地資料分布都是\(M\)個未知的潛在分布的混合，而這就為用戶的知識聚合找到了原因，在這個想法下，一個personlized model是\(M\)個共享的模型部分的線性組合，用戶聯合地學習這\(M\)個部分，而個性化的部分就體現在混合權重不同，這個方法將現有的personalized FL演算法甚至FedEM演算法都表示為特例，包括
- Clustered FL
- personalization via model interpolation
- Federated MTL via task relationships
作者給出了開源的代碼，結果顯示比現有的演算法效果都強，

對于之后的研究方向，作者聯系到了利用資料分布進行量化（這方面FedEM已經在不考慮個性化的前提下完成了）以及更好的隱私控制，
B. Zhao, Z. Liu, C. Chen, M. Kolar, Z. Zhang, and J. Zhou, “Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback,” arXiv:2112.14332 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2112.14332

悉尼科技大學的AAAI 2022文章，同樣是針對異構用戶的misalignment問題，這篇文章的解決方法是用prototypes aggregation來代替傳統的gradient aggregation，這里的prototype指的是the mean of multiple features，我理解的是對應的特征，這個思路其實和Federated Learning with Only Positive Labels這篇文章很相似，都是將輸入先進行一個embedding，然后用embedding來進行分類，因此只要找到了好的embedding，那分類的難度其實不大，在訓練的時候，本地用戶在訓練本地資料的同時，保證和聚合的global prototpye的距離盡量小，避免產生較大的分歧，

最終仿真結果里比較突出的一點是其傳輸的資料量大大降低，可能是用embedding的值代替了傳輸的網路梯度帶來的好處，
G. Cheng, K. Chadha, and J. Duchi, “Federated Asymptotics: a model to compare federated learning algorithms,” arXiv:2108.07313 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.07313

這是斯坦福Duchi團隊的文章，有很強的統計學色彩，一上來就是asymptotic risk之類的就看不懂了，做不來這種，

泛化性/收斂性

M. Sefidgaran, A. Gohari, G. Richard, and U. ?im?ekli, “Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms,” Mar. 2022, doi: 10.48550/arXiv.2203.02474.

這篇巴黎理工學院的文章從資訊論的角度研究了隨機優化的泛化性，現有的泛化性分析方法包括
- mutual information between the data sample and the algorithm output
- compressibility of the hypothesis space
- fractal dimension of the hypothesis space
而這篇文章通過rate-distortion theory的角度對這三個分析角度結合成了一個數學框架，并且將“壓縮錯誤率”和泛化誤差聯系了起來，
M. Fereydounian, A. Mokhtari, R. Pedarsani, and H. Hassani, “Provably Private Distributed Averaging Consensus: An Information-Theoretic Approach,” arXiv:2202.09398 [cs, math], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2202.09398

這篇文章出自于賓大的團隊，研究了去中心化下consensus averaging中隱私和收斂性的關系，其實distributed consensus problem是一個經典的問題，而且其收斂性質已經有廣泛研究，然而，現有的交換本地資訊的想法會泄露隱私資訊，這正是本文改進的地方，文章提出演算法來設計有噪聲的資訊，從而在保證原有速率的基礎上，最小化本地值的隱私泄露，通過訊息的互資訊來量化泄漏的隱私量，最終得到了隱私與收斂時間的tradeoff，

如果要強行做安全相關的東西，這部分可以很好的與information-theoretic perspective相結合，
J. Liu, H. Zhao, D. Ma, K. Mei, and J. Wei, “Opening the Black Box of Deep Neural Networks in Physical Layer Communication,” arXiv:2106.01124 [cs, eess, math], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2106.01124

國防科大發布的一篇會議短文，研究了在用autoencoder表征物理層通信系統并進行訓練時，資訊的流動，看起來還是仿真居多，不是很可靠，但是怎么結合資訊論似憾訓是個令人比較好奇的地方，
Y. Deng, M. M. Kamani, and M. Mahdavi, “Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time,” arXiv:2107.10868 [cs, math], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2107.10868

這是一篇賓州立的AISTATS 2022的文章，分析了在ReLU激活函式的深層神經網路下，local SGD和FedAvg能在多項式時間內收斂，相對于傳統的gradient Lipschitzness條件，文章主要考慮以下三個方面
- semi gradient Lipschitzness
- shrinkage of local loss
- local model deviation analysis
最終表明即使ReLU網路不滿足gradient Lipschitzness條件，本地梯度與全域引數之間的差異在本地SGD的動態特性下也不回差得太大，看起來convergence theory of NN依然是一個比較活躍的方向，而且乍一看也沒有用分段線性這種無腦的思路，這篇文章沒有對網路結構的超參進行研究，感覺是挺有意思的一篇文章，

架構

D. J. Beutel et al., “Flower: A Friendly Federated Learning Research Framework,” arXiv:2007.14390 [cs, stat], Mar. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2007.14390

這是劍橋大學等歐洲高校主導開發的FL架構，其實2020年7月就發布了，到現在斷斷續續已經是第五版，不知道這次放上來到底是有改動還是刷存在感，提出架構的原因還是在于從科研環境的仿真遷移到實際應用當中，而Flower主打的特色在于大規模的用戶數量（15M）

圖片里x軸是總的用戶數量，y軸是并發的用戶數量，可以看到Flower明顯得超過其他架構，同時架構中內置了諸多常用演算法，雖然沒有實作的必要，但是對于聯邦學習而言，知道這些經典演算法肯定是很有必要的，

我覺得這篇文章主要用的技術就是Virtual Client Engine (VCE)，能夠將inactive的用戶的資源減少接近到零，從而提升可支持的用戶數量，

另外還有若干架構，如果之后要做這方面落地的作業可以再看看，否則目前用處不大，還是先好好看代碼吧，

重點文章推薦

J. Wang et al., “FedLite: A Scalable Approach for Federated Learning on Resource-constrained Clients,” arXiv:2201.11865 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2201.11865
研究部分網路如何收斂，以及代碼復現
C. Xu, Z. Hong, M. Huang, and T. Jiang, “Acceleration of Federated Learning with Alleviated Forgetting in Local Training,” arXiv:2203.02645 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2203.02645.
學習代碼
O. Marfoq, G. Neglia, A. Bellet, L. Kameni, and R. Vidal, “Federated Multi-Task Learning under a Mixture of Distributions,” arXiv:2108.10252 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.10252
資料分布與訓練效果的關系
M. Sefidgaran, A. Gohari, G. Richard, and U. ?im?ekli, “Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms,” Mar. 2022, doi: 10.48550/arXiv.2203.02474.
網路泛化性與資訊論的統一框架

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/442819.html

標籤：其他

上一篇：“創新雷神號”衛星成功發射，華為云分布式云原生“天地一體”首次組網成功

下一篇：即構推出「虛擬世界」解決方案，構建身臨其境的社交世界！

【一周聚焦】 聯邦學習 arxiv 2.16-3.10

量化

異構

泛化性/收斂性

架構

重點文章推薦

【一周聚焦】聯邦學習 arxiv 2.16-3.10