我們知道稀疏門控混合專家網路(MOE)在自然語言處理中表現出良好的可伸縮性,然而,在計算機視覺中,幾乎所有的性能網路都是"密集的",也就是說,每個輸入都由每個引數處理,
Google 最近提出了一個Vision MoE(V-MoE),它是 Vision Transformer 的一個稀疏版本,具有可擴展性,可以與最大的密集網路相媲美,
論文地址:https://arxiv.org/pdf/2106.05974.pdf Github:https://github.com/google-research/vmoe
當應用于影像識別時,V-MoE與最先進網路的性能相匹配,同時在推理時只需要一半的計算量,
此外,Google 還提出了一種路由演算法的擴展,該演算法可以在整個批次中對每個輸入的子集進行優先級排序,從而實作自適應的每影像計算,這允許 V-MoE 在測驗時權衡性能并平滑計算,
V-MoE 在縮放視覺方面非常有潛力,在 ImageNet 上訓練了一個15B引數模型,該模型達到 90.35%,
干貨推薦
- 浙大博士導師深度整理:Tensorflow 和 Pytorch 的筆記(包含經典專案實戰)
- 值得收藏,這份機器學習演算法資料著實太香
- 比 PyTorch 的官方檔案還香啊,吃透PyTorch中文版來了
- 趕快收藏,PyTorch 常用代碼段PDF合輯版來了
架構描述

V-MoE 由 ViT 塊組成,我們將 MLP 替換為稀疏活化的MLP混合物,每個MLP(專家)存盤在單獨的設備上,并處理固定數量的令牌,這些令牌在設備專家之間的通信使用容量比:稀疏MoE層每個設備接收12個令牌,
實驗結果
我們首先在JFT-300M(一個大型影像資料集)上對模型進行一次預訓練,下面的左圖顯示了我們對各種型號的預培訓結果:從小型S/32到大型H/14,
然后,我們使用新的頭部(模型中的最后一層)將模型轉移到新的下游任務(如ImageNet),我們探索了兩種轉移設定:要么在新任務的所有可用示例上微調整個模型,要么凍結預先訓練的網路,并僅使用幾個示例(稱為少數鏡頭轉移)調整新頭部,
下圖總結了我們在ImageNet的傳輸結果

在這兩種情況下,稀疏模型在給定的訓練計算量(如ViT線上方的V-MoE線所示)下的性能明顯優于密集模型,或者更快地實作類似的性能(如ViT線左側的V-MoE線所示),
為了探索視覺模型的局限性,我們在 JFT-300M 的擴展版本上訓練了一個150億引數的模型,該模型具有24個MoE層(共48個塊),這個巨大的模型——據我們所知是迄今為止最大的視覺模型——經過微調后,在ImageNet上達到了90.35%的測驗精度,接近當前的最先進水平,
優先級路由
在實踐中,由于硬體限制,使用動態大小的緩沖區效率不高,因此模型通常為每個專家使用預定義的緩沖區容量,一旦專家變得“滿”,超出此容量的分配令牌將被丟棄并且不會被處理,因此,更高的容量會產生更高的準確性,但它們的計算成本也更高,
我們利用這種實作約束來使 V-MoE 在推理時更快,通過將總組合緩沖區容量降低到要處理的令牌數量以下,網路被迫跳過處理專家層中的一些令牌,該模型不是以某種任意方式選擇要跳過的標記(就像以前的作業那樣),而是學習根據重要性分數對標記進行排序,這樣可以保持高質量的預測,同時節省大量計算,我們將這種方法稱為批量優先級路由 (BPR),如下圖所示,

事實證明,洗掉正確的令牌對于提供高質量和更有效的推理預測至關重要,當專家容量減少時,普通路由機制的性能會迅速下降,相反,BPR 對低容量更為穩健,

總體而言,我們觀察到 V-MoE 在推理時非常靈活:例如,可以減少每個令牌選定專家的數量以節省時間和計算,而無需對模型權重進行任何進一步的訓練,
結論
Google 已經使用稀疏條件計算來訓練一些迄今為止最大的視覺模型,在表征學習和遷移學習方面顯示出顯著的改進,除了V-MoE之外,它還提出了批量優先路由,允許成功地重新調整模型稀疏性的用途,以引入關于輸入的稀疏性,這可以在不進一步調整模型的情況下完成,從而允許通過稀疏條件計算重復使用經過訓練的模型,
這只是視覺尺度條件計算的開始,擴展包括擴大專家數量、減少對資料的依賴性以及改進稀疏模型產生的表示的傳輸,與異構專家架構和條件可變長度路由相關的方向也應該是富有成效的,Google 期望稀疏模型縮放越來越重要,特別是在資料豐富的領域,如大規模多模態或視頻建模,
技術交流
目前已開通了技術交流群,群友已超過1000人,添加時最好的備注方式為:來源+興趣方向,方便找到志同道合的朋友
- 方式①、發送如下圖片至微信,長按識別,后臺回復:加群;
- 方式②、微信搜索公眾號:機器學習社區,后臺回復:加群;
- 方式③、可以直接加微信號:mlc2060,加的時候備注一下:研究方向 +學校/公司+CSDN,即可,然后就可以拉你進群了,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/413338.html
標籤:其他
上一篇:“一圖一庫”助力行業資訊化轉型,TDengine在交通運輸行業的落地應用
下一篇:CondaHTTPError: HTTP 000 CONNECTION FAILED for url解決方法(不用換源,簡單有效)
