集成學習讓你的模型更快更準-有解無憂

集成學習是機器學習中重要的分支，比如常用的Bagging和Boosting方法，以及一些機器學習模型如Random Forest，AdaBoost也都屬于集成學習的范疇，在深度學習領域，通過集成多個模型往往也能提升效果，但模型集成相比單個模型的效率并沒有得到系統的研究，近期，Google的一篇論文Wisdom of Committees: An Overlooked Approach To Faster and More Accurate Models系統地研究了基于委員會的模型（committee-based models，即model ensembles or cascades）的效率問題，發現最簡單的模型集成或級聯方法就能達到甚至超過單個SOTA模型的精度，而且計算量和速度上更有優勢，比如兩個EfficientNet-B5模型集成可以達到EfficientNet-B7的精度，但是FLOPs降低了50%（20.5B vs 37B），而級聯兩個EfficientNet-B5模型同樣能達到相同的精度，但FLOPs可以進一步降低到13.1B，論文雖然主要研究了模型集成和級聯在影像分類問題上的效率，但也在其它任務上（視頻分類和語意分割）做了進一步驗證，本文將簡單介紹這篇論文的主要研究內容以及結論，

image.png

模型集成

眾所周知，集成多個模型往往能提升準確度，但引入了額外的計算量；如果固定計算量，那么模型集成是否能夠超越單個模型呢？這里以三個不同的影像分類模型EfficientNet，ResNet和MobileNetV2在ImageNet資料集上的表現來研究這個問題，這個三個架構都包含一系列不同計算量和分類準確度的模型，比如EfficientNet從B0到B7，模型FLOPs增加的同時分類準確度也同步增加，對每個架構，可以訓練很多的模型（對于同樣的模型設定，可以采用不同的隨機種子訓練多個模型）來進行集成來和單個模型進行對比，集成策略可以采用最簡單的求平均方法：假定要對個不同的模型進行集成，對于給定的輸入影像，模型預測的logits為（分類層的輸出向量），取各個模型預測logits的平均值來作為模型集成的預測結果（用模型預測分類概率取平均是模型集成更常用的方法，不過論文實驗發現兩種方案效果是類似的），直接對logits取argmax就可以得到預測的分類類別，模型集成后的FLOPs是各個模型的FLOPs之和，模型集成和單個模型的對比效果如上圖所示，可以看到：

對于大計算量設定，達到同樣的分類性能，模型集成要比單個模型在計算上更高效，比如對于EfficientNetB5/B6/B7和ResNet-152/200模型，集成后的模型的FLOPs要更小；
對于小計算量設定，達到同樣的分類性能，單個模型比模型集成更高效，比如對于MobileNetV2模型，集成后的模型的FLOPs更大一些；

對于這種現象，可以用機器學習中的bias-variance tradeoff理論給出一個合理的解釋，大模型擁有小的bias但大的variance，此時variance對測驗誤差影響較大，而模型集成能有效降低variance；但是小模型的bias大，此時bias往往主導測驗誤差，模型集成帶來的variance收益無法抵消小模型bias的影響，

上面的實驗可以看出對于大模型，通過模型集成可以在達到相同的性能時降低計算量，而且多個模型還可以并行計算從進一步加速，同時，模型集成的總訓練時間也是優于單個模型的，比如兩個EfficientNetB5模型的訓練總時長為96，,比單個EfficientNetB7的訓練時長160要小不少，但集成后與單個模型效果相當，

模型級聯

模型集成雖然簡單，但是存在計算冗余，因為大量的簡單樣本只需要單個模型就能給出正確的分類結果，一種有效降低計算量的方法是采用模型級聯（model cascades），模型集成是并行計算多個模型，而級聯是串行計算多個模型，它允許中間提前終止計算，從而減少計算量，具體如下：可以看到級聯是逐漸地集成多個模型，如果中間滿足了一定條件，就終止后面模型的計算，這里需要一個置信度函式（confidence function）來決定是否停止后面模型的使用，這個置信度函式能給出模型對當前樣本預測的確信度，如果模型對預測結果已經很確信了，那么就沒有必要集成后面的模型了，一種最簡單的置信度函式是計算模型預測的最大概率值：，因為往往預測概率值越大，模型的預測越準確，實際上論文實驗發現大部分的模型存在稍微的underconfident，如下圖所示，比如模型的預測概率為0.6時，模型的分類準確度理論上要接近60%，但實際上模型分類準確度比這個值要高一些（紅色線），這說明模型對自己的預測有點不自信（低估了自己的能力），對于這種問題，可以通過模型校準來解決（藍色線），不過論文發現校準幾乎不影響效果，這大概是模型只存在少量的underconfident，除了用最大預測概率作為置信度外，還可以用其它的指標，比如用最大的概率和第二大概率的gap，最大的logits和第二大logits的gap以及預測分布的負熵，它們都表現相似的性能，如下圖所示（按置信度排序，計算不同topk樣本下的準確度），論文默認采用最大概率，除了置信度函式，個模型級聯還需要確定個閾值，當置信度大于這個閾值時，說明模型預測比較自信，就停止后面的模型計算，當置信度選擇最大概率時，閾值取值范圍為[0,1]，閾值越小，后面模型集成的概率越小，當為0時就退化成單個模型，而為1時就變成完全的模型集成了，模型級聯的FLOPs是變動的，但可以用驗證集上所有圖片的FLOPs的平均值來表示，當閾值從0到1變化時，FLOPs是逐漸增加的，只到全部模型的FLOPs之和，下圖展示了模型級聯在閾值變化下FLOPs和分類準確度的變化，可以看到每個曲線都會收斂到一條平線，這說明模型級聯在達到和模型集成相似的效果下大大降低計算量，如果將之前的模型集成直接轉成模型級聯，模型級聯在不同架構和不同計算量設定下均比單個模型計算更高效（見文中第2個圖），

模型級聯涉及組合不同的模型，而且也需要確定閾值超引數，在特定的條件下，這就變成了一個尋優問題，假定為模型候選集（可用于級聯的模型集合），并限制FLOPs不能超過，模型級聯共選擇個模型，閾值設定為，此時就需要求解一個約束優化問題：同樣地，如果限定的條件是分類準確度下限，那么優化目標變成了最小化FLOPs，由于現實中和往往較小，比如EfficientNet架構設定，此時這個優化問題可以用窮舉法來求解，下表給出了兩種不同的限定條件下，EfficientNet，ResNet和MobileNetV2三種不同的架構模型級聯的效果，可以看到，在相似的FLOPs下，模型級聯的分類準確度要比單個模型有提升；而在相似的分類準確度下，模型級聯的計算量較單個模型降低，對于ViT架構，通過模型級聯也可以得到類似的結論，如下表所示：FLOPs并不直接等價于推理速度，論文同樣對比了模型級聯在TPU上的latency和throughput，如下表所示，可以看到FLOPs的減少確實帶來的推理速度的提升，模型級聯提升效率的優勢主要在于提前停止，比如對于對標B7性能的一個4模型級聯：[B3，B5，B5，B5]，67.3%的影像只用了B3，而只有5.5%的影像用了所有的模型，這相比單個B7大模型可以大幅度減少計算量，

模型級聯計算的是平均FLOPs，對于少量的樣本會用到所有的模型，此時FLOPs就是所有模型的FLOPs之和，這是最差的情況，某些實際的應用場景往往需要保證最大的計算延遲，此時在尋優程序中就需要加上這個限制：，基于這個新增約束，新的實驗結果如下所示，可以看到模型級聯在得到相似的分類性能下，不僅能夠加速，而且也能保證最差的FLOPs小于單個模型，對于模型級聯，除了閾值外，還有一個超引數就是模型數量，論文以EfficientNet實驗，發現3-model級聯要比2-model級聯效果要好一些，但是4-model級聯提升效果就不太明顯了，這說明模型級聯也存在性能上限，

自級聯

模型級聯需要訓練多個模型，如果只有一個模型，其實也可以進行級聯，只不過是改變輸入影像的解析度，大部分情況下，提升輸入影像解析度會提升模型效果（存在上限），據此，在單模型級聯可以逐漸提升影像解析度，論文實驗2-model級聯，如下表所示，可以看到單模型多尺度級聯相比單個模型也能提升計算效率，比如B6模型在528和600尺度上級聯，性能可以達到B7效果，而且加速1.6x，

模型級聯縮放

單個模型可以進行縮放來得到不同FLOPs的模型，比如EfficientNet設計了一個統一縮放因子來縮放模型的depth，width和resolution：，這里，當時，就是EfficientNetB0模型，而對應EfficientNetB7模型，那么模型級聯是否也能夠縮放呢，比如已經建立了一個base模型級聯，是否能對級聯的模型進行縮放，從而得到不同FLOPs下的級聯模型，這里建立一個3-model級聯的模型C0來對應EfficientNetB0，建立C0的候選模型包括13個模型，它們的縮放因子分別為：-4.0, -3.0, -2.0, -1.0, 0.0, 0.25, 0.5, 0.75, 1.0, 1.25, 1.50, 1.75, 2.0 ，部分比EfficientNetB0小，部分比EfficientNetB0大，最終尋優得到的C0其級聯模型為-2.0，0.0，0.75，有了C0，就可以對C0的3個模型分別進行縮放（增加），從而得到不同FLOPs的級聯模型，具體的結果如下所示，構建的C0_{C7可以和EfficientNetB0}B7得到相似的效果，

視頻分類

與影像分類類似，視頻分類模型最后的分類層也是預測logits，所以也可以用相同的方法對模型進行級聯，這里以X3D架構和Kinetics-600資料集為例，X3D架構包括3個不同FLOPs的模型X3D-M，X3D-L和X3D-XL，對比結果如下表所示，可以看到無論是限定FLOPs還是分類準確度，級聯后的模型均優于單個模型，

語意分割

對于語意分割，情況更復雜一些，因為語意分割預測影像中每個像素的分類logits，所以需要調整置信度函式，具體地，先計算每個像素點的最大預測概率值：，然后需要聚合所有像素的結果來得到整個影像的置信度，這里計算的是影像中所有像素點置信度的平均值：，這種方式比較簡答粗暴，但是語意分割的一個現實難點是不同區域的分割難度可能不一樣，如果只采用一個置信度來代表整個影像可能會不夠準確，一個簡單的解決方案是將影像分成不同的網格，對每個格子單獨做級聯，這里以DeepLabV3架構和Cityscapes資料集為例，建立一個2-model級聯（ DeepLabv3-ResNet-50和DeepLabv3-ResNet-101 ），具體的結果如下所示，這里的指的是網格的大小，影像的輸入為1024x2048大小，表示將影像分成8個網格，可以看到，如果不分成網格，雖然級聯后模型的mIoU提升了但是FLOPs卻增加了，如果分成網格能有加速效果，一個要注意的點是，對于語意分割Cityscapes資料集，很多像素點是沒有標注的（訓練和測驗時忽略），這對計算置信度帶來噪音，所以在實際計算整圖置信度時只考慮置信度大于某個固定閾值下的像素點，即，這里設為0.5，

小結

對于模型集成或者級聯，直觀上會覺得增加了計算成本，但如果合理設計后反而是提升計算效率，這在工業部署實踐中還是有比較大的應用意義，不過對于比較復雜的任務如分割和檢測，模型集成就需要比較特殊的設計，

參考

Wisdom of Committees: An Overlooked Approach To Faster and More Accurate Models

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/397512.html

標籤：其他

上一篇：“隔空“”畫板喜迎2022（Opencv & mediapipe 手勢識別應用之空手畫圖）

下一篇：【機器視覺案例】(5) AI視覺，手勢調節物體尺寸，附python完整代碼