NLP	CV
Transformer	ViT
BERT	MAE

在這里插入圖片描述

文章目錄

1. 標題
2. 摘要
3. 模型架構
4. 結論

1. 標題

??Masked Autoencoders Are Scalable Vision Learners指的是帶掩碼的自編碼器是可擴展的視覺學習器，其中這里的Autoencoders指的是模型的輸入和輸出都是相同的，簡單來說Autoencoder=encoder+decoder，

??作者其中包括了ResNet的第一作者何愷明大神，

2. 摘要

??MAE的方法比較簡單：對輸入圖片進行隨機塊的mask，然后對mask塊中的像素進行重構，核心設計主要是源于兩點，

??第一，設計了非對稱的編碼器和解碼器架構，其中編碼器僅對沒有進行mask的區域進行編碼，解碼器是輕量級的，能夠重構原始的圖片，

??第二，如果對圖片中絕大多數的區域進行mask，比如75%，就會得到一個很有意義的自監督任務，

??通過上述兩個設計，就能夠更加有效地訓練大模型，如訓練速度提升3倍，并且提高訓練的精度，

??在ViT-Huge的模型中僅僅使用100W的資料就能得到(87.8%)的準確率，在下游任務進行遷移學習的效果優于有監督的預訓練，

3. 模型架構

在這里插入圖片描述
??其中masked的塊被涂成灰色（絕大部分），將沒有masked的區域作為encoder(ViT)的輸入，將其輸出填入到新構建的長向量中，灰色部分只包含了位置向量填入到新構建的長向量中，然后將長向量輸入到decoder中，最侄訓原出整個原來的圖片，encoder的模型復雜度大于decoder，

4. 結論

??簡單的演算法具有一定的擴展性，是深度學習的核心，在NLP中，簡單的自監督學習方法得到了成功的應用，但在計算機視覺中，預訓練范式絕大多數還是有監督的方法，在本研究中，使用了autoencoder進行類似于NLP的自監督學習，

??在另一方面，由于影像和語言資料的本質并不相同，所以必須謹慎進行處理，在NLP中，一個詞是一個語意的單元，包含的語意資訊是比較多的，在影像中，雖然每個patch包含一定的語意資訊，但它并不是一個語意的segment，MAE能夠學習到比較好的語意表達，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/379390.html

標籤：AI

上一篇：2020年科大訊飛柑橘病蟲害識別挑戰賽前三名隊伍分享

下一篇：pytorch--從零實作一個BERT模型

Masked Autoencoders Are Scalable Vision Learners 論文研讀

文章目錄

1. 標題

2. 摘要

3. 模型架構

4. 結論