文章目錄
- 1. EDA
- 2. 回譯
- 3. 環境安裝
-
- 3.1 安裝synonyms
- 4. 代碼鏈接
??在人工智能領域中,最核心的莫過于演算法、資料和算力,隨著科技的發展,算力日益增長、演算法日益智能,高質量的資料成為了阻礙AI發展的一大瓶頸,
??在計算機視覺領域中,資料增強的方法較為常用,例如通過影像縮放、影像裁剪、mixup等資料增強的方法可以有效的提高任務的準確率,隨著技術的發展,在自然語言處理領域中也產生了一些有效的資料增強演算法,例如EDA(Easy Data Augmentation)、回譯、文本生成等,在NLP比賽中,比較簡單但卻有效的方法主要是EDA和回譯,
1. EDA
??EDA指的是簡單資料增強,包括了同義詞替換、隨機插入、隨機洗掉、隨機交換,其中同義詞替換指的是從句子中隨機選取一定比例的詞(不屬于停用詞的,下同),使用同義詞來替換它們;隨機插入指的是從句子中隨機選取詞,然后得到該詞的同義詞,并將同義詞插入句子的一個隨機位置,將上述操作重復進行若干次;隨機洗掉指的是在隨機選擇句子中一定比例的單詞進行洗掉;隨機交換指的是在句中隨機選擇兩個不同位置的單詞,并將其進行交換,將上述操作重復進行若干次,為了更好的進行理解,通過實體來進行說明,原始句子為:帶著無限同情偷轉導師日志:學
CSDN認證博客專家
演算法研究員
天池冠軍
CSDN簽約作者
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/263759.html
標籤:AI
