文章目錄
- 1. 資料準備
-
- 1.1 構建語料庫
- 1.2 構建字典檔案
- 2. 創建預訓練資料
- 3. 預訓練
- 4. 訓練BERT代碼鏈接
- 5. BERT下游任務應用舉例
-
- 5.1 將tf模型轉換成pytorch格式
- 5.2 使用simpletransformers進行文本分類
1. 資料準備
1.1 構建語料庫
??如果沒有給定語料庫檔案(如corpus.txt),則可使用訓練集、測驗集資料來構建語料庫檔案,具體代碼如下所示(代碼檔案名為):
filtered_line = set()
with open('../../data/raw/train.txt', 'r') as f:
line = f.readline()
while line:
if line[-1] != '\n':
line += '\n'
filtered_line.add(line)
line = f.readlin
CSDN認證博客專家
演算法研究員
天池冠軍
CSDN簽約作者
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/262505.html
標籤:AI
