作為NLP領域的著名框架,Huggingface(HF)為社區提供了眾多好用的預訓練模型和資料集,本文介紹了如何在矩池云使用Huggingface快速加載預訓練模型和資料集,
1.環境
HF支持Pytorch,TensorFlow和Flax,您可以根據HF官方檔案安裝對應版本,也可以使用矩池云HuggingFace鏡像(基于Pytorch),快速啟動,
矩池云租用機器入門手冊

如果使用其他鏡像,你需要手動安裝 transformers 和 datasets 兩個包:
pip install transformers datasets
HF具體使用方式和代碼請參考官方https://github.com/huggingface/transformers
2.預訓練模型
2.1 預訓練模型簡介
HF里有非常多的預訓練模型,支持不同軟體版本,可用于Pipeline和模型微調,你可以選擇從HF官方Model Hub下載預訓練模型(可能耗時較長),另外矩池云提供了部分常用的預訓練模型,訪問路徑:/public/model/nlp/
預訓練模型名稱(定時更新,也可以聯系矩池云小助手補充):
| 模型名稱 |
|---|
| albert-base-v2 |
| albert-xxlarge-v2 |
| bert-base-cased |
| bert-base-chinese |
| bert-base-uncased |
| bert-large-uncased |
| xlm-roberta-base |
| chinese-bert-wwm-ext |
| chinese-electra-180g-base-discriminator |
| chinese-roberta-wwm-ext |
| clip-vit-base-patch32 |
| code_trans_t5_small_program_synthese_transfer_learning_finetune |
| deberta-v3-base |
| deberta-v3-large |
| distilbart-cnn-12-6 |
| distilbert-base-uncased-finetuned-sst-2-english |
| distilgpt2 |
| gpt2-chinese-cluecorpussmall |
| gpt2 |
| roberta-base |
| t5-base |
| xlm-roberta-base |
2.2 預訓練模型使用方法
首先需要將自己需要使用的預訓練模型zip檔案解壓到矩池云網盤或者機器中其他目錄(存到網盤后下次可以直接使用),使用模型時填入本地存盤路徑即可呼叫,
以使用albert-base-v2模型為例子:
- 解壓
unzip /public/model/nlp/albert-base-v2.zip -d /mnt/
- 代碼中使用
如果環境中沒有transformers包,可以先pip install transformers安裝,
from transformers import AutoModel
model = AutoModel.from_pretrained('/mnt/albert-base-v2')
# 注意 /mnt/albert-base-v2 是你解壓后模型檔案所在路徑
3.資料集
3.1 資料集簡介
資料集存放路徑:/public/data/nlp
資料集名稱(定時更新,也可聯系矩池云小助手):
| 名稱 | 描述 |
|---|---|
| dbpedia_14 | 基于DBpedia2014的14個不重疊的分類資料集,包含40,000訓練樣本和5,000測驗樣本,源自維基百科的語意詞條 |
| glue | 通用語言理解評估基準,面向9項任務的資料集,參考gluebenchmark |
| newsgroup | 用于文本分類、文本挖據和資訊檢索研究的國際標準資料集之一,資料集收集了大約20,000左右的新聞組檔案,均勻分為20個不同主題的新聞組集合 |
| squad | 斯坦福問答資料集,一個閱讀理解資料集 |
| super_glue | 更新版的Glue資料集 |
| wikitext | 英語詞庫資料是由Salesforce MetaMind 策劃的包含1億個詞匯的大型語言建模語料庫,這些詞匯都是從維基百科一些經典文章中提取得到 |
| yahooAnswers | 資料集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10 個主要分類資料,每個類別分別包含 140000 個訓練樣本和 5000 個測驗樣本 |
| yelp_review_full | 這個資料集是Yelp業務、評論和用戶資料的一個子集,包含大量的評論、業務、用戶、提示和簽到資料 |
3.2 資料集使用方法
首先需要將自己需要使用的資料集zip檔案解壓到矩池云網盤或者機器中其他目錄(存到網盤后下次可以直接使用),使用資料集時在代碼抬頭添加代碼from datasets import load_from_disk,并將代碼中加載資料集函式load_dataset更改為load_from_disk(資料集存放路徑)即可,部分資料集需指定Subset,
以使用dbpedia_14資料集為例子:
- 解壓,將資料集解壓到網盤中(確保網盤空間足夠)
unzip /public/data/nlp/dbpedia_14.zip -d /mnt/
- 代碼中使用
如果環境中沒有datasets包,可以先pip install datasets安裝,
from datasets import load_from_disk
data = https://www.cnblogs.com/matpool/p/load_from_disk('/mnt/dbpedia_14')
# 注意 /mnt/dbpedia_14 是你解壓后資料集檔案所在路徑
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/500317.html
標籤:其他
上一篇:【cartographer_ros】八: 官方Demo引數配置和效果
下一篇:TFrecord寫入與讀取
