使用Huggingface在矩池云快速加載預訓練模型和資料集-有解無憂

作為NLP領域的著名框架，Huggingface(HF)為社區提供了眾多好用的預訓練模型和資料集，本文介紹了如何在矩池云使用Huggingface快速加載預訓練模型和資料集，

1.環境

HF支持Pytorch,TensorFlow和Flax，您可以根據HF官方檔案安裝對應版本，也可以使用矩池云HuggingFace鏡像（基于Pytorch），快速啟動，

矩池云租用機器入門手冊

如果使用其他鏡像，你需要手動安裝 transformers 和 datasets 兩個包：

pip install transformers datasets

HF具體使用方式和代碼請參考官方https://github.com/huggingface/transformers

2.預訓練模型

2.1 預訓練模型簡介

HF里有非常多的預訓練模型，支持不同軟體版本，可用于Pipeline和模型微調，你可以選擇從HF官方Model Hub下載預訓練模型（可能耗時較長），另外矩池云提供了部分常用的預訓練模型，訪問路徑：/public/model/nlp/

預訓練模型名稱（定時更新，也可以聯系矩池云小助手補充）：

模型名稱
albert-base-v2
albert-xxlarge-v2
bert-base-cased
bert-base-chinese
bert-base-uncased
bert-large-uncased
xlm-roberta-base
chinese-bert-wwm-ext
chinese-electra-180g-base-discriminator
chinese-roberta-wwm-ext
clip-vit-base-patch32
code_trans_t5_small_program_synthese_transfer_learning_finetune
deberta-v3-base
deberta-v3-large
distilbart-cnn-12-6
distilbert-base-uncased-finetuned-sst-2-english
distilgpt2
gpt2-chinese-cluecorpussmall
gpt2
roberta-base
t5-base
xlm-roberta-base

2.2 預訓練模型使用方法

首先需要將自己需要使用的預訓練模型zip檔案解壓到矩池云網盤或者機器中其他目錄（存到網盤后下次可以直接使用），使用模型時填入本地存盤路徑即可呼叫，

以使用albert-base-v2模型為例子：

解壓

unzip /public/model/nlp/albert-base-v2.zip -d /mnt/

代碼中使用

如果環境中沒有transformers包，可以先pip install transformers安裝，

from transformers import AutoModel

model = AutoModel.from_pretrained('/mnt/albert-base-v2')
# 注意 /mnt/albert-base-v2 是你解壓后模型檔案所在路徑

3.資料集

3.1 資料集簡介

資料集存放路徑：/public/data/nlp

資料集名稱（定時更新，也可聯系矩池云小助手）：

名稱	描述
dbpedia_14	基于DBpedia2014的14個不重疊的分類資料集，包含40,000訓練樣本和5,000測驗樣本，源自維基百科的語意詞條
glue	通用語言理解評估基準，面向9項任務的資料集，參考gluebenchmark
newsgroup	用于文本分類、文本挖據和資訊檢索研究的國際標準資料集之一，資料集收集了大約20,000左右的新聞組檔案，均勻分為20個不同主題的新聞組集合
squad	斯坦福問答資料集，一個閱讀理解資料集
super_glue	更新版的Glue資料集
wikitext	英語詞庫資料是由Salesforce MetaMind 策劃的包含1億個詞匯的大型語言建模語料庫，這些詞匯都是從維基百科一些經典文章中提取得到
yahooAnswers	資料集源于 Yahoo！Answers Comprehensive Questions and Answers 1.0 的 10 個主要分類資料，每個類別分別包含 140000 個訓練樣本和 5000 個測驗樣本
yelp_review_full	這個資料集是Yelp業務、評論和用戶資料的一個子集，包含大量的評論、業務、用戶、提示和簽到資料

3.2 資料集使用方法

首先需要將自己需要使用的資料集zip檔案解壓到矩池云網盤或者機器中其他目錄（存到網盤后下次可以直接使用），使用資料集時在代碼抬頭添加代碼from datasets import load_from_disk，并將代碼中加載資料集函式load_dataset更改為load_from_disk(資料集存放路徑)即可，部分資料集需指定Subset，

以使用dbpedia_14資料集為例子：

解壓，將資料集解壓到網盤中（確保網盤空間足夠）

unzip /public/data/nlp/dbpedia_14.zip -d /mnt/

代碼中使用

如果環境中沒有datasets包，可以先pip install datasets安裝，

from datasets import load_from_disk

data = https://www.cnblogs.com/matpool/p/load_from_disk('/mnt/dbpedia_14')
# 注意 /mnt/dbpedia_14 是你解壓后資料集檔案所在路徑

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/500317.html

標籤：其他

上一篇：【cartographer_ros】八：官方Demo引數配置和效果

下一篇：TFrecord寫入與讀取