我想安裝我自己的分詞器并將其進一步用于預訓練模型,但是,當安裝新的分詞器時,似乎無法選擇詞匯量大小。所以當我呼叫tokenizer.get_vocab()它時總是回傳一個包含 30000 個元素的字典。我該如何改變?這是我所做的:
from tokenizers import Tokenizer
from tokenizers.models import BPE
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
from tokenizers.trainers import BpeTrainer
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
from tokenizers.pre_tokenizers import Whitespace
tokenizer.pre_tokenizer = Whitespace()
tokenizer.train(['transcripts.raw'], trainer) # Here there are no additional arguments for some reason
uj5u.com熱心網友回復:
您可以做的是使用 的vocab_size引數,該引數BpeTrainer默認設定為 30000:
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"], vocab_size=10)
有關更多資訊,您可以查看檔案。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/347341.html
上一篇:來自KFold拆分指數的實際資料
