我有 NLP 問題,涉及一些編碼分配,例如“fn_point->extract.isolate_r”,當我使用時word_tokenize,分配“ ->”是這樣拆分的["fn_point-", ">", "extract.isolate_r"]。
我做了以下事情:
from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)
->c語言中的賦值運算子,如何將“ ”保留為一個詞?
uj5u.com熱心網友回復:
這有點臨時但可以完成作業:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('[\w\.] |\d |\->')
tokenizer.tokenize(sentence)
輸出
['The', 'functional', 'list', 'fn_point', '->', 'extract.isolate_r', 'of', 'size', '32', 'is', 'not', 'valid']
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/383159.html
標籤:Python 蟒蛇-3.x 正则表达式 细绳 nltk
上一篇:例外未處理的彈出視窗
