我有一個基本資料集,其中一個物件名為“評論”,一個名為“毒性”的浮點數。我的資料集的形狀是 (1999516, 2)

我正在嘗試使用 nltk 的單詞標記化方法添加一個名為“標記化”的新列,并創建這樣的詞袋:
dataset = pd.read_csv('toxic_comment_classification_dataset.csv')
dataset['tokenized'] = dataset['comment'].apply(nltk.word_tokenize)
如“ IN [22] ”中所述
我沒有收到錯誤訊息,直到我等了 5 分鐘后才收到此錯誤:
型別錯誤:預期的字串或類似位元組的物件
如何在我的向量(資料幀)中添加標記化注釋作為新列?
uj5u.com熱心網友回復:
這取決于您評論欄中的資料。看起來并不是所有的都是字串型別。您只能處理字串資料,并保持其他型別不變
dataset['tokenized'] = dataset['comment'].apply(lambda x: nltk.word_tokenize(x) if isinstance(x,str) else x)
該nltk.word_tokenize(x)是一個耗費資源的功能。如果你需要并行化你的 Pandas 代碼,有一些特殊的庫,比如Dask。請參閱使 Pandas DataFrame apply() 使用所有內核?.
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/376562.html
