我有一個dataframe每行包含大量文本的熊貓,轉換為.pkl. 現在我想從這個資料框中列出一個單詞串列,我認為簡單的事情[word for text in df.text for word in i.split()]就足夠了,但是,這個運算式在 10 秒內吃掉了所有 16GB 的記憶體,僅此而已。我覺得它是如何作業的真的很有趣,為什么它不超過 1.6GB?我知道串列分配了更多的記憶體以便能夠擴展,所以我嘗試了元組 - 相同的結果。我什至嘗試將所有內容作為元組寫入檔案('one', 'two', 'three'),然后打開檔案并執行eval- 仍然是相同的結果。為什么會這樣?pandas 是壓縮資料還是 python 效率低下?什么是更好的方法?
uj5u.com熱心網友回復:
您可以使用發電機。例如map(func, iterable)
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/336078.html
上一篇:標記資料框中的物體
