我目前正在處理一個非常大的資料集(> 7000 萬行,10 多列),它涉及間隙填充、前向填充、重新索引等。但是花費最多時間(超過 50% 的運行時間)的步驟很簡單用組合為字串的兩列的值替換列變數的代碼。示例代碼是:
df["id_date"] = df['id'].astype(str) "_" df["date"].astype(str)
有沒有辦法提高這一步的速度?我很驚訝這比想象的更復雜的步驟花費的時間要長得多。
uj5u.com熱心網友回復:
看看Series.str.cat:
df['id_date'] = df['id'].str.cat(df["date"], sep='_')
話雖如此,與任何冗余資訊一樣,您最好不要擁有此列,或者至少只按需創建資料而不是預先創建資料。
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/478126.html
下一篇:字串索引超出范圍的問題
