我正在讀取 CSV 檔案以通過 Python 計算一些統計資料。
我知道我可以在程式開始時使用轉換器來調整一些潛在的資料問題,但是由于某種原因,當我嘗試這樣做時,它會出現夸大結果的錯誤。
這是一個 20 列的 CSV 檔案,包含超過 1000 行資料。公共領域資料鏈接在這里:
顯然,這也不好。如何設定標題以繞過單詞'Episodes'并進行計算,或者如何重寫df = pd.read_csv (r'dataanime.csv', encoding='utf-8', header=None, skiprows=1, converters = {2 : lambda s: float(s.replace('Episodes','').join(s.replace('-','0')))})以糾正此問題?
uj5u.com熱心網友回復:
通過讓 Pandas 弄清楚如何處理標題,可以更輕松地閱讀 CSV 檔案。通過不向headerand傳遞任何內容skiprows,Pandas 將推斷出 CSV 中的第一行是標題行并適當地命名您的列。要處理"-"Episode值,您可以設定na_values指示該"-"列中是NaN值,并dropna()在計算統計資料時用于洗掉這些行。
df = pd.read_csv("dataanime.csv", encoding="utf-8", na_values={"Episodes": "-"})
# calculate stats on the Episodes columns
episode_values = df["Episodes"].dropna()
mean1 = episode_values.mean()
sum1 = episode_values.sum()
...
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/368635.html
