我有以下示例資料框:
import pandas as pd
d = {'col1': [2, 5, 6, 5, 4, 6, 7, 8, 9, 7, 5]}
df = pd.DataFrame(data=d)
print(df)
輸出:
col1
0 2
1 5
2 6
3 5
4 4
5 6
6 7
7 8
8 9
9 7
10 5
我需要從col1計算前 N 行的斜率,并將斜率值保存在單獨的列中(稱之為lope)。所需的輸出可能如下所示:(為了舉例,下面給出的斜率值只是亂數。)
col1 slope
0 2
1 5
2 6
3 5
4 4 3
5 6 4
6 7 5
7 8 2
8 9 4
9 7 6
10 5 5
因此,在索引號為 4 的行中,斜率為 3,它是 [2, 5, 6, 5, 4] 的斜率。
有沒有不使用 for 回圈的優雅方法?
附錄:
根據下面接受的答案,如果您收到以下錯誤:
TypeError: ufunc 'true_divide' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''
可能是您的資料幀的索引可能不是數字。以下修改使其作業:
df['slope'] = df['col1'].rolling(5).apply(lambda s: linregress(range(5), s.values)[0])
uj5u.com熱心網友回復:
您可以使用rolling apply和scipy.stats.linregress:
from scipy.stats import linregress
df['slope'] = df['col1'].rolling(5).apply(lambda s: linregress(s.reset_index())[0])
print(df)
輸出:
col1 slope
0 2 NaN
1 5 NaN
2 6 NaN
3 5 NaN
4 4 0.4
5 6 0.0
6 7 0.3
7 8 0.9
8 9 1.2
9 7 0.4
10 5 -0.5
uj5u.com熱心網友回復:
讓我們做 numpy
def slope_numpy(x,y):
fit = np.polyfit(x, y, 1)
return np.poly1d(fit)[0]
df.col1.rolling(5).apply(lambda x : slope_numpy(range(5),x))
0 NaN
1 NaN
2 NaN
3 NaN
4 3.6
5 5.2
6 5.0
7 4.2
8 4.4
9 6.6
10 8.2
Name: col1, dtype: float64
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/400517.html
