這是一個嵌套回圈，其中內部索引依賴于外部索引，具有以下引數：

f = rand(1,70299)
nech=24*30*24
N=length(f);
xh=(1:nech)/24;

在 MATLAB 中：

sf2(1:nech)=0.;
sf2vel(1:nech)=0.;
count(1:nech)=0.;

for i=1:nech
    for j=1:N-i-1
        sf2(i)=sf2(i) (f(j i)-f(j))^2;
        count(i)=count(i) 1; 
    end
    sf2(i)=sf2(i)/count(i);
end

在 Python 中：

def structFunPython(f,N,nech):
    sf2 = np.zeros(N)
    count = np.zeros(N)
    for i in range(nech):
        indN = np.arange(1,N-i-1)
        for j in indN:
            sf2[i]  = np.power((f[i j]-f[i]),2)
            count[i]  = 1
        sf2[i] = sf2[i]/count[i]
    return sf2

使用 cython：

import cython
cimport numpy as np
import numpy as np
def structFun(np.ndarray f,N,nech):
    cdef np.ndarray sf2 = np.zeros(N), count = np.zeros(N),
    for i in range(nech):
        indN = np.arange(1,N-i-1)
        for j in indN:
            sf2[i]  = np.power((f[i j]-f[i]),2)
            count[i]  = 1
        sf2[i] = sf2[i]/count[i]
    return sf2

執行次數：

Matlab: 7.8377 sec
Python: 3651.35 sec
Cython: 3336.21 sec

I have a hard time believing Python and Cython (especially Cython) are that slow for the same computation, so I think I must have made an error in my Python/Cython loops, but I can't see where.

uj5u.com熱心網友回復：

免責宣告：正如@norok2 在評論中指出的那樣，N*(N-1)/2由于使用pdist. 對您而言N = 70299，這意味著陣列中有大約 18.5 GB 的雙精度。其他索引陣列將具有相似的大小。因此，除非您的某些用例較小N，否則此答案中的矢量化方法僅在您有大量記憶體時才可行。

正如其他人所指出的，僅將代碼從一種語言翻譯成另一種語言不會導致兩種語言的最佳代碼。并且單獨使用 Cython 并不能保證加速，就像單獨使用 NumPy 不能保證加速一樣。

norok2 的回答很好地向您展示了如何使用numba或類似的東西來編譯您的數字代碼。這可以為您提供與 MATLAB 中的性能非常相似的東西，因為 MATLAB 有自己的即時 (JIT) 編譯器。還有回旋余地來優化您的編譯代碼，因為多個實作最終可能會產生截然不同的性能。

無論如何，我想說的是，您還可以通過使用 NumPy 和 SciPy 中的高級功能來加速您的代碼。特別是，您想要計算一組 1d 點之間的成對平方距離。這就是scipy.spatial.distance.pdist可以為您做的（使用'sqeuclidean'平方歐幾里得范數）。好處是它只計算每個成對距離一次（這對 CPU 和記憶體性能很有幫助），但缺點是選擇你想要總結的貢獻有點麻煩。

無論如何，這是與您的 Python 實作相對應的代碼（帶有內部回圈使用np.arange(1, N-i)而不是的修復np.arange(1, N-i-1)）：

from scipy.spatial.distance import pdist

def pdisty(f, nech):
    offset = f.size - nech
    res = np.zeros_like(f, shape=nech)
    dists = pdist(f[:, None], metric='sqeuclidean')
    counts = np.arange(offset, f.size)[::-1]
    inds = np.repeat(np.arange(res.size), counts)
    np.add.at(res, inds, dists[:inds.size])
    res /= counts
    return res

這里發生的是

我們計算每對唯一陣列值的成對距離并將其存盤到dists
我們計算每個點所涉及的對數（這是我們最后必須標準化的），將其存盤到counts
找出dists它對應的每個值的一維索引（這是困難的部分），將其存盤在inds
用于np.add.at累積對適當輸出指數的每個貢獻
用計數標準化。

以下是一些時間N = 1000，norok2 的答案func2()中的相應函式在哪里：

>>> %timeit structFunPython(f, f.size - 1)
... %timeit func2(f, f.size - 1)
... %timeit pdisty(f, f.size - 1)
1.48 s ± 89.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
274 ms ± 2.71 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
36.7 ms ± 1.21 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

上述解決方案要快得多，但當然它仍然比完全編譯的解決方案慢。如果您對附加依賴項或在系統上安裝 llvm 有疑問，這可能是一個合理的折衷方案。底線是代碼應該適應你試圖優化它的語言。

為了完整起見，這里是我用于比較的實作（我稍微更改了簽名，因為N可以從輸入陣列計算，并且我修復了一些 fencepost 錯誤）：

def structFunPython(f, nech):
    """Very slightly modified from the question"""
    N = f.size
    sf2 = np.zeros(nech)
    count = np.zeros(nech)
    for i in range(nech):
        indN = np.arange(1,N-i)
        for j in indN:
            sf2[i]  = np.power((f[i j]-f[i]),2)
            count[i]  = 1
        sf2[i] = sf2[i]/count[i]
    return sf2


def func2(f_arr, nech):
    """Very slightly modified from norok2's answer

    See https://stackoverflow.com/a/71704834/5067311

    """
    n = f_arr.size
    sf2 = np.zeros(nech)
    for i in range(nech):
        for j in range(1, n - i):
            sf2[i]  = (f_arr[i   j] - f_arr[i]) ** 2
        sf2[i] /= (n - i - 1)
    return sf2

通過這些定義，所有三個函式在機器精度內給出相同的結果：

rng = np.random.default_rng()
N = 1000
nech = N - 2
f = rng.random(1000)
assert np.allclose(structFunPython(f, nech), func2(f, nech))
assert np.allclose(structFunPython(f, nech), pdisty(f, nech))

uj5u.com熱心網友回復：

我將 MATLAB 代碼重寫為等效 Python 代碼的方式可能是（注意在 MATLAB 中從 1 開始，在 Python 中從 0 開始的索引......因為我不知道在沒有背景關系的情況下應該如何調整它，所以我采用了最簡單的方法）：

import numpy as np


def func(f_arr, nech, n):
    sf2 = np.zeros(nech)
    count = np.zeros(nech)
    for i in range(nech):
        for j in range(n - i):
            sf2[i]  = (f_arr[i   j] - f_arr[i]) ** 2
            count[i]  = 1
        sf2[i] /= count[i]
    return sf2

請注意，這count[i] = 1是無用的，因為的最終值count[i]是預先知道的，實際上整體count是無用的，例如：

import numpy as np


def func2(f_arr, nech, n):
    sf2 = np.zeros(nech)
    for i in range(nech):
        for j in range(n - i):
            sf2[i]  = (f_arr[i   j] - f_arr[i]) ** 2
        sf2[i] /= (n - i)
    return sf2

加速

這是 Numba 加速的手動案例。這就像添加/使用 Numba@njit裝飾器一樣簡單：

import numba as nb


func_nb = nb.njit(func)
func2_nb = nb.njit(func2)

現在，、func和都執行相同的計算：func_nbfunc2func2_nb

nech = n = 6
f_arr = np.arange(n)
print(func(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]
print(func_nb(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]
print(func2(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]
print(func2_nb(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]

如果你真的需要堅持使用 Cython，這里有一個基于func2：

%%cython -c-O3 -c-march=native -a
#cython: language_level=3, boundscheck=False, wraparound=False, initializedcheck=False, cdivision=True, infer_types=True


import numpy as np
import cython as cy


cpdef func2_cy(f_arr, nech, n):
    sf2 = np.zeros(nech)
    _func2_cy(f_arr.astype(np.float_), sf2, nech, n)
    return sf2


cdef _func2_cy(double[:] f_arr, double[:] sf2, cy.int nech, cy.int n):
    for i in range(nech):
        for j in range(1, n - i):
            sf2[i] = sf2[i]   (f_arr[i   j] - f_arr[i]) ** 2
        sf2[i] = sf2[i] / (n - i)

與 Numba 相比，這寫起來要復雜得多，但實作了相似的性能。訣竅是擁有一個_func2_cy與 Python 幾乎沒有互動的函式（閱讀：它以 C 速度運行）。

結果再次與以下相同func2：

nech = n = 6
f_arr = np.arange(n)
print(func2_cy(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]

計時

With some little toy benchmarking we get a feeling of the speed-ups, including a comparable function written as you did, and the vectorized solution proposed in Andras Deak's very fine answer (but fixing the indices to match the above):

def func_OP(f, nech, n):
    sf2 = np.zeros(n)
    count = np.zeros(n)
    for i in range(nech):
        indN = np.arange(n - i)  # <-- indexing fixed
        for j in indN:
            sf2[i]  = np.power((f[i j]-f[i]),2)
            count[i]  = 1
        sf2[i] = sf2[i] / count[i]
    return sf2


func_OP_nb = nb.njit(func_OP)

def func_pdisty(f, nech, n):
    res = np.zeros(nech)
    dists = scipy.spatial.distance.pdist(f[:, None], metric='sqeuclidean')
    counts = np.arange(n - 1, n - nech - 1, -1)
    inds = np.repeat(np.arange(res.size), counts)
    np.add.at(res, inds, dists[:inds.size])
    res /= (counts   1)
    return res

nech = n = 6
f_arr = np.arange(n)
print(func_OP(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]
print(func_pdisty(f_arr, nech, n))
# [9.16666667 6.         3.5        1.66666667 0.5        0.        ]

nech = n = 1000
f_arr = np.arange(n)
%timeit func_OP(f_arr, nech, n)
# 1 loop, best of 5: 1.5 s per loop
%timeit func(f_arr, nech, n)
# 1 loop, best of 5: 567 ms per loop
%timeit func2(f_arr, nech, n)
# 1 loop, best of 5: 352 ms per loop
%timeit func_OP_nb(f_arr, nech, n)
# 1000 loops, best of 5: 1.87 ms per loop
%timeit func_nb(f_arr, nech, n)
# 1000 loops, best of 5: 1.7 ms per loop
%timeit func2_nb(f_arr, nech, n)
# 1000 loops, best of 5: 768 μs per loop
%timeit func_pdisty(f_arr, nech, n)
# 10 loops, best of 5: 44.5 ms per loop
%timeit func2_cy(f_arr, nech, n)
# 1000 loops, best of 5: 1 ms per loop

nech = n = 2000
f_arr = np.arange(n)
%timeit func_OP(f_arr, nech, n)
# 1 loop, best of 5: 6.01 s per loop
%timeit func(f_arr, nech, n)
# 1 loop, best of 5: 2.3 s per loop
%timeit func2(f_arr, nech, n)
# 1 loop, best of 5: 1.42 s per loop
%timeit func_OP_nb(f_arr, nech, n)
# 100 loops, best of 5: 7.31 ms per loop
%timeit func_nb(f_arr, nech, n)
# 100 loops, best of 5: 6.82 ms per loop
%timeit func2_nb(f_arr, nech, n)
# 100 loops, best of 5: 3.05 ms per loop
%timeit func_pdisty(f_arr, nech, n)
# 1 loop, best of 5: 344 ms per loop
%timeit func2_cy(f_arr, nech, n)
# 100 loops, best of 5: 3.95 ms per loop

nech = n = 4000
f_arr = np.arange(n)
%timeit func_OP(f_arr, nech, n)
# 1 loop, best of 5: 24.3 s per loop
%timeit func(f_arr, nech, n)
# 1 loop, best of 5: 9.27 s per loop
%timeit func2(f_arr, nech, n)
# 1 loop, best of 5: 5.71 s per loop
%timeit func_OP_nb(f_arr, nech, n)
# 10 loops, best of 5: 29 ms per loop
%timeit func_nb(f_arr, nech, n)
# 10 loops, best of 5: 27.3 ms per loop
%timeit func2_nb(f_arr, nech, n)
# 100 loops, best of 5: 12.2 ms per loop
%timeit func_pdisty(f_arr, nech, n)
# 1 loop, best of 5: 706 ms per loop
%timeit func2_cy(f_arr, nech, n)
# 100 loops, best of 5: 15.9 ms per loop

...and with the input sizes you provided:

nech = 24 * 30 * 24
n = 70299
f_arr = np.random.random(n)
%timeit -n1 -r1 func_OP(f_arr, nech, n)
# 1 loop, best of 1: 1h 4min 50s per loop
%timeit -n1 -r1 func(f_arr, nech, n)
# 1 loop, best of 1: 21min 14s per loop
%timeit -n1 -r1 func2(f_arr, nech, n)  # only one run / loop
# 1 loop, best of 1: 13min 9s per loop
%timeit func_OP_nb(f_arr, nech, n)
# 1 loop, best of 5: 4.74 s per loop
%timeit func_nb(f_arr, nech, n)
# 1 loop, best of 5: 4 s per loop
%timeit func2_nb(f_arr, nech, n)
# 1 loop, best of 5: 1.62 s per loop
# %timeit func_pdisty(f_arr, nech, n)
# -- MEMORY ERROR --
%timeit func2_cy(f_arr, nech, n)
# 1 loop, best of 5: 2.2 s per loop

uj5u.com熱心網友回復：

通過一些基本的 python/numpy 重寫，我可以加快你的代碼速度

def structFunPython4(f,N,nech):
    sf2 = np.zeros(N)
    #count = np.zeros(N)
    for i in range(nech):
        # indN = np.arange(1,N-i-1)
        sf2[i] = np.sum(np.power(f[i 1:N-1]-f[i],2))
        #for j in range(1,N-i-1):
        #    sf2[i]  = np.power((f[i j]-f[i]),2)
        #    #count[i]  = 1
        sf2[i] = sf2[i]/(N-i-2)
    return sf2

對于適度的樣本量：

In [53]: f = np.arange(100); N=f.shape[0]; nech=98

他們匹配：

In [54]: np.allclose(structFunPython(f,N,nech),structFunPython4(f,N,nech))
Out[54]: True

和時間：

In [55]: timeit structFunPython(f,N,nech)
34.4 ms ± 109 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)
In [56]: timeit structFunPython4(f,N,nech)
2.22 ms ± 35.9 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

我首先替換for i in indN:為for i in range(1,N-1-i):. 對陣列的迭代比對串列或的迭代慢range。

正如其他人指出的那樣，我們不需要迭代count.

但最大的變化是j用陣列切片代替迭代，對整個切片和陣列求和進行電源。

我還沒有看到i足夠的迭代來消除它。 f[i 1:N-1]slice 的長度不同，從nech低到 0。

MATLAB 做了很多 jit 編譯，所以你可以通過迭代來解決。早在 1990 年代，當我使用 MATLAB 時，它的形式會很糟糕——那些版本需要全矩陣計算才能獲得任何合理的速度。Python 級別的迭代很慢（解釋），并且在陣列上比在串列上慢。盡可能嘗試使用整體陣列方法。或用于numba編譯計算。

====

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/454629.html

標籤：python numpy matlab cython nested-loops

上一篇：如何通過python套接字發送numpy陣列

下一篇：Python，高效地創建numpyrecarray

MatlabvsPythonvsCython嵌套回圈執行時間

加速

計時