加快從熊貓資料框中讀取內容的速度-有解無憂

假設我們有以下維度的表格：

print(metadata.shape)-(8732, 8)

加快從熊貓資料框中讀取內容的速度

假設我們要讀取每一行的 slice_file_name （然后從驅動器讀取聲音檔案）并提取梅爾頻率：

def feature_extractor(file_name):
  audio,sample_rate =librosa.load(file_name,res_type='kaiser_fast')
  mfccs_features =librosa.feature.mfcc(y=audio,sr=sample_rate,n_mfcc=40)
  mfccs_scaled_features =np.mean(mfccs_features.T,axis=0)
  return mfccs_scaled_features

如果我使用以下回圈：

from tqdm import tqdm
extracted_features =[]
for index_num, row in  tqdm(metadata.iterrows()):
    file_name = os.path.join(os.path.abspath(Base_Directory),str(row["slice_file_name"]))
    final_class_labels=row["class"]
    data=feature_extractor(file_name)
    extracted_features.append([data,final_class_labels])

它總共需要以下時間：

3555it [21:15,  2.79it/s]/usr/local/lib/python3.7/dist-packages/librosa/core/spectrum.py:224: UserWarning: n_fft=2048 is too small for input signal of length=1323
  n_fft, y.shape[-1]
8326it [48:40,  3.47it/s]/usr/local/lib/python3.7/dist-packages/librosa/core/spectrum.py:224: UserWarning: n_fft=2048 is too small for input signal of length=1103
  n_fft, y.shape[-1]
8329it [48:41,  3.89it/s]/usr/local/lib/python3.7/dist-packages/librosa/core/spectrum.py:224: UserWarning: n_fft=2048 is too small for input signal of length=1523
  n_fft, y.shape[-1]
8732it [50:53,  2.86it/s]

我怎樣才能優化這段代碼以在更短的時間內完成這件事？有可能的？

uj5u.com熱心網友回復：

您可以嘗試并行運行特征提取器，這可能會在您的資料框中使用mfccs_scaled_features.

from pandarallel import pandarallel
pandarallel.initialize()

PATH = os.path.abspath(Base_Directory)

def feature_extractor(file_name):
    # If using windows, you may need to put these here~
    # import librosa 
    # import numpy as np
    # import os
    
    file_name = os.path.join(PATH, file_name)
    audio,sample_rate = librosa.load(file_name, res_type='kaiser_fast')
    mfccs_features = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
    mfccs_scaled_features = np.mean(mfccs_features.T, axis=0)
    return mfccs_scaled_features

df['mfccs_scaled_features'] = df['slice_file_name'].parallel_apply(feature_extractor)

轉載請註明出處，本文鏈接：https://www.uj5u.com/qianduan/472480.html

標籤：Python 熊猫优化

上一篇：在Pandas列中搜索串列中的單詞并將找到的單詞添加到新列中

下一篇：是否有pandas函式可以將作為dict的列解壓縮為長格式？