主頁 > 移動端開發 > 是否可以使用SIMD對C中的非平凡回圈進行矢量化?(重用一個輸入的多重長度5個雙精度點積)

是否可以使用SIMD對C中的非平凡回圈進行矢量化?(重用一個輸入的多重長度5個雙精度點積)

2022-01-13 00:23:56 移動端開發

我有一個性能關鍵的C代碼,其中 > 90% 的時間用于執行一項基本操作:

是否可以使用 SIMD 對 C 中的非平凡回圈進行矢量化?(重用一個輸入的多重長度5個雙精度點積)

我使用C代碼是:

static void function(double *X1, double *Y1, double *X2, double *Y2, double *output) {
    double Z1, Z2;
    int i, j, k;
    for (i = 0, j = 0; i < 25; j  ) { // sweep Y
        Z1 = 0;
        Z2 = 0;
        for (k = 0; k < 5; k  , i  ) { // sweep X
            Z1  = X1[k] * Y1[i];
            Z2  = X2[k] * Y2[i];
        }
        output[j] = Z1*Z2;
    }
}

長度是固定的(X 為 5;Y 為 25;輸出為 5)。我已經嘗試了我所知道的一切來加快速度。當我使用 clang with 編譯此代碼時-O3 -march=native -Rpass-analysis=loop-vectorize -Rpass=loop-vectorize -Rpass-missed=loop-vectorize,我收到以下訊息:

備注:成本模型表明矢量化沒有好處 [-Rpass-missed=loop-vectorize]

但我認為加快速度的方法是以某種方式使用 SIMD。任何建議,將不勝感激。

uj5u.com熱心網友回復:

嘗試以下版本,它需要 SSE2 和 FMA3。未經測驗。

void function_fma( const double* X1, const double* Y1, const double* X2, const double* Y2, double* output )
{
    // Load X1 and X2 vectors into 6 registers; the instruction set has 16 of them available, BTW.
    const __m128d x1_0 = _mm_loadu_pd( X1 );
    const __m128d x1_1 = _mm_loadu_pd( X1   2 );
    const __m128d x1_2 = _mm_load_sd( X1   4 );

    const __m128d x2_0 = _mm_loadu_pd( X2 );
    const __m128d x2_1 = _mm_loadu_pd( X2   2 );
    const __m128d x2_2 = _mm_load_sd( X2   4 );

    // 5 iterations of the outer loop
    const double* const y1End = Y1   25;
    while( Y1 < y1End )
    {
        // Multiply first 2 values
        __m128d z1 = _mm_mul_pd( x1_0, _mm_loadu_pd( Y1 ) );
        __m128d z2 = _mm_mul_pd( x2_0, _mm_loadu_pd( Y2 ) );

        // Multiply   accumulate next 2 values
        z1 = _mm_fmadd_pd( x1_1, _mm_loadu_pd( Y1   2 ), z1 );
        z2 = _mm_fmadd_pd( x2_1, _mm_loadu_pd( Y2   2 ), z2 );

        // Horizontal sum both vectors
        z1 = _mm_add_sd( z1, _mm_unpackhi_pd( z1, z1 ) );
        z2 = _mm_add_sd( z2, _mm_unpackhi_pd( z2, z2 ) );

        // Multiply   accumulate the last 5-th value
        z1 = _mm_fmadd_sd( x1_2, _mm_load_sd( Y1   4 ), z1 );
        z2 = _mm_fmadd_sd( x2_2, _mm_load_sd( Y2   4 ), z2 );

        // Advance Y pointers
        Y1  = 5;
        Y2  = 5;

        // Compute and store z1 * z2
        z1 = _mm_mul_sd( z1, z2 );
        _mm_store_sd( output, z1 );

        // Advance output pointer
        output  ;
    }
}

使用 AVX 可以進一步進行微優化,但我不確定它是否會有很大幫助,因為內部回圈太短了。我認為這兩個額外的 FMA 指令比計算 32 位元組 AVX 向量的水平和的開銷要便宜。

更新:這是另一個版本,總體上需要更少的指令,但會花費一些洗牌。對于您的用例,May of 可能不會更快。需要 SSE 4.1,但我認為所有具有 FMA3 的 CPU 也都具有 SSE 4.1。

void function_fma_v2( const double* X1, const double* Y1, const double* X2, const double* Y2, double* output )
{
    // Load X1 and X2 vectors into 5 registers
    const __m128d x1_0 = _mm_loadu_pd( X1 );
    const __m128d x1_1 = _mm_loadu_pd( X1   2 );
    __m128d xLast = _mm_load_sd( X1   4 );

    const __m128d x2_0 = _mm_loadu_pd( X2 );
    const __m128d x2_1 = _mm_loadu_pd( X2   2 );
    xLast = _mm_loadh_pd( xLast, X2   4 );

    // 5 iterations of the outer loop
    const double* const y1End = Y1   25;
    while( Y1 < y1End )
    {
        // Multiply first 2 values
        __m128d z1 = _mm_mul_pd( x1_0, _mm_loadu_pd( Y1 ) );
        __m128d z2 = _mm_mul_pd( x2_0, _mm_loadu_pd( Y2 ) );

        // Multiply   accumulate next 2 values
        z1 = _mm_fmadd_pd( x1_1, _mm_loadu_pd( Y1   2 ), z1 );
        z2 = _mm_fmadd_pd( x2_1, _mm_loadu_pd( Y2   2 ), z2 );

        // Horizontal sum both vectors while transposing
        __m128d res = _mm_shuffle_pd( z1, z2, _MM_SHUFFLE2( 0, 1 ) );   // [ z1.y, z2.x ]
        // On Intel CPUs that blend SSE4 instruction doesn't use shuffle port,
        // throughput is 3x better than shuffle or unpack. On AMD they're equal.
        res = _mm_add_pd( res, _mm_blend_pd( z1, z2, 0b10 ) );  // [ z1.x   z1.y, z2.x   z2.y ]

        // Load the last 5-th Y values into a single vector
        __m128d yLast = _mm_load_sd( Y1   4 );
        yLast = _mm_loadh_pd( yLast, Y2   4 );

        // Advance Y pointers
        Y1  = 5;
        Y2  = 5;

        // Multiply   accumulate the last 5-th value
        res = _mm_fmadd_pd( xLast, yLast, res );

        // Compute and store z1 * z2
        res = _mm_mul_sd( res, _mm_unpackhi_pd( res, res ) );
        _mm_store_sd( output, res );
        // Advance output pointer
        output  ;
    }
}

uj5u.com熱心網友回復:

從注釋擴展的討論看起來大多是你有興趣在減少閱讀之間的延遲X1X2寫作和output您正在計算的是兩個矩陣向量產品的元素乘積。兩個 MV 產品可以準并行發生(帶有 OOO 執行),但是兩個 MV 產品都需要五個產品的總和,您可以按順序(就像您現在所做的那樣)或樹狀減少:

Z = ((X[0]*Y[0]   X[1]*Y[1])   X[2]*Y[2])     ([X[3]*Y[3]   [X[4]*Y[4]);

這導致關鍵路徑mulsd- fmaddsd- fmaddsd- addsd,其后是 的乘法Z1*Z2這意味著,假設每個 FLOP 有 4 個周期的延遲,您將有 20 個周期的延遲加上讀取和寫入記憶體的延遲(除非您能夠將所有內容保存在暫存器中 - 這需要您顯示周圍的代碼)。如果你線性累積值,你將有一個關鍵路徑mulsd- fmaddsd- fmaddsd- fmaddsd- fmaddsd- mulsd(即 24 個周期 讀/寫)

現在,如果您能夠更改 的記憶體順序Y,那么轉置這些矩陣將是有益的,因為這樣您就可以輕松地output[0 ~ 3]并行計算(假設您有 AVX),方法是首先廣播加載 的每個條目X并進行打包累加。

void function_fma( const double* X1, const double* Y1, const double* X2, const double* Y2, double* output )
{
    // Load X1 and X2 vectors into 10 registers.
    const __m256d x1_0 = _mm256_broadcast_sd( X1 );
    const __m256d x1_1 = _mm256_broadcast_sd( X1   1 );
    const __m256d x1_2 = _mm256_broadcast_sd( X1   2 );
    const __m256d x1_3 = _mm256_broadcast_sd( X1   3 );
    const __m256d x1_4 = _mm256_broadcast_sd( X1   4 );

    const __m256d x2_0 = _mm256_broadcast_sd( X2 );
    const __m256d x2_1 = _mm256_broadcast_sd( X2   1 );
    const __m256d x2_2 = _mm256_broadcast_sd( X2   2 );
    const __m256d x2_3 = _mm256_broadcast_sd( X2   3 );
    const __m256d x2_4 = _mm256_broadcast_sd( X2   4 );

    // first four values:
    {
        // Multiply column 0
        __m256d z1 = _mm256_mul_pd( x1_0, _mm256_loadu_pd( Y1 ) );
        __m256d z2 = _mm256_mul_pd( x2_0, _mm256_loadu_pd( Y2 ) );

        // Multiply   accumulate column 1 and column 2
        z1 = _mm256_fmadd_pd( x1_1, _mm256_loadu_pd( Y1   5 ), z1 );
        z2 = _mm256_fmadd_pd( x2_1, _mm256_loadu_pd( Y2   5 ), z2 );
        z1 = _mm256_fmadd_pd( x1_2, _mm256_loadu_pd( Y1   10 ), z1 );
        z2 = _mm256_fmadd_pd( x2_2, _mm256_loadu_pd( Y2   10 ), z2 );

        // Multiply column 3
        __m256d z1_ = _mm256_mul_pd( x1_3, _mm256_loadu_pd( Y1   15 ) );
        __m256d z2_ = _mm256_mul_pd( x2_3, _mm256_loadu_pd( Y2   15 ) );

        // Multiply   accumulate column 4
        z1_ = _mm256_fmadd_pd( x1_4, _mm256_loadu_pd( Y1   20 ), z1_ );
        z2_ = _mm256_fmadd_pd( x2_4, _mm256_loadu_pd( Y2   20 ), z2_ );

        // Add both partial sum
        z1 = _mm256_add_pd( z1, z1_ );
        z2 = _mm256_add_pd( z2, z2_ );

        // Multiply and store result
        _mm256_store_pd(output, _mm256_mul_pd(z1, z2));
    }
    // last value:
    {
        // Multiply column 0
        __m128d z1 = _mm_mul_sd( _mm256_castpd256_pd128(x1_0), _mm_load_sd( Y1   4) );
        __m128d z2 = _mm_mul_sd( _mm256_castpd256_pd128(x2_0), _mm_load_sd( Y2   4) );

        // Multiply   accumulate column 1 and column 2
        z1 = _mm_fmadd_sd( _mm256_castpd256_pd128(x1_1), _mm_load_sd( Y1   9 ), z1 );
        z2 = _mm_fmadd_sd( _mm256_castpd256_pd128(x2_1), _mm_load_sd( Y2   9 ), z2 );
        z1 = _mm_fmadd_sd( _mm256_castpd256_pd128(x1_2), _mm_load_sd( Y1   14 ), z1 );
        z2 = _mm_fmadd_sd( _mm256_castpd256_pd128(x2_2), _mm_load_sd( Y2   14 ), z2 );

        // Multiply column 3
        __m128d z1_ = _mm_mul_sd( _mm256_castpd256_pd128(x1_3), _mm_load_sd( Y1   19 ) );
        __m128d z2_ = _mm_mul_sd( _mm256_castpd256_pd128(x2_3), _mm_load_sd( Y2   19 ) );

        // Multiply   accumulate column 4
        z1_ = _mm_fmadd_sd( _mm256_castpd256_pd128(x1_4), _mm_load_sd( Y1   24 ), z1_ );
        z2_ = _mm_fmadd_sd( _mm256_castpd256_pd128(x2_4), _mm_load_sd( Y2   24 ), z2_ );

        // Add both partial sum
        z1 = _mm_add_sd( z1, z1_ );
        z2 = _mm_add_sd( z2, z2_ );

        // Multiply and store result
        _mm_store_sd(output 4, _mm_mul_sd(z1, z2));
    }
}

如果您沒有 FMA,則可以通過乘法和加法來替換它們(這不會改變很多延遲,因為只有加法位于關鍵路徑中——當然,吞吐量可能會降低 50% 左右)。此外,如果您沒有 AVX,則可以通過兩次乘以兩個值來計算前四個值。

uj5u.com熱心網友回復:

通過分別加載下半部分和上半部分暫存器,您一次至少可以處理 2 個元素。展開i兩個可能會給你一個小優勢......

__restrict關鍵字,如果適用,使5個常系數X1[0..4], X2[0..4]預加載。如果X1X2部分別名輸出,最好讓編譯器知道它(通過使用相同的陣列)。這樣,在展開完整函式時,編譯器不會不必要地重新加載任何元素。

typedef double __attribute__((vector_size(16))) f2;

void function2(double *X1, double *Y1, double *X2, double *Y2, double *__restrict output) {
    double Z1, Z2;
    int i = 0, j, k;
    for (j = 0; j < 5; j  ) { // sweep Y
        f2 Z12 = {0.0, 0.0};
        for (k = 0; k < 5; k  , i  ) { 
            f2 Y12 = {Y1[i], Y2[i]};
            f2 X12 = {X1[k], X2[k]};
            Z12  = X12 * Y12;
        }
        output[j] = Z12[0]*Z12[1];
    }
}

如果可能,請考慮交錯 Y1Y2、X1X3:

void function2(f2 const *X12, f2 const *Y12, double *output) {
    int i = 0, j, k;
    for (j = 0; j < 5; j  ) { // sweep Y
        f2 Z12 = X12[0] * Y12[0]; 
        for (k = 1; k < 5; k  , i  ) { 
            Z12  = X12[k] * Y12[k];
        }
        output[j] = Z12[0]*Z12[1]; // possibly [j * 2]?
    }
}

通過內在函式可能會獲得稍微更好的性能,但是,這個答案強調自動矢量化。

轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/409300.html

標籤:

上一篇:單個地圖任務需要很長時間并且在hivemapreduce中失敗

下一篇:UI性能-Xamarin

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【從零開始擼一個App】Dagger2

    Dagger2是一個IOC框架,一般用于Android平臺,第一次接觸的朋友,一定會被搞得暈頭轉向。它延續了Java平臺Spring框架代碼碎片化,注解滿天飛的傳統。嘗試將各處代碼片段串聯起來,理清思緒,真不是件容易的事。更不用說還有各版本細微的差別。 與Spring不同的是,Spring是通過反射 ......

    uj5u.com 2020-09-10 06:57:59 more
  • Flutter Weekly Issue 66

    新聞 Flutter 季度調研結果分享 教程 Flutter+FaaS一體化任務編排的思考與設計 詳解Dart中如何通過注解生成代碼 GitHub 用對了嗎?Flutter 團隊分享如何管理大型開源專案 插件 flutter-bubble-tab-indicator A Flutter librar ......

    uj5u.com 2020-09-10 06:58:52 more
  • Proguard 常用規則

    介紹 Proguard 入口,如何查看輸出,如何使用 keep 設定入口以及使用實體,如何配置壓縮,混淆,校驗等規則。

    ......

    uj5u.com 2020-09-10 06:59:00 more
  • Android 開發技術周報 Issue#292

    新聞 Android即將獲得類AirDrop功能:可向附近設備快速分享檔案 谷歌為安卓檔案管理應用引入可安全隱藏資料的Safe Folder功能 Android TV新主界面將顯示電影、電視節目和應用推薦內容 泄露的Android檔案暗示了傳說中的谷歌Pixel 5a與折疊屏新機 谷歌發布Andro ......

    uj5u.com 2020-09-10 07:00:37 more
  • AutoFitTextureView Error inflating class

    報錯: Binary XML file line #0: Binary XML file line #0: Error inflating class xxx.AutoFitTextureView 解決: <com.example.testy2.AutoFitTextureView android: ......

    uj5u.com 2020-09-10 07:00:41 more
  • 根據Uri,Cursor沒有獲取到對應的屬性

    Android: 背景:呼叫攝像頭,拍攝視頻,指定保存的地址,但是回傳的Cursor檔案,只有名稱和大小的屬性,沒有其他諸如時長,連ID屬性都沒有 使用 cursor.getInt(cursor.getColumnIndexOrThrow(MediaStore.Video.Media.DURATIO ......

    uj5u.com 2020-09-10 07:00:44 more
  • Android連載29-持久化技術

    一、持久化技術 我們平時所使用的APP產生的資料,在記憶體中都是瞬時的,會隨著斷電、關機等丟失資料,因此android系統采用了持久化技術,用于存盤這些“瞬時”資料 持久化技術包括:檔案存盤、SharedPreference存盤以及資料庫存盤,還有更復雜的SD卡記憶體儲。 二、檔案存盤 最基本存盤方式, ......

    uj5u.com 2020-09-10 07:00:47 more
  • Android Camera2Video整合到自己專案里

    背景: Android專案里呼叫攝像頭拍攝視頻,原本使用的 MediaStore.ACTION_VIDEO_CAPTURE, 后來因專案需要,改成了camera2 1.Camera2Video 官方demo有點問題,下載后,不能直接整合到專案 問題1.多次拍攝視頻崩潰 問題2.雙擊record按鈕, ......

    uj5u.com 2020-09-10 07:00:50 more
  • Android 開發技術周報 Issue#293

    新聞 谷歌為Android TV開發者提供多種新功能 Android 11將自動填表功能整合到鍵盤輸入建議中 谷歌宣布Android Auto即將支持更多的導航和數字停車應用 谷歌Pixel 5只有XL版本 搭載驍龍765G且將比Pixel 4更便宜 [圖]Wear OS將迎來重磅更新:應用啟動時間 ......

    uj5u.com 2020-09-10 07:01:38 more
  • 海豚星空掃碼投屏 Android 接收端 SDK 集成 六步驟

    掃碼投屏,開放網路,獨占設備,不需要額外下載軟體,微信掃碼,發現設備。支持標準DLNA協議,支持倍速播放。視頻,音頻,圖片投屏。好點意思。還支持自定義基于 DLNA 擴展的操作動作。好像要收費,沒體驗。 這里簡單記錄一下集成程序。 一 跟目錄的build.gradle添加私有mevan倉庫 mave ......

    uj5u.com 2020-09-10 07:01:43 more
最新发布
  • 歡迎頁輪播影片

    如圖,引導開始,球從上落下,同時淡入文字,然后文字開始輪播,最后一頁時停止,點擊進入首頁。 在來看看效果圖。 重力球先不講,主要歡迎輪播簡單實作 首先新建一個類 TextTranslationXGuideView,用于影片展示 文本是類似的,最后會有個圖片箭頭影片,布局很簡單,就是一個 TextVi ......

    uj5u.com 2023-04-20 08:40:31 more
  • 【FAQ】關于華為推送服務因營銷訊息頻次管控導致服務通訊類訊息

    一. 問題描述 使用華為推送服務下發IM訊息時,下發訊息請求成功且code碼為80000000,但是手機總是收不到訊息; 在華為推送自助分析(Beta)平臺查看發現,訊息發送觸發了頻控。 二. 問題原因及背景 2023年1月05日起,華為推送服務對咨詢營銷類訊息做了單個設備每日推送數量上限管理,具體 ......

    uj5u.com 2023-04-20 08:40:11 more
  • 歡迎頁輪播影片

    如圖,引導開始,球從上落下,同時淡入文字,然后文字開始輪播,最后一頁時停止,點擊進入首頁。 在來看看效果圖。 重力球先不講,主要歡迎輪播簡單實作 首先新建一個類 TextTranslationXGuideView,用于影片展示 文本是類似的,最后會有個圖片箭頭影片,布局很簡單,就是一個 TextVi ......

    uj5u.com 2023-04-20 08:39:36 more
  • 【FAQ】關于華為推送服務因營銷訊息頻次管控導致服務通訊類訊息

    一. 問題描述 使用華為推送服務下發IM訊息時,下發訊息請求成功且code碼為80000000,但是手機總是收不到訊息; 在華為推送自助分析(Beta)平臺查看發現,訊息發送觸發了頻控。 二. 問題原因及背景 2023年1月05日起,華為推送服務對咨詢營銷類訊息做了單個設備每日推送數量上限管理,具體 ......

    uj5u.com 2023-04-20 08:39:13 more
  • iOS從UI記憶體地址到讀取成員變數(oc/swift)

    開發除錯時,我們發現bug時常首先是從UI顯示發現例外,下一步才會去定位UI相關連的資料的。XCode有給我們提供一系列debug工具,但是很多人可能還沒有形成一套穩定的除錯流程,因此本文嘗試解決這個問題,順便提出一個暴論:UI顯示例外問題只需要兩個步驟就能完成定位作業的80%: 定位例外 UI 組 ......

    uj5u.com 2023-04-19 09:16:23 more
  • FIDE重磅更新!性能飛躍!體驗有禮!

    FIDE 開發者工具重構升級啦!實作500%性能提升,誠邀體驗! 一直以來不少開發者朋友在社區反饋,在使用 FIDE 工具的程序中,時常會遇到諸如加載不及時、代碼預覽/渲染性能不如意的情況,十分影響開發體驗。 作為技術團隊,我們深知一件趁手的開發工具對開發者的重要性,因此,在2023年開年,FinC ......

    uj5u.com 2023-04-19 09:16:15 more
  • 游戲內嵌社區服務開放,助力開發者提升玩家互動與留存

    華為 HMS Core 游戲內嵌社區服務提供快速訪問華為游戲中心論壇能力,支持玩家直接在游戲內瀏覽帖子和交流互動,助力開發者擴展內容生產和觸達的場景。 一、為什么要游戲內嵌社區? 二、游戲內嵌社區的典型使用場景 1、游戲內打開論壇 您可以在游戲內繪制論壇入口,為玩家提供沉浸式發帖、瀏覽、點贊、回帖、 ......

    uj5u.com 2023-04-19 09:15:46 more
  • iOS從UI記憶體地址到讀取成員變數(oc/swift)

    開發除錯時,我們發現bug時常首先是從UI顯示發現例外,下一步才會去定位UI相關連的資料的。XCode有給我們提供一系列debug工具,但是很多人可能還沒有形成一套穩定的除錯流程,因此本文嘗試解決這個問題,順便提出一個暴論:UI顯示例外問題只需要兩個步驟就能完成定位作業的80%: 定位例外 UI 組 ......

    uj5u.com 2023-04-19 09:14:53 more
  • FIDE重磅更新!性能飛躍!體驗有禮!

    FIDE 開發者工具重構升級啦!實作500%性能提升,誠邀體驗! 一直以來不少開發者朋友在社區反饋,在使用 FIDE 工具的程序中,時常會遇到諸如加載不及時、代碼預覽/渲染性能不如意的情況,十分影響開發體驗。 作為技術團隊,我們深知一件趁手的開發工具對開發者的重要性,因此,在2023年開年,FinC ......

    uj5u.com 2023-04-19 09:14:08 more
  • 游戲內嵌社區服務開放,助力開發者提升玩家互動與留存

    華為 HMS Core 游戲內嵌社區服務提供快速訪問華為游戲中心論壇能力,支持玩家直接在游戲內瀏覽帖子和交流互動,助力開發者擴展內容生產和觸達的場景。 一、為什么要游戲內嵌社區? 二、游戲內嵌社區的典型使用場景 1、游戲內打開論壇 您可以在游戲內繪制論壇入口,為玩家提供沉浸式發帖、瀏覽、點贊、回帖、 ......

    uj5u.com 2023-04-19 09:08:34 more