主頁 > 軟體設計 > 【深入了解JVM】3、CPU儲存器+MESI+CPU偽共享+CPU亂序問題及代碼論證

【深入了解JVM】3、CPU儲存器+MESI+CPU偽共享+CPU亂序問題及代碼論證

2020-11-06 16:45:01 軟體設計

1、存盤器的層次結構

2、cache line 快取行

由于共享變數在CPU快取中的存盤是以快取行為基本單位,一個快取行可以存盤多個變數(存滿當前快取行的位元組數);而CPU對快取的修改又是以快取行為最小單位的,那么就會出現上訴的偽共享問題,

Cache Line可以簡單的理解為CPU Cache中的最小快取單位,今天的CPU不再是按位元組訪問記憶體,而是以64位元組為單位的塊(chunk)拿取,稱為一個快取行(cache line),當你讀一個特定的記憶體地址,整個快取行將從主存換入快取,并且訪問同一個快取行內的其它值的開銷是很小的,

3、為什么會出現偽共享的問題呢?

如下圖:在T1,T2等多執行緒的情況下,假如想,X,Y兩個共享變數在同一個快取行中,CPU1修改變數X,會導致CPU2中的X和Y變數同事失效,此時對于在CPU1上運行的執行緒,僅僅只是修改了變數X,卻導致同一個快取行中的所有變數都無效,需要重新重繪快取(并不一定代表每次都要從記憶體中重新載入,也有可能是從其他Cache中匯入資料,具體的實作要看各個芯片廠商的實作了),假設此時在CPU2上運行的執行緒,正好想要修改變數Y,那么就會出現相互競爭,相互失效的情況,這就是偽共享,

4、怎么解決偽共享?

  • 使用快取行的對齊能夠提高效率
  • 現在cpu的資料一致性實作是通過快取所(MESI)+總線鎖(資料量非常大無法被快取的資料或者跨越多個快取行的資料就得使用快取鎖)結合設計的,

代碼驗證:

T01_CacheLinePadding 演示在同一快取行里需要的時間,回應時間:280左右

public class T01_CacheLinePadding {
    private static class T {
        public volatile long x = 0L;
    }

    public static T[] arr = new T[2];

    static {
        arr[0] = new T();
        arr[1] = new T();
    }

    public static void main(String[] args) throws Exception {
        Thread t1 = new Thread(()->{
            for (long i = 0; i < 1000_0000L; i++) {
                arr[0].x = i;
            }
        });

        Thread t2 = new Thread(()->{
            for (long i = 0; i < 1000_0000L; i++) {
                arr[1].x = i;
            }
        });

        final long start = System.nanoTime();
        t1.start();
        t2.start();
        t1.join();
        t2.join();
        System.out.println((System.nanoTime() - start)/100_0000);
    }
}

我們把兩個物件分開在不同的快取行,默認初始化為56個位元組大小的資料,回應時間:120左右

public class T02_CacheLinePadding {
    private static class Padding {
        public volatile long p1, p2, p3, p4, p5, p6, p7;
    }

    private static class T extends Padding {
        public volatile long x = 0L;
    }

    public static T[] arr = new T[2];

    static {
        arr[0] = new T();
        arr[1] = new T();
    }

    public static void main(String[] args) throws Exception {
        Thread t1 = new Thread(()->{
            for (long i = 0; i < 1000_0000L; i++) {
                arr[0].x = i;
            }
        });

        Thread t2 = new Thread(()->{
            for (long i = 0; i < 1000_0000L; i++) {
                arr[1].x = i;
            }
        });

        final long start = System.nanoTime();
        t1.start();
        t2.start();
        t1.join();
        t2.join();
        System.out.println((System.nanoTime() - start)/100_0000);
    }
}

測驗結果很明顯T02_CacheLinePadding 的運行時間比T01_CacheLinePadding少很多,雖然多占了記憶體但是它的效率提升了,

5、硬體層資料一致性 MESI(快取鎖)

MESIModified Exclusive Shared Or Invalid)(也稱為伊利諾斯協議,是因為該協議由伊利諾斯州立大學提出)是一種廣泛使用的支持寫回策略的快取一致性協議,

1、MESI協議中的狀態

CPU中每個快取行(caceh line)使用4種狀態進行標記(使用額外的兩位(bit)表示):

Modified: 被修改

該快取行只被快取在該CPU的快取中,并且是被修改過的(dirty),即與主存中的資料不一致,該快取行中的記憶體需要在未來的某個時間點(允許其它CPU讀取請主存中相應記憶體之前)寫回(write back)主存,

當被寫回主存之后,該快取行的狀態會變成獨享(exclusive)狀態,

Exclusive: 獨享的

該快取行只被快取在該CPU的快取中,它是未被修改過的(clean),與主存中資料一致,該狀態可以在任何時刻當有其它CPU讀取該記憶體時變成共享狀態(shared),

同樣地,當CPU修改該快取行中內容時,該狀態可以變成Modified狀態,

Shared: 共享的

該狀態意味著該快取行可能被多個CPU快取,并且各個快取中的資料與主存資料一致(clean),當有一個CPU修改該快取行中,其它CPU中該快取行可以被作廢(變成無效狀態(Invalid)),

Invalid: 無效的

該快取是無效的(可能有其它CPU修改了該快取行),再去記憶體里面讀一遍

6、CPU亂序問題

如果一個cpu在執行的時候需要訪問的記憶體都不在cache中,cpu必須要通過記憶體總線到主存中取,那么在資料回傳到cpu這段時間內(這段時間大致為cpu執行成百上千條指令的時間,至少兩個資料量級)干什么呢?

答案是:cpu會繼續執行其他的符合條件的指令,比如cpu有一個指令序列 指令1 指令2 指令3 …, 在指令1時需要訪問主存,在資料回傳前cpu會繼續后續的和指令1在邏輯關系上沒有依賴的”獨立指令”,cpu一般是依賴指令間的記憶體參考關系來判斷的指令間的”獨立關系”,具體細節可參見各cpu的檔案,這也是導致cpu亂序執行指令的根源之一,

CPU為了提高指令執行效率,會在一條指令執行程序中(比如去記憶體讀資料(慢100倍)),去同時執行另一條指令,前提是,兩條指令沒有依賴關系

對于寫資料則會顯得更加復雜一點:

當cpu執行存盤指令時,它會首先試圖將資料寫到離cpu最近的L1_cache, 如果此時cpu出現L1未命中,則會訪問下一級快取,速度上L1_cache基本能和cpu持平,其他的均明顯低于cpu,L2_cache的速度大約比cpu慢20-30倍,而且還存在L2_cache不命中的情況,又需要更多的周期去主存讀取,其實在L1_cache未命中以后,cpu就會使用一個另外的緩沖區,叫做合并寫存盤緩沖區(WCBuffer,速度比L1_cache更快,所以應該看起來是很貴的,一般只有4個位置),這一技術稱為合并寫入技術,在請求L2_cache快取行的所有權尚未完成時,cpu會把待寫入的資料寫入到合并寫存盤緩沖區,該緩沖區大小和一個cache line大小,一般都是64位元組,這個緩沖區允許cpu在寫入或者讀取該緩沖區資料的同時繼續執行其他指令,這就緩解了cpu寫資料時cache miss時的性能影響,

當后續的寫操作需要修改相同的快取行時,這些緩沖區變得非常有趣,在將后續的寫操作提交到L2快取之前,可以進行緩沖區寫合并, 這些64位元組的緩沖區維護了一個64位的欄位,每更新一個位元組就會設定對應的位,來表示將緩沖區交換到外部快取時哪些資料是有效的,當然,如果程式讀取已被寫入到該緩沖區的某些資料,那么在讀取快取資料之前會先去讀取本緩沖區的,

經過上述步驟后,緩沖區的資料還是會在某個延時的時刻更新到外部的快取(L2_cache).如果我們能在緩沖區傳輸到快取之前將其盡可能填滿,這樣的效果就會提高各級傳輸總線的效率,以提高程式性能,

合并寫代碼驗證:

/**
 * WCBuffer只有4個位置
 */
public final class WriteCombining {

    private static final int ITERATIONS = Integer.MAX_VALUE;
    private static final int ITEMS = 1 << 24;
    private static final int MASK = ITEMS - 1;

    private static final byte[] arrayA = new byte[ITEMS];
    private static final byte[] arrayB = new byte[ITEMS];
    private static final byte[] arrayC = new byte[ITEMS];
    private static final byte[] arrayD = new byte[ITEMS];
    private static final byte[] arrayE = new byte[ITEMS];
    private static final byte[] arrayF = new byte[ITEMS];

    public static void main(final String[] args) {

        for (int i = 1; i <= 3; i++) {
            System.out.println(i + " SingleLoop duration (ns) = " + runCaseOne());
            System.out.println(i + " SplitLoop  duration (ns) = " + runCaseTwo());
        }
    }

    public static long runCaseOne() {
        long start = System.nanoTime();
        int i = ITERATIONS;

        while (--i != 0) {
            int slot = i & MASK;
            byte b = (byte) i;
            arrayA[slot] = b;
            arrayB[slot] = b;
            arrayC[slot] = b;
            arrayD[slot] = b;
            arrayE[slot] = b;
            arrayF[slot] = b;
        }
        return System.nanoTime() - start;
    }

    public static long runCaseTwo() {
        long start = System.nanoTime();
        int i = ITERATIONS;
        while (--i != 0) {
            int slot = i & MASK;
            // 這里的b占了一個位置
            byte b = (byte) i;
            arrayA[slot] = b;
            arrayB[slot] = b;
            arrayC[slot] = b;
        }
        i = ITERATIONS;
        while (--i != 0) {
            int slot = i & MASK;
            // 這里的b占了一個位置
            byte b = (byte) i;
            arrayD[slot] = b;
            arrayE[slot] = b;
            arrayF[slot] = b;
        }
        return System.nanoTime() - start;
    }
}

結果顯示:分開的情況效率更快,(因為充分了利用了合并寫的技術)

6個的為什么會慢呢?

因為WCBuffer是4個位置,6=4+2,4個可以通過WCBuffer讀取一次,但是還有2個必須要等后面來2個補充才能讀取一次,這里也會浪費效率,

亂序執行的證明:

要執行蠻久才可能出現結果:

public class T04_Disorder {
    private static int x = 0, y = 0;
    private static int a = 0, b =0;

    public static void main(String[] args) throws InterruptedException {
        int i = 0;
        for(;;) {
            i++;
            x = 0; y = 0;
            a = 0; b = 0;
            Thread one = new Thread(new Runnable() {
                public void run() {
                    //由于執行緒one先啟動,下面這句話讓它等一等執行緒two. 讀著可根據自己電腦的實際性能適當調整等待時間.
                    //shortWait(100000);
                    a = 1;
                    x = b;
                }
            });

            Thread other = new Thread(new Runnable() {
                public void run() {
                    b = 1;
                    y = a;
                }
            });
            one.start();other.start();
            one.join();other.join();
            String result = "第" + i + "次 (" + x + "," + y + ")";
            if(x == 0 && y == 0) {
                System.err.println(result);
                break;
            } else {
                //System.out.println(result);
            }
        }
    }


    public static void shortWait(long interval){
        long start = System.nanoTime();
        long end;
        do{
            end = System.nanoTime();
        }while(start + interval >= end);
    }
}

如何保證特定情況下不亂序?

1、硬體記憶體屏障(X86上)

  • sfence: store| 在sfence指令前的寫操作當必須在sfence指令后的寫操作前完成,
  • lfence:load | 在lfence指令前的讀操作當必須在lfence指令后的讀操作前完成,
  • mfence:modify/mix | 在mfence指令前的讀寫操作當必須在mfence指令后的讀寫操作前完成,
  • 原子指令,如x86上的”lock …” 指令是一個Full Barrier,執行時會鎖住記憶體子系統來確保執行順序,甚至跨多個CPU,Software Locks通常使用了記憶體屏障或原子指令來實作變、量可見性和保持程式順序

2、JVM級別如何規范(JSR133)

(這是虛的東西,硬體記憶體屏障才是實在的,JVM只是定了規范,實作看虛擬機或者CPU具體的實作)

  1. LoadLoad屏障:
  • 對于這樣的陳述句Load1; LoadLoad; Load2,
  • 在Load2及后續讀取操作要讀取的資料被訪問前,保證Load1要讀取的資料被讀取完畢,
  1. StoreStore屏障:
  • 對于這樣的陳述句Store1; StoreStore; Store2,
  • 在Store2及后續寫入操作執行前,保證Store1的寫入操作對其它處理器可見,
  1. LoadStore屏障:
  • 對于這樣的陳述句Load1; LoadStore; Store2,
  • 在Store2及后續寫入操作被刷出前,保證Load1要讀取的資料被讀取完畢,
  1. StoreLoad屏障:
  • 對于這樣的陳述句Store1; StoreLoad; Load2,
  • 在Load2及后續所有讀取操作執行前,保證Store1的寫入對所有處理器可見,

volatile的實作細節

很多文章講解volatile都比較凌亂,我這里從位元組碼、JVM、硬體層面上去分析一下,

1、位元組碼層面

(去看編譯過后的位元組碼檔案)只是加了個 ACC_VOLATILE

public class TestVolatile {
    int i;
    volatile int j;
}

位元組碼:

2、JVM層面

volatile記憶體區的讀寫 都加屏障

指令見上面 “JVM級別如何規范”

StoreStoreBarrier
volatile 寫操作
StoreLoadBarrier

LoadLoadBarrier
volatile 讀操作
LoadStoreBarrier

3、OS和硬體層面

這個要工具

想詳細了解可以看一下這篇文章:https://blog.csdn.net/qq_26222859/article/details/52235930

使用hsdis觀察匯編碼
lock指令 執行指令的時候保證對記憶體區域的枷鎖
hsdis - HotSpot Dis Assembler
在windows上 就是使用 lock 指令實作 | MESI實作

synchrnized實作細節

1、位元組碼層面

方法:ACC_SYSCHRONIZED

同步陳述句塊:monitorenter/monitorexit,

public class TestSync {
    synchronized void m() {

    }

    void n() {
        synchronized (this) {

        }
    }

    public static void main(String[] args) {

    }
}

monitorenter:進入

第一個monitorexit:退出

第二個monitorexit:發現例外會自動退出

2、JVM層面

C/C++呼叫了作業系統提供的同步機制,

3、OS和硬體層面

X86:lock一個指令 各種各樣的指令cmpxchg / xxx(lock是鎖定,后面的是修改的意思)

詳情:https://blog.csdn.net/21aspnet/article/details/88571740

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/204609.html

標籤:其他

上一篇:攜程旅行APP爬蟲,采集酒店價格協議逆向分析

下一篇:Java最新面試匯總,漲薪10K全靠它!(附面試避坑指南)

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more