主頁 > 軟體設計 > 深入 Java 原始碼來剖析 hashCode,從此菜不再是原罪

深入 Java 原始碼來剖析 hashCode,從此菜不再是原罪

2021-04-08 11:56:56 軟體設計

看完記得一鍵三連哦,微信搜索【沉默王二】關注這個沉默但有點東西的小丑,

假期結束了,需要快速切換到作業的狀態投入到新的一天當中,放假的時候痛快地玩耍,上班的時候積極的作業,這應該是我們大多數“現代人”該有的生活狀態,

我之所以費盡心思鋪墊了前面這段話,就是想告訴大家,技術文雖遲但到,來吧,學起來~

今天我們來談談 Java 中的 hashCode() 方法,眾所周知,Java 是一門面向物件的編程語言,所有的類都會默認繼承自 Object 類,而 Object 的中文意思就是“物件”,

Object 類中就包含了 hashCode() 方法:

@HotSpotIntrinsicCandidate
public native int hashCode();

意味著所有的類都會有一個 hashCode() 方法,該方法會回傳一個 int 型別的值,由于 hashCode() 方法是一個本地方法(native 關鍵字修飾的方法,用 C/C++ 語言實作,由 Java 呼叫),意味著 Object 類中并沒有給出具體的實作,

具體的實作可以參考 jdk/src/hotspot/share/runtime/synchronizer.cpp(原始碼可以到 GitHub 上 OpenJDK 的倉庫中下載),get_next_hash() 方法會根據 hashCode 的取值來決定采用哪一種哈希值的生成策略,

并且 hashCode() 方法被 @HotSpotIntrinsicCandidate 注解修飾,說明它在 HotSpot 虛擬機中有一套高效的實作,基于 CPU 指令,

那大家有沒有想過這樣一個問題:為什么 Object 類需要一個 hashCode() 方法呢?

在 Java 中,hashCode() 方法的主要作用就是為了配合哈希表使用的,

哈希表(Hash Table),也叫散串列,是一種可以通過關鍵碼值(key-value)直接訪問的資料結構,它最大的特點就是可以快速實作查找、插入和洗掉,其中用到的演算法叫做哈希,就是把任意長度的輸入,變換成固定長度的輸出,該輸出就是哈希值,像 MD5、SHA1 都用的是哈希演算法,

像 Java 中的 HashSet、Hashtable(注意是小寫的 t)、HashMap 都是基于哈希表的具體實作,其中的 HashMap 就是最典型的代表,不僅面試官經常問,作業中的使用頻率也非常的高,

大家想一下,如果沒有哈希表,但又需要這樣一個資料結構,它里面存放的資料是不允許重復的,該怎么辦呢?

要不使用 equals() 方法進行逐個比較?這種方案當然是可行的,但如果資料量特別特別大,采用 equals() 方法進行逐個對比的效率肯定很低很低,最好的解決方案就是哈希表,

拿 HashMap 來說吧,當我們要在它里面添加物件時,先呼叫這個物件的 hashCode() 方法,得到對應的哈希值,然后將哈希值和物件一起放到 HashMap 中,當我們要再添加一個新的物件時:

  • 獲取物件的哈希值;
  • 和之前已經存在的哈希值進行比較,如果不相等,直接存進去;
  • 如果有相等的,再呼叫 equals() 方法進行物件之間的比較,如果相等,不存了;
  • 如果不等,說明哈希沖突了,增加一個鏈表,存放新的物件;
  • 如果鏈表的長度大于 8,轉為紅黑樹來處理,

就這么一套下來,呼叫 equals() 方法的頻率就大大降低了,也就是說,只要哈希演算法足夠的高效,把發生哈希沖突的頻率降到最低,哈希表的效率就特別的高,

來看一下 HashMap 的哈希演算法:

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

先呼叫物件的 hashCode() 方法,然后對該值進行右移運算,然后再進行異或運算,

通常來說,String 會用來作為 HashMap 的鍵進行哈希運算,因此我們再來看一下 String 的 hashCode() 方法:

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        hash = h = isLatin1() ? StringLatin1.hashCode(value)
                : StringUTF16.hashCode(value);
    }
    return h;
}
public static int hashCode(byte[] value) {
    int h = 0;
    int length = value.length >> 1;
    for (int i = 0; i < length; i++) {
        h = 31 * h + getChar(value, i);
    }
    return h;
}

可想而知,經過這么一系列復雜的運算,再加上 JDK 作者這種大師級別的設計,哈希沖突的概率我相信已經降到了最低,

當然了,從理論上來說,對于兩個不同物件,它們通過 hashCode() 方法計算后的值可能相同,因此,不能使用 hashCode() 方法來判斷兩個物件是否相等,必須得通過 equals() 方法,

也就是說:

  • 如果兩個物件呼叫 equals() 方法得到的結果為 true,呼叫 hashCode() 方法得到的結果必定相等;
  • 如果兩個物件呼叫 hashCode() 方法得到的結果不相等,呼叫 equals() 方法得到的結果必定為 false;

反之:

  • 如果兩個物件呼叫 equals() 方法得到的結果為 false,呼叫 hashCode() 方法得到的結果不一定不相等;
  • 如果兩個物件呼叫 hashCode() 方法得到的結果相等,呼叫 equals() 方法得到的結果不一定為 true;

來看下面這段代碼,

public class Test {
    public static void main(String[] args) {
        Student s1 = new Student(18, "張三");
        Map<Student, Integer> scores = new HashMap<>();
        scores.put(s1, 98);
        System.out.println(scores.get(new Student(18, "張三")));
    }
}
 class Student {
    private int age;
    private String name;

     public Student(int age, String name) {
         this.age = age;
         this.name = name;
     }

     @Override
     public boolean equals(Object o) {
         Student student = (Student) o;
         return age == student.age &&
                 Objects.equals(name, student.name);
     }
 }

我們重寫了 Student 類的 equals() 方法,如果兩個學生的年紀和姓名相同,我們就認為是同一個學生,雖然很離譜,但我們就是這么草率,

main() 方法中,18 歲的張三考試得了 98 分,很不錯的成績,我們把張三和成績放到了 HashMap 中,然后準備輸出張三的成績:

null

很不巧,結果為 null,而不是預期當中的 98,這是為什么呢?

原因就在于重寫 equals() 方法的時候沒有重寫 hashCode() 方法,默認情況下,hashCode() 方法是一個本地方法,會回傳物件的存盤地址,顯然 put() 中的 s1 和 get() 中的 new Student(18, "張三") 是兩個物件,它們的存盤地址肯定是不同的,

HashMap 的 get() 方法會呼叫 hash(key.hashCode()) 計算物件的哈希值,雖然兩個不同的 hashCode() 結果經過 hash() 方法計算后有可能得到相同的結果,但這種概率微乎其微,所以就導致 scores.get(new Student(18, "張三")) 無法得到預期的值 18,

怎么解決這個問題呢?很簡單,重寫 hashCode() 方法,

 @Override
 public int hashCode() {
     return Objects.hash(age, name);
 }

Objects 類的 hash() 方法可以針對不同數量的引數生成新的 hashCode() 值,

public static int hashCode(Object a[]) {
 if (a == null)
     return 0;

 int result = 1;

 for (Object element : a)
     result = 31 * result + (element == null ? 0 : element.hashCode());

 return result;
}

代碼似乎很簡單,歸納出的數學公式如下所示(n 為字串長度),

注意:31 是個奇質數,不大不小,一般質數都非常適合哈希計算,偶數相當于移位運算,容易溢位,造成資料資訊丟失,

這就意味著年紀和姓名相同的情況下,會得到相同的哈希值,scores.get(new Student(18, "張三")) 就會回傳 98 的預期值了,

《Java 編程思想》這本圣經中有一段話,對 hashCode() 方法進行了一段描述,

設計 hashCode() 時最重要的因素就是:無論何時,對同一個物件呼叫 hashCode() 都應該生成同樣的值,如果在將一個物件用 put() 方法添加進 HashMap 時產生一個 hashCode() 值,而用 get() 方法取出時卻產生了另外一個 hashCode() 值,那么就無法重新取得該物件了,所以,如果你的 hashCode() 方法依賴于物件中易變的資料,用戶就要當心了,因為此資料發生變化時,hashCode() 就會生成一個不同的哈希值,相當于產生了一個不同的鍵,

也就是說,如果在重寫 hashCode()equals() 方法時,物件中某個欄位容易發生改變,那么最好舍棄這些欄位,以免產生不可預期的結果,

好,有了上面這些內容作為基礎后,我們回頭再來看看本地方法 hashCode() 的 C++ 原始碼,

static inline intptr_t get_next_hash(Thread* current, oop obj) {
  intptr_t value = 0;
  if (hashCode == 0) {
    // This form uses global Park-Miller RNG.
    // On MP system we'll have lots of RW access to a global, so the
    // mechanism induces lots of coherency traffic.
    value = os::random();
  } else if (hashCode == 1) {
    // This variation has the property of being stable (idempotent)
    // between STW operations.  This can be useful in some of the 1-0
    // synchronization schemes.
    intptr_t addr_bits = cast_from_oop<intptr_t>(obj) >> 3;
    value = addr_bits ^ (addr_bits >> 5) ^ GVars.stw_random;
  } else if (hashCode == 2) {
    value = 1;            // for sensitivity testing
  } else if (hashCode == 3) {
    value = ++GVars.hc_sequence;
  } else if (hashCode == 4) {
    value = cast_from_oop<intptr_t>(obj);
  } else {
    // Marsaglia's xor-shift scheme with thread-specific state
    // This is probably the best overall implementation -- we'll
    // likely make this the default in future releases.
    unsigned t = current->_hashStateX;
    t ^= (t << 11);
    current->_hashStateX = current->_hashStateY;
    current->_hashStateY = current->_hashStateZ;
    current->_hashStateZ = current->_hashStateW;
    unsigned v = current->_hashStateW;
    v = (v ^ (v >> 19)) ^ (t ^ (t >> 8));
    current->_hashStateW = v;
    value = v;
  }

  value &= markWord::hash_mask;
  if (value == 0) value = 0xBAD;
  assert(value != markWord::no_hash, "invariant");
  return value;
}

如果沒有 C++ 基礎的話,不用細致去看每一行代碼,我們只通過表面去了解一下 get_next_hash() 這個方法就行,其中的 hashCode 變數是 JVM 啟動時的一個全域引數,可以通過它來切換哈希值的生成策略,

  • hashCode==0,呼叫作業系統 OS 的 random() 方法回傳亂數,
  • hashCode == 1,在 STW(stop-the-world)操作中,這種策略通常用于同步方案中,利用物件地址進行計算,使用不經常更新的亂數(GVars.stw_random)參與其中,
  • hashCode == 2,使用回傳 1,用于某些情況下的測驗,
  • hashCode == 3,從 0 開始計算哈希值,不是執行緒安全的,多個執行緒可能會得到相同的哈希值,
  • hashCode == 4,與創建物件的記憶體位置有關,原樣輸出,
  • hashCode == 5,默認值,支持多執行緒,使用了 Marsaglia 的 xor-shift 演算法產生偽亂數,所謂的 xor-shift 演算法,簡單來說,看起來就是一個移位暫存器,每次移入的位由暫存器中若干位取異或生成,所謂的偽亂數,不是完全隨機的,但是真隨機生成比較困難,所以只要能通過一定的亂數統計檢測,就可以當作真亂數來使用,

至于更深層次的挖掘,涉及到數學知識和物理知識,就不展開了,畢竟菜是原罪


我最近花了近一周的時間整理了一份純 Java 版的刷題筆記,一共 300 道題解!

圖文并茂,截圖如下,不只是干巴巴的題解代碼,很多題都給出了多種解題思路,真的會提高大家刷題的幸福指數~


刷完 300 道 LeetCode 題后,我膨脹到要飄起來了!純正 Java 版


我是沉默王二,希望大家都能把編程學好,可以微信搜一搜「 沉默王二 」關注我,回復【面試】有我為大家精心準備的一份面試資料~如果內容有幫助的話,歡迎一鍵三連!

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/273770.html

標籤:其他

上一篇:【C語言從青銅到王者】第零篇·與C語言來個約會

下一篇:藍橋杯刷題之分享方法---前綴差分

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 面試突擊第一季,第二季,第三季

    第一季必考 https://www.bilibili.com/video/BV1FE411y79Y?from=search&seid=15921726601957489746 第二季分布式 https://www.bilibili.com/video/BV13f4y127ee/?spm_id_fro ......

    uj5u.com 2020-09-10 05:35:24 more
  • 第三單元作業總結

    1.前言 這應該是本學期最后一次寫作業總結了吧。總體來說,對作業的節奏也差不多掌握了,作業做起來的效率也更高了。雖然和之前的作業一樣,作業中都要用到新的知識,但是相比之前,更加懂得了如何利用工具以及資料。雖然之間卡過殼,但總體而言,這幾次作業還算完成的比較好。 2.作業程序總結 相比前兩個單元,此單 ......

    uj5u.com 2020-09-10 05:35:41 more
  • 北航OO(2020)第四單元博客作業暨課程總結博客

    北航OO(2020)第四單元博客作業暨課程總結博客 本單元作業的架構設計 在本單元中,由于UML圖具有比較清晰的樹形結構,因此我對其中需要進行查詢操作的元素進行了包裝,在樹的父節點中存盤所有孩子的參考。考慮到性能問題,我采用了快取機制,一次查詢后盡可能快取已經遍歷過的資訊,以減少遍歷次數。 本單元我 ......

    uj5u.com 2020-09-10 05:35:48 more
  • BUAA_OO_第四單元

    一、UML決議器設計 ? 先看下題目:第四單元實作一個基于JDK 8帶有效性檢查的UML(Unified Modeling Language)類圖,順序圖,狀態圖分析器 MyUmlInteraction,實際上我們要建立一個有向圖模型,UML中的物件(元素)可能與同級元素連接,也可與低級元素相連形成 ......

    uj5u.com 2020-09-10 05:35:54 more
  • 6.1邏輯運算子

    邏輯運算子 1. && 短路與 運算式1 && 運算式2 01.運算式1為true并且運算式2也為true 整體回傳為true 02.運算式1為false,將不會執行運算式2 整體回傳為false 03.只要有一個運算式為false 整體回傳為false 2. || 短路或 運算式1 || 運算式2 ......

    uj5u.com 2020-09-10 05:35:56 more
  • BUAAOO 第四單元 & 課程總結

    1. 第四單元:StarUml檔案決議 本單元采用了圖模型決議UML。 UML檔案可以抽象為圖、子圖、邊的邏輯結構。 在實作中,圖的節點包括類、介面、屬性,子圖包括狀態圖、順序圖等。 采用了三次遍歷UML元素的方法建圖,第一遍遍歷建點,第二、三次遍歷設定屬性、連邊,實作圖物件的初始化。這里借鑒了一些 ......

    uj5u.com 2020-09-10 05:36:06 more
  • 談談我對C# 多型的理解

    面向物件三要素:封裝、繼承、多型。 封裝和繼承,這兩個比較好理解,但要理解多型的話,可就稍微有點難度了。今天,我們就來講講多型的理解。 我們應該經常會看到面試題目:請談談對多型的理解。 其實呢,多型非常簡單,就一句話:呼叫同一種方法產生了不同的結果。 具體實作方式有三種。 一、多載 多載很簡單。 p ......

    uj5u.com 2020-09-10 05:36:09 more
  • Python 資料驅動工具:DDT

    背景 python 的unittest 沒有自帶資料驅動功能。 所以如果使用unittest,同時又想使用資料驅動,那么就可以使用DDT來完成。 DDT是 “Data-Driven Tests”的縮寫。 資料:http://ddt.readthedocs.io/en/latest/ 使用方法 dd. ......

    uj5u.com 2020-09-10 05:36:13 more
  • Python里面的xlrd模塊詳解

    那我就一下面積個問題對xlrd模塊進行學習一下: 1.什么是xlrd模塊? 2.為什么使用xlrd模塊? 3.怎樣使用xlrd模塊? 1.什么是xlrd模塊? ?python操作excel主要用到xlrd和xlwt這兩個庫,即xlrd是讀excel,xlwt是寫excel的庫。 今天就先來說一下xl ......

    uj5u.com 2020-09-10 05:36:28 more
  • 當我們創建HashMap時,底層到底做了什么?

    jdk1.7中的底層實作程序(底層基于陣列+鏈表) 在我們new HashMap()時,底層創建了默認長度為16的一維陣列Entry[ ] table。當我們呼叫map.put(key1,value1)方法向HashMap里添加資料的時候: 首先,呼叫key1所在類的hashCode()計算key1 ......

    uj5u.com 2020-09-10 05:36:38 more
最新发布
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:20:47 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:20:25 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:20:17 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:20:10 more
  • 【中介者設計模式詳解】C/Java/JS/Go/Python/TS不同語言實作

    * 中介者模式是一種行為型設計模式,它可以用來減少類之間的直接依賴關系,
    * 將物件之間的通信封裝到一個中介者物件中,從而使得各個物件之間的關系更加松散。
    * 在中介者模式中,物件之間不再直接相互互動,而是通過中介者來中轉訊息。 ......

    uj5u.com 2023-04-20 08:19:44 more
  • 露天煤礦現場調研和交流案例分享

    他們集團的資訊化公司及研究院在一個礦區正在做智能礦山的統一平臺的 試點,專案投資大概1億,包括了礦山的各方面的內容,顯示得我們這次交流有點多余。他們2年前開始做智能礦山的規劃,有很多煤礦行業專家的加持,他們的描述是非常完美,但是去年底應該上線的平臺,現在還沒有看到影子。他們確實有很多場景需求,但是被... ......

    uj5u.com 2023-04-20 08:19:07 more
  • 《社區人員管理》實戰案例設計&個人案例分享

    設計是一個讓人夢想成真程序,開始編碼、測驗、除錯之前進行需求分析和架構設計,才能保證關鍵方面都做正確 ......

    uj5u.com 2023-04-20 08:18:57 more
  • 軟體架構生態化-多角色交付的探索實踐

    作為一個技術架構師,不僅僅要緊跟行業技術趨勢,還要結合研發團隊現狀及痛點,探索新的交付方案。在日常中,你是否遇到如下問題 “ 業務需求排期長研發是瓶頸;非研發角色感受不到研發技改提效的變化;引入ISV 團隊又擔心質量和安全,培訓周期長“等等,基于此我們探索了一種新的技術體系及交付方案來解決如上問題。 ......

    uj5u.com 2023-04-20 08:18:49 more
  • 05單件模式

    #經典的單件模式 public class Singleton { private static Singleton uniqueInstance; //一個靜態變數持有Singleton類的唯一實體。 // 其他有用的實體變數寫在這里 //構造器宣告為私有,只有Singleton可以實體化這個類! ......

    uj5u.com 2023-04-19 08:42:51 more
  • 【架構與設計】常見微服務分層架構的區別和落地實踐

    軟體工程的方方面面都遵循一個最基本的道理:沒有銀彈,架構分層模型更是如此,每一種都有各自優缺點,所以請根據不同的業務場景,并遵循簡單、可演進這兩個重要的架構原則選擇合適的架構分層模型即可。 ......

    uj5u.com 2023-04-19 08:42:41 more