簡介
- 本篇將簡單講解
Java集合框架中的HashSet與HashMap,
散列集(HashSet)
快速入門
-
底層原理:動態陣列加單向鏈表或紅黑樹,
JDK 1.8之后,當鏈表長度超過閾值8時,鏈表將轉換為紅黑樹, -
查閱
HashSet的原始碼,可以看到HashSet的底層是HashMap,HashSet相當于只用了HashMap鍵Key的部分,當需要進行添加元素操作時,其值Value始終為常量PRESENT = new Object(),以下為HashSet的代碼片段:
private transient HashMap<E,Object> map;
public HashSet() {
map = new HashMap<>();
}
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
public Iterator<E> iterator() {
return map.keySet().iterator();
}
- 上面說到,在
JDK 1.8之后,當鏈表長度超過閾值8時,鏈表將轉為紅黑樹;當鏈表長度小于6時,紅黑樹重新轉為鏈表,那么為什么閾值是8呢? - 閾值定義為
8,符合數學概率論上的泊松分布Poisson,根據泊松分布,一個桶bucket是很難被填滿達到長度8的, - 一旦用于存盤資料的鏈表長度達到閾值
8,則很大的可能是該HashSet所使用的散列函式性能不佳、或存在惡意代碼向集中添加了很多具有相同散列碼的值,此時轉為平衡二叉樹可以提高性能,
散串列
- 鏈表
LinkedList、陣列Array或陣列串列ArrayList都有一個共同的缺點:根據值查找元素速度慢,一旦存放的資料較多,查找速度將十分緩慢, - 如果應用中開發者不在意元素的排列順序,此時推薦使用的資料結構為散串列,散串列用于快速查找物件,
- 使用散串列的關鍵是物件必須具備一個散列碼,通過物件內
HashCode()方法即可計算得到物件的散列碼,一般情況下,不同資料的物件將產生不同的散列碼, - 下表顯示了使用
String類中hashCode()方法成的散列碼:
| 字串 | 散列碼 |
|---|---|
| "Lee" | 76268 |
| "lee" | 107020 |
| "eel" | 100300 |
- 在
Java中,散串列HashTable使用動態陣列加鏈表或紅黑樹的形式實作, - 動態陣列中的每個位置被稱為桶
bucket,要想查找元素位于散串列中的位置,需要首先計算元素的散列碼,然后與桶的總數取余,所得到的結果就是保存這個元素的桶的索引, - 假設動態陣列為
table,物件a的散列碼為hashCode,則元素將存放在table的索引為hashCode % table.size(),通常將該索引值成為散列值,它與散列碼是不一樣的,

- 例如,如果某個物件的散列碼為
76268,并且有128個桶,那么這個物件應該保存在第108號桶中,因為76268%128=108, - 如果在這個桶中沒有其他的元素,此時將元素直接插入到桶中即可;但如果桶已經被填充,這種現象被稱為散列沖突
hash collision,發生散列沖突,需要將新物件與桶中的所有物件進行比較,查看這個物件是否已經存在, - 此時如果散列碼合理地隨機分布(可以理解為散列函式
hashCode()合理),桶的數目也足夠大,需要比較的次數就會很少, - 在
Java 8中,桶滿時會從鏈表變為平衡二叉樹,如果選擇的散列函式不好,會產生很多沖突,或者如果有惡意代碼試圖在散串列中填充多個有相同散列碼的值,這樣改為平衡二叉樹能提高性能, - 如果需要更多地控制散串列的性能,可以指定一個初始的桶數,桶數是指用于收集具有相同散列值的桶的數目,如果要插入到散串列中的元素太多,就會增加沖突數量,降低檢索的性能,
- 如果大致知道最侄訓有多少個元素要插入到散串列中,就可以設定桶數,通常,將桶數設定為預計元素個數的
75%~150%,有些研究人員認為:最好將桶數設定為一個素數,以防止鍵的聚集,不過,對此并沒有確鑿的證據, - 標準類別庫使用的桶數是
2的次冪,默認值為16(為表大小提供的任何值,都將自動轉換為2的下一個冪值), - 但是,并不總能夠知道需要存盤多少個元素,也有可能最初的估計過低,如果散串列太滿,就需要再散列
rehashed,如果要對散串列再散列,就需要創建一個桶數更多的表,并將所有元素插入到這個新表中,然后丟棄原來的表,裝填因子load factor可以確定何時對散串列進行再散列, - 例如,如果裝填因子是
0.75(默認值),說明表中已經填滿了75%以上,就會自動再散列,新表的桶數是原來的兩倍,對于大多數程式來說,裝填因子為0.75是合理的, - 散串列可以用于實作很多重要的資料結構,其中最簡單的是集型別,集是沒有重復元素的元素集合,其中
add方法首先會在這個集中查找要添加的物件,如果不存在,就添加這個物件, Java集合框架提供了一個HashSet類,它實作了基于散串列的集,可以用add方法添加元素,contains方法已經被重新定義,用來快速查找某個元素是否已經在集中,它只查看一個桶中的元素,而不必查看集合中所有元素,- 散列集迭代器將依次訪問所有的桶,由于散列將元素分散在表中,所以會以一種看起來隨機的順序訪問元素,只有不關心集合中元素的順序時,才應該使用
HashSet, - 而
HashSet的實作基于HashMap,在隨后會對HashMap的部分原始碼進行分析,以了解其初始容量及擴容機制,
散列映射(HashMap)
快速入門
- 底層原理:動態陣列加單向鏈表或紅黑樹,
JDK 1.8之后,當鏈表長度超過閾值8時,鏈表將轉換為紅黑樹,默認散串列中的動態陣列長度為16,散列因子為0.75,擴容閾值為12, - 擴容機制:擴容后散串列中的動態陣列長度,變為舊動態陣列的兩倍,擴容閾值為散列因子與動態陣列長度的乘積,
- 以下為
HashMap中代表單向鏈表結構的Node<K, V>類,與代表紅黑樹結構的TreeNode<K, V>類,
// HashMap.java原始碼
// 基于單向鏈表的用于存盤資料的物件
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = https://www.cnblogs.com/phax2/archive/2021/01/02/value;
this.next = next;
}
...
}
// 基于紅黑樹的用于存盤資料的物件
static final class TreeNode extends LinkedHashMap.Entry {
TreeNode parent; // red-black tree links
TreeNode left;
TreeNode right;
TreeNode prev; // needed to unlink next upon deletion
boolean red;
TreeNode(int hash, K key, V val, Node next) {
super(hash, key, val, next);
}
...
}
二次散列
- 散列映射
HashMap只對鍵進行散列,與鍵關聯的值不進行散列,以下為HashMap中的部分原始碼:
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
- 所有使用
put()方法存入HashMap中的鍵值對,都會在內部呼叫putVal()進行添加元素操作,putVal()方法的第一個引數則需要提供key的散列碼, - 此處并沒有直接使用
key.hashCode(),而是使用了HashMap中的hash()方法對key進行二次散列,二次散列可以理解為在物件呼叫它的散列函式之后,再進行一次額外的計算,二次散列有助于獲得更好的散列碼,
擴容機制
HashMap中的動態陣列初始容量為16,默認的散列因子為0.75,即在容量到達16 * 0.75 = 12時,會對動態陣列進行擴容處理,上限容量被稱為threshold,- 擴容后的
HashMap,其動態陣列容量為原來的2倍,由于散列因子不會改變,因此threshold也為原來的2倍, - 以下為
HashMap中resize()、putVal()的原始碼:
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length; // 第一個resize()是進行動態陣列Node<K, V>[]初始化的操作,不會進行擴容
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = https://www.cnblogs.com/phax2/archive/2021/01/02/e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
// 當HashMap中元素數量大于閾值threshold,則會進行擴容resize()操作
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
- 通過原始碼可以知道,
HashMap在初始化的時候并不會立即為動態陣列分配記憶體,直到呼叫putVal()為止,才會在putVal()中呼叫resize()方法初始化動態陣列, - 動態陣列
Node<K, V>[]將在resize()中完成初始化或擴容的操作, - 其中有關初始化的關鍵代碼為:
newCap = DEFAULT_INITIAL_CAPACITY; // DEFAULT_INITIAL_CAPACITY = 1 << 4,即默認大小為16,
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); // threshold = newCap * 0.75,即默認為12,
- 有關于擴容的關鍵代碼為:
if (oldCap > 0) { // 當動態陣列擁有默認容量時,如果再次呼叫resize(),則一定會進行擴容操作
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
} else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) { // 容量為原來的2倍
newThr = oldThr << 1; // 閾值為原來的2倍
}
}
總結
- 以上為所有關于
HashSet、HashMap的粗略介紹, - 如果希望了解更多的內容,可以前往
JDK閱讀原始碼,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/243771.html
標籤:其他
