主頁 > 後端開發 > Python里的dict和set的背后小秘密

Python里的dict和set的背后小秘密

2021-10-30 06:13:36 後端開發

  • Python里的dict和set的效率有多高?
  • 為什么它們是無序的?
  • 為什么并不是所有的Python物件都可以當作dict的鍵或set里的元素?
  • 為什么dict的鍵和set的元素的順序是根據它們被添加的次序而定的,以及為什么在映射物件的生命周期中,這個順序并不是一成不變的?
  • 為什么不應該在迭代回圈dict或是set的同時往里添加元素?

Python里的dict和set的效率有多高?

由實驗得知,不管查詢有多少個元素的字典或集合,所耗費的時間都能忽略不計(前提是字典或者集合不超過記憶體大小).

字典中的散串列

散串列其實是一個稀疏陣列(總是有空白元素的陣列被稱為稀疏陣列).在一般的資料結構教材中,散串列里的單元通常叫作表元(bucket).

在dict的散串列當中,每個鍵值對都占用一個表元,每個表元都有兩個部分,一個是對鍵的參考,另一個是對值的參考.

因為所有的表元的大小一致,所以可以通過偏移量來讀取某個表元.

Python會設法保證大概還有三分之一的表元是空的,所以在快要達到這個閾值的時候,原有散串列會被復制到一個更大的空間里面.

如果要把一個物件放入散串列,那么首先要計算這個元素鍵的散列值.Python中可以用hash()方法來做這件事情.

1.散列值和相等性
內置的hash()方法可以用于所有的內置型別物件.如果是自定義物件呼叫hash()的話,實際上運行的是自定義的__hash__.
如果這兩個物件在比較的時候是相等的,那么它們的散列值必須相等,否則散串列就不能正常運行了.

例如,如果11.0為真,那么hash(1)hash(1.0)也必須為真,但其實這兩個數字(整型和浮點)的內部結構是完全不一樣的.

既然提到了整型,CPython的實作細節里有一條是:如果有一個整型物件,而且它能被存進一個機器字中,那么它的散列值就是它本身的值.

為了讓散列值能夠勝任散串列索引這一角色,它們必須在索引空間中盡量分散開來.這意味著在最理想的狀況下,越是相似但不相等的物件,它們散列值的差別應該越大.

"""
import sys

# 通過sys.maxsize獲取作業系統的整數最大值,轉換成二進制,計算位數,加上一個符號位
MAX_BITS = len(format(sys.maxsize, 'b'))
print('%s-bit Python build' % (MAX_BITS + 1))


def hash_diff(o1, o2):
    h1 = '{:>0{}b}'.format(hash(o1), MAX_BITS)  # 計算o1的散列值,并用0補滿空位
    h2 = '{:>0{}b}'.format(hash(o2), MAX_BITS)  # 計算o2的散列值,并用0補滿空位
    # 比較h1和h2的每一位,用!標識出來,否則用' '表示
    diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(h1, h2))
    count = '!={}'.format(diff.count('!'))  # 顯示不同的總數
    width = max(len(repr(o1)), len(repr(o2)), 8)  # 行頭的寬度
    sep = '_' * (width * 2 + MAX_BITS)  # 分割線
    return '{!r:{width}} {}\n{:{width}} {} {}\n{!r:{width}} {}\n{}'.format(
        o1, h1, ' ' * width, diff, count, o2, h2, sep, width=width
    )


print(hash_diff(1, 1.0))
print(hash_diff(1.0, 1.0001))
print(hash_diff(1.0001, 1.0002))
print(hash_diff(1.0002, 1.0003))

從Python3.3開始,str,bytes和datetime物件的散列值計算程序中多了隨機的'加鹽'這一步.
所加鹽值是Python行程內的一個常量,但是每次啟動Python解釋器都會生成一個不同的鹽值.
隨機鹽值的加入是為了防止DOS攻擊而采取的一種安全措施.

散串列演算法

為了獲取my_dict[search_key]背后的值,Python首先會呼叫hash(search_key)來計算search_key的散列值,把這個值最低的幾位數字當作偏移量,在散串列里查找表元(具體取幾位,得看當前散串列的大小).若找到的表元是空的,則拋出KeyError例外.

若不是空的,則表元里會有一對found_key:found_value.這時候Python會檢驗search_key == found_key是否為真,如果是,就會回傳found_value.

如果search_keyfound_key不匹配的話,這種情況稱為[散列沖突].發生這種情況是因為,散串列所做的其實是把隨機的元素映射到只有幾位的數字上,而散串列本身的索引又只能依賴于這個數字的一部分.為了解決散列沖突,演算法會在散列值中另外再取幾位,然后用特殊的方法處理一下,把新得到的數字再當作索引來尋找表元.

若這次找到的表元是空的,則同樣拋出KeyError;若非空,或者鍵匹配,則回傳這個值;或者又發現了散列沖突,則重復以上的步驟.

從字典中取值的演算法流程如下:給定一個鍵,這個演算法要么回傳一個值,要么拋出KeyError例外

|-------------------------------------------------------------------------|
|計算鍵的散列值               ________使用散列值的另一部分來定位散串列中的零一行 |
|     |                    |                        ↑                     |
|     |                    |                        | 否 (散列沖突)        |
|     |                    ↓                        |                     |
|使用散列值的一部分         表元                       |                     |
|來定位散串列中的一 ------→ 為空? ---------否-------→ 鍵相等?                 |
|個表元                     |                        |                     |
|                          |是                       |是                   |
|                          ↓                         ↓                     |
|                    拋出KeyError                回傳表元里的值              |
|--------------------------------------------------------------------------|

添加新元素和更新現有鍵值的操作幾乎跟上面一樣.只不過對于前者,在發現空表元的時候會放入一個新元素;

對于后者,在找到對應的表元后,原表里值物件會被替換成新值.

另外在插入新值時,Python可能會按照散串列的擁擠程度來決定是否要重新分配記憶體來為它擴容.如果增加了散串列的大小,那散列值所占的位數和用作索引的位數就會隨之增加,這樣做的目的是為了減少發生散列沖突的概率.

表面上看,這個演算法似乎很費事,而實際上就是dict里有數百萬個元素,多數的搜索程序中并不會有沖突發生,平均下來每次搜索可能會有一到兩次沖突.

在正常情況下,就算是最不走運的鍵所遇到的沖突的次數用一只手也能數過來.

dict的實作及其導致的結果

1.鍵必須死可散列的
一個可散列的物件必須滿足以下要求:
1)支持hash()函式,并且通過__hash__()方法所得到的散列值是不變的.
2)支持通過__eq__()方法來檢測相等性.
3)若a == b為真,則hash(a) == hash(b)也為真

所有由用戶定義的物件默認都是可散列的,因為它們散列值由id()來獲取,而且它們都是不相等的.

如果你實作了一個類的__eq__()方法,并且希望它是可散列的,那么它一點要有個恰當的__hash__方法,保證a==b為真的情況下hash(a)==hash(b)也必定為真.

否則就會破壞恒定的散串列演算法,導致由這些物件所組成的字典和集合完全失去可靠性,這個后果是非常可怕的.

另一方面,如果一個含有自定義__eq__依賴的類處于可變的狀態,那就不要在這個類中實作__hash__方法,因為它的實體時不可散列的.

'''
學習中遇到問題沒人解答?小編創建了一個Python學習交流群:725638078
尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!
'''
class A:
    def __init__(self, a):
        self.a = a

    def __hash__(self):
        return 1

    def __eq__(self, other):
        return hash_diff(self, other)

    def __repr__(self):
        return str(self.a)


a = A(1)
b = A(2)
d1 = {a: 1, b: 2, 1: 3}
print(d1)  # {1: 3}  會發現里面只有一個鍵值對

2.字典在記憶體上的開銷巨大

由于字典使用了散串列,而散串列又必須時稀疏的,這導致它在空間上的效率低下.舉例而言.如果你需要存放數量巨大的記錄,那么放在由元組或是具名元組構成的串列中會是比較好的選擇;
最好不要根據JSON的風格,用由字典組成的串列來存放這些記錄,用元組取代字典能節省空間的原因有兩個:
其一是避免了散串列所消耗的空間. 其二是無需把記錄中欄位的名字在每個元素里都存一遍.
在用戶自定義的型別中,__slots__屬性可以改變實體屬性的存盤方式,由dict變成tuple.

3.鍵查詢很快

dict的實作是典型的空間換時間:字典型別有著巨大的記憶體開銷,但它們提供了無視資料量的快速訪問--只要字典能被裝在記憶體里.

4.鍵的次序取決于添加順序
當往dict里添加新鍵而又發生散列沖突的時候,新鍵可能會被安排存放到另一個位置.于是下面的這種情況就會發生:
dict([(key1, value1), (key2, value2)])dict([(key2, value2), (key1, value1)])得到的兩個字典,在進行比較的時候,它們是相等的.

但是如果在key1和key2被添加到字典里的程序中有沖突發生的話,這兩個鍵出現在字典里的順序是不一樣的.

下面的示例展示了這個現橡.這個示例用同樣的資料創建了3個字典,唯一的區別就是資料出現的順序不一樣.可以看到,雖然鍵的次序是亂的,這3個字典仍然被視作相等的.

STUDENTS = [
    (89, '孫悟空'),
    (79, '豬八戒'),
    (69, '沙和尚'),
    (59, '小白龍'),
    (49, '唐僧')
]

d1 = dict(STUDENTS)
print('d1:', d1.keys())
d2 = dict(sorted(STUDENTS))
print('d2:', d2.keys())
d3 = dict(sorted(STUDENTS, key=lambda x: x[1]))
print('d3', d3.keys())
assert d1 == d2 and d2 == d3

5.往字典里添加新鍵可能會改變已有鍵的順序

無論何時往字典里添加新的鍵,Python解釋器都可能做出為字典擴容的決定.擴容導致的結果就是要新建一個更大的散串列,并把字典里已有的元素添加到新表里.

這個程序可能會發生新的散列沖突,導致新散串列中鍵的次序變化.

要注意的是,上面提到的這些變化是否會發生以及如何發生,都依賴于字典背后的實作,因此你不能很自信的說自己知道背后發生了什么.

如果你在迭代一個字典的所有鍵的程序中同時對字典進行修改,那么這個回圈很可能會跳過一些鍵----甚至是跳過那些字典中已經有的鍵.

由此可知,不要對字典同時進行迭代和修改.如果想掃描并修改一個字典,最好分成兩步來進行:
首先對字典迭代,以得出需要添加的內容,把這些內容放在一個新字典里;迭代結束之后再對原字典進行更新.

在Python3中,.keys() .items() .values()方法回傳的都是字典視圖.也就是說,這些方法回傳的值更像集合.

set的實作及其導致的結果

set和frozenset的實作也依賴散串列,但在它們的散串列里存放的只有元素的參考.在set加入到Python之前,我們都是把字典加上無意義的值當作集合來用.

1.集合里的元素必須是可散列的.
2.集合很消耗記憶體.
3.可以很高效的判斷元素是否存在于某個集合.
4.元素的次序取決于被添加到集合里的次序.
5.往集合里添加元素,可能會改變集合里已有元素的次序.

結尾給大家推薦一個非常好的學習教程,希望對你學習Python有幫助!

Python基礎入門教程推薦:更多Python視頻教程-關注B站:Python學習者
https://www.bilibili.com/video/BV1LL4y1h7ny?share_source=copy_web

Python爬蟲案例教程推薦:更多Python視頻教程-關注B站:Python學習者
https://www.bilibili.com/video/BV1QZ4y1N7YA?share_source=copy_web

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/341703.html

標籤:Python

上一篇:利用Python演算法畫出美麗動人的妹子影像

下一篇:去洗腳嗎?一起探索按摩店的樂趣,Python采集按摩/足浴店資料

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more