語言的記憶體管理是語言設計的一個重要方面,它是決定語言性能的重要因素,無論是C語言的手工管理,還是Java的垃圾回收,都成為語言最重要的特征,這里以Python語言為例子,說明一門動態型別的、面向物件的語言的記憶體管理方式,
物件的記憶體使用
賦值陳述句是語言最常見的功能了,但即使是最簡單的賦值陳述句,也可以很有內涵,Python
a = 1
整數1為一個物件,而a是一個參考,利用賦值陳述句,參考a指向物件1,Python是動態型別的語言(參考動態型別),物件與參考分離,Python像使用“筷子”那樣,通過參考來接觸和翻動真正的食物——物件,
參考和物件
為了探索物件在記憶體的存盤,我們可以求助于Python的內置函式id(),它用于回傳物件的身份(identity),其實,這里所謂的身份,就是該物件的記憶體地址,
a = 1
print(id(a))
print(hex(id(a)))
在我的計算機上,它們回傳的是:
11246696
'0xab9c68'
分別為記憶體地址的十進制和十六進制表示,
在Python中,整數和短小的字符,Python都會快取這些物件,以便重復使用,當我們創建多個等于1的參考時,實際上是讓所有這些參考指向同一個物件,
a = 1
b = 1
print(id(a))
print(id(b))
上面程式回傳
11246696
11246696
可見a和b實際上是指向同一個物件的兩個參考,
為了檢驗兩個參考指向同一個物件,我們可以用is關鍵字,is用于判斷兩個參考所指的物件是否相同,
# True
a = 1
b = 1
print(a is b)
# True
a = "good"
b = "good"
print(a is b)
# False
a = "very good morning"
b = "very good morning"
print(a is b)
# False
a = []
b = []
print(a is b)
上面的注釋為相應的運行結果,可以看到,由于Python快取了整數和短字串,因此每個物件只存有一份,比如,所有整數1的參考都指向同一物件,即使使用賦值陳述句,也只是創造了新的參考,而不是物件本身,長的字串和其它物件可以有多個相同的物件,可以使用賦值陳述句創建出新的物件,
在Python中,每個物件都有存有指向該物件的參考總數,即參考計數(reference count),
我們可以使用sys包中的getrefcount(),來查看某個物件的參考計數,需要注意的是,當使用某個參考作為引數,傳遞給getrefcount()時,引數實際上創建了一個臨時的參考,因此,getrefcount()所得到的結果,會比期望的多1,
from sys import getrefcount
a = [1, 2, 3]
print(getrefcount(a))b = aprint(getrefcount(b))
由于上述原因,兩個getrefcount將回傳2和3,而不是期望的1和2,
物件參考物件
Python的一個容器物件(container),比如表、詞典等,可以包含多個物件,實際上,容器物件中包含的并不是元素物件本身,是指向各個元素物件的參考,
我們也可以自定義一個物件,并參考其它物件:
class from_obj(object):
def __init__(self, to_obj):
self.to_obj = to_obj
b = [1,2,3]
a = from_obj(b)
print(id(a.to_obj))
print(id(b))
可以看到,a參考了物件b,
物件參考物件,是Python最基本的構成方式,即使是a = 1這一賦值方式,實際上是讓詞典的一個鍵值"a"的元素參考整數物件1,該詞典物件用于記錄所有的全域參考,該詞典參考了整數物件1,我們可以通過內置函式globals()來查看該詞典,
當一個物件A被另一個物件B參考時,A的參考計數將增加1,
from sys import getrefcount
a = [1, 2, 3]
print(getrefcount(a))
b = [a, a]
print(getrefcount(a))
由于物件b參考了兩次a,a的參考計數增加了2,
容器物件的參考可能構成很復雜的拓撲結構,我們可以用objgraph包來繪制其參考關系,比如
x = [1, 2, 3]
y = [x, dict(key1=x)]
z = [y, (x, y)]
import objgraph
objgraph.show_refs([z], filename='ref_topo.png')
objgraph是Python的一個第三方包,安裝之前需要安裝xdot,
sudo apt-get install xdot
sudo pip install objgrap
兩個物件可能相互參考,從而構成所謂的參考環(reference cycle),
a = []
b = [a]
a.append(b)
即使是一個物件,只需要自己參考自己,也能構成參考環,
a = []
a.append(a)
print(getrefcount(a))
參考環會給垃圾回識訓制帶來很大的麻煩,我將在后面詳細敘述這一點,
參考減少
某個物件的參考計數可能減少,比如,可以使用del關鍵字洗掉某個參考:
from sys import getrefcount
a = [1, 2, 3]
b = a
print(getrefcount(b))
del a
print(getrefcount(b))
del也可以用于洗掉容器元素中的元素,比如:
a = [1,2,3]
del a[0]
print(a)
如果某個參考指向物件A,當這個參考被重新定向到某個其他物件B時,物件A的參考計數減少:
from sys import getrefcounta = [1, 2, 3]
b = a
print(getrefcount(b))
a = 1
print(getrefcount(b))
垃圾回收
吃太多,總會變胖,Python也是這樣,當Python中的物件越來越多,它們將占據越來越大的記憶體,不過你不用太擔心Python的體形,它會乖巧的在適當的時候“減肥”,啟動垃圾回收(garbage collection),將沒用的物件清除,在許多語言中都有垃圾回識訓制,比如Java和Ruby,盡管最終目的都是塑造苗條的提醒,但不同語言的減肥方案有很大的差異 (這一點可以對比本文和Java記憶體管理與垃圾回收),
從基本原理上,當Python的某個物件的參考計數降為0時,說明沒有任何參考指向該物件,該物件就成為要被回收的垃圾了,比如某個新建物件,它被分配給某個參考,物件的參考計數變為1,如果參考被洗掉,物件的參考計數為0,那么該物件就可以被垃圾回收,比如下面的表:
a = [1, 2, 3]
del a
del a后,已經沒有任何參考指向之前建立的[1, 2, 3]這個表,用戶不可能通過任何方式接觸或者動用這個物件,這個物件如果繼續待在記憶體里,就成了不健康的脂肪,當垃圾回收啟動時,Python掃描到這個參考計數為0的物件,就將它所占據的記憶體清空,
然而,減肥是個昂貴而費力的事情,垃圾回收時,Python不能進行其它的任務,頻繁的垃圾回收將大大降低Python的作業效率,如果記憶體中的物件不多,就沒有必要總啟動垃圾回收,所以,Python只會在特定條件下,自動啟動垃圾回收,當Python運行時,會記錄其中分配物件(object allocation)和取消分配物件(object deallocation)的次數,當兩者的差值高于某個閾值時,垃圾回收才會啟動,
我們可以通過gc模塊的get_threshold()方法,查看該閾值:
import gc
print(gc.get_threshold())
回傳(700, 10, 10),后面的兩個10是與分代回收相關的閾值,后面可以看到,700即是垃圾回收啟動的閾值,可以通過gc中的set_threshold()方法重新設定,
我們也可以手動啟動垃圾回收,即使用gc.collect(),
分代回收
Python同時采用了分代(generation)回收的策略,這一策略的基本假設是,存活時間越久的物件,越不可能在后面的程式中變成垃圾,我們的程式往往會產生大量的物件,許多物件很快產生和消失,但也有一些物件長期被使用,出于信任和效率,對于這樣一些“長壽”物件,我們相信它們的用處,所以減少在垃圾回收中掃描它們的頻率,
Python將所有的物件分為0,1,2三代,所有的新建物件都是0代物件,當某一代物件經歷過垃圾回收,依然存活,那么它就被歸入下一代物件,垃圾回收啟動時,一定會掃描所有的0代物件,如果0代經過一定次數垃圾回收,那么就啟動對0代和1代的掃描清理,當1代也經歷了一定次數的垃圾回收后,那么會啟動對0,1,2,即對所有物件進行掃描,
這兩個次數即上面get_threshold()回傳的(700, 10, 10)回傳的兩個10,也就是說,每10次0代垃圾回收,會配合1次1代的垃圾回收;而每10次1代的垃圾回收,才會有1次的2代垃圾回收,
同樣可以用set_threshold()來調整,比如對2代物件進行更頻繁的掃描,
import gc
gc.set_threshold(700, 10, 5)
孤立的參考環
參考環的存在會給上面的垃圾回識訓制帶來很大的困難,這些參考環可能構成無法使用,但參考計數不為0的一些物件,
a = []
b = [a]
a.append(b)
del a
del b
上面我們先創建了兩個表物件,并參考對方,構成一個參考環,洗掉了a,b參考之后,這兩個物件不可能再從程式中呼叫,就沒有什么用處了,但是由于參考環的存在,這兩個物件的參考計數都沒有降到0,不會被垃圾回收,
孤立的參考環
為了回收這樣的參考環,Python復制每個物件的參考計數,可以記為gc_ref,假設,每個物件i,該計數為gc_ref_i,Python會遍歷所有的物件i,對于每個物件i參考的物件j,將相應的gc_ref_j減1,
遍歷后的結果
在結束遍歷后,gc_ref不為0的物件,和這些物件參考的物件,以及繼續更下游參考的物件,需要被保留,而其它的物件則被垃圾回收,
總結
Python作為一種動態型別的語言,其物件和參考分離,這與曾經的面向程序語言有很大的區別,為了有效的釋放記憶體,Python內置了垃圾回收的支持,Python采取了一種相對簡單的垃圾回識訓制,即參考計數,并因此需要解決孤立參考環的問題,Python與其它語言既有共通性,又有特別的地方,對該記憶體管理機制的理解,是提高Python性能的重要一步,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/261617.html
標籤:Python
