我不是要問題的答案,而是我自己如何得到答案。
原始問題:
以下代碼是否會導致 Python 在記憶體中創建一個新的大小串列 (len(nums) - 1) 然后對其進行迭代?
for item in nums[1:]:
# do stuff with item
原始答案
這里提出了一個類似的問題 ,Srinivas Reddy Thatiparthy 有一個子評論說創建了一個新的子串列。 但是,沒有詳細說明他是如何得出這個答案的,我認為這與我正在尋找的答案大不相同。
問題:
我怎么能自己弄清楚我的問題的答案是什么?
我以前有過類似的問題。例如,我了解到如果這樣做my_function(nums[1:]),我不會傳入“切片”,而是傳入一個全新的、不同的子串列!我通過測驗傳入的原始串列是否在my_function函式后修改(不是)來發現這一點。
但是我沒有看到一種直接的方法來確定 Python 是否正在為for回圈示例創建一個新的子串列。請幫助我知道如何做到這一點。
邊注
順便說一下,這是我從原始 stackoverflow 發布解決方案中使用的當前解決方案:
for indx, item in enumerate(nums):
if indx == 0:
continue
# do stuff w items
uj5u.com熱心網友回復:
通常,了解是否有新資料塊或只是對現有資料塊的新參考的簡單方法是通過一個參考修改資料,然后查看是否也通過另一個參考修改了資料。(這聽起來像是你所做的“艱難的方式”,但我會推薦它作為一種通用技術。)一些偽代碼看起來像:
function areSameRef(thing1, thing2){
thing1.modify()
return thing1.equals(thing2) //make sure this is not just a referential equality check
}
這很少會失敗,并且本質上需要進行幕后優化,其中不會立即克隆資料,而是僅在修改時才進行克隆。在這種情況下,底層資料相同這一事實對您是隱藏的,在大多數情況下,您應該相信隱藏的人知道他們在做什么。例外情況是他們做錯了,或者您遇到了一些復雜的性能問題。為此,您可能需要轉向更多特定于語言的除錯或分析工具。(更多內容見下文)
還要注意可能共享部分資料的情況——例如,查找缺點串列和尾部共享。在這些情況下,如果您執行以下操作:
function foo(list1, list2){
list1.append(someElement)
return list1.length == list2.length
}
將回傳 false - 該元素僅添加到第一個串列中,但類似
function bar(list1, list2){
list1.set(someIndex, someElement)
return list1.get(someIndex)==list2.get(someIndex)
}
將回傳 true(盡管在實踐中,以這種方式創建的串列通常沒有允許可變性的介面。)
我在第 2 部分中沒有看到問題,但是是的,你的結論對我來說似乎是正確的。
編輯:更多關于實際記憶體使用情況
正如您所指出的,在某些情況下,這種測驗不會起作用,因為您實際上沒有兩個參考,就像這種for i in [nums 1:]情況一樣。在那種情況下,我會說轉向分析器,但你不能真正相信結果。
其原因歸結為編譯器/解釋器的作業方式,以及它們在語言規范中履行的合同。一般規則是允許解釋器以任何不改變結果但可能改變記憶體或時間性能的方式重新安排和修改代碼的執行。因此,如果您的代碼和所有 I/O 的狀態相同,則不可能在一個解釋器實作/執行和另一個解釋器實作/執行中foo(5)回傳,但它們花費非常不同的時間和記憶。67
這很重要,因為解釋器和編譯器所做的很多事情都是幕后優化;他們會盡量讓你的代碼運行得盡可能快,記憶體占用盡可能小,只要結果是一樣的。但是,只有在能夠證明這些變化不會改變結果的情況下,它才能這樣做。
這意味著如果您撰寫一個簡單的測驗用例,解釋器可能會在幕后優化它以最小化記憶體使用并給您一個結果——“沒有創建新串列”。但是,如果您試圖相信真實代碼中的結果,真實代碼可能過于復雜,編譯器無法判斷優化是否安全,并且可能會失敗。它還可以取決于特定的解釋器版本、環境變數或可用的硬體資源。
這是一個例子:
def foo(x : int):
l = range(9999)
return 5
def bar(x:int):
l = range(9999)
if (x 1 != (x*2 2)/2):
return l[x]
else:
return 5
對于任何特定的語言,我不能保證這一點,但我通常會期望foo并且bar會有很多不同的記憶體使用。在foo中,任何創建良好的解釋器都應該能夠分辨出l它在超出范圍之前從未被參考過,因此可以自由地跳過實際分配任何記憶體作為安全操作。In bar(除非我算術不及格),l也永遠不會被使用——但知道這需要對 if 陳述句的條件進行一些推理。需要更聰明的解釋器才能認識到這一點,因此即使這兩個代碼片段在邏輯上看起來可能相同,但它們在幕后的表現可能截然不同。
編輯:正如我所指出的,考慮到語言的動態特性,Python 特別可能無法優化其中任何一個;range函式和list型別可能都已從代碼的其他地方重新分配或更改。沒有 python 優化領域的特定專業知識,我不能說他們做什么或不做什么。無論如何,我將此留在這里是為了對優化的一般概念進行啟發,但將我的錯誤作為“關于優化的推理很難”的案例課程。
綜上所述:FWIW,我強烈懷疑 python 解釋器足夠聰明,可以識別for i in nums[1:]實際上不應該分配新記憶體,而只是迭代一個切片。在我看來,這是一個非常常見用例的相對簡單、安全且有價值的轉換,因此我希望(高度優化的)python 解釋器能夠處理它。
EDIT2:作為最后的(自以為是的)說明,我對 Python 的信心不如對幾乎任何其他語言的信心,因為 Python 語法非常靈活并且允許很多奇怪的事情。這使得 python 解釋器(或人類,就此而言)更難自信地說任何話,因為“合法 python 代碼”的空間太大了。這就是為什么我更喜歡像 Rust 這樣更嚴格的語言的一個重要原因,它迫使程式員在行內著色,但會導致更可預測的行為。
EDIT3:作為最后的注釋,通常對于這樣的事情,最好相信執行環境正在處理這些低級優化。十分之九,在某些東西真正崩潰之前,不要嘗試解決這種性能問題。
uj5u.com熱心網友回復:
至于了解串列切片的作業原理,從語言參考Sequence Types — list, tuple, range,我們知道
s[i:j] - s 從 i 到 j 的切片被定義為索引為 k 的專案序列,使得 i <= k < j。
因此,切片創建了一個新序列,但我們不知道該序列是否是一個串列,或者是否有一些巧妙的方法使同一個串列物件以某種方式表示這兩個序列。這對于 python 語言規范來說并不奇怪,其中串列被描述為序列一般討論的一部分,并且該規范從未真正嘗試涵蓋物件實作的所有細節。
那是因為最后,類似的東西nums[1:]實際上只是 的語法糖nums.__getitem__(slice(1, None)),這意味著串列可以自己決定切片的含義。你需要去源代碼來實作。請參閱listobject.clist_subscript中的函式。
但我們可以試驗。查看for 陳述句的檔案,
for_stmt ::= "for" target_list "in" starred_list ":" suite ["else" ":" suite] starred_list 運算式求值一次;它應該產生一個可迭代的物件。
因此,nums[1:]是一個必須產生可迭代物件的運算式,我們可以將該物件分配給一個中間變數。
nums = [1 ,2, 3]
tmp = nums[1:]
for item in tmp:
pass
tmp[0] = "new stuff"
assert id(nums) != id(tmp), "List slice creates a new object"
assert type(tmp) == type(nums), "List slice creates a new list"
assert 999 not in nums, "List slice doesn't affect original"
運行它,如果沒有出現任何斷言錯誤,您就知道創建了一個新串列。
其他類似序列的物件可能會完全不同。例如,在 numpy 陣列中,兩個陣列物件可能確實參考相同的記憶體。在此示例中,將引發最終斷言,因為切片是同一陣列的另一個視圖。是的,這會讓你徹夜難眠。
import numpy as np
nums = np.array([1,2,3])
tmp = nums[1:]
for item in tmp:
pass
tmp[0] = 999
assert id(nums) != id(tmp), "array slice creates a new object"
assert type(tmp) == type(nums), "array slice creates a new list"
assert 999 not in nums, "array slice doesn't affect original"
uj5u.com熱心網友回復:
您可以使用新的 Walrus 運算子:=來捕獲 Python 為切片創建的臨時物件。一點調查表明它們不是同一個物件。
import sys
print(sys.version)
a = list(range(1000))
for i in (b := a[1:]):
b[0] = 906
print(b is a)
print(a[:10])
print(b[:10])
print(sys.getsizeof(a))
print(sys.getsizeof(b))
生成以下輸出:
3.11.0 (main, Nov 4 2022, 00:14:47) [GCC 7.5.0]
False
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[906, 2, 3, 4, 5, 6, 7, 8, 9, 10]
8056
8048
在Godbolt Compiler Explorer上親自查看,您還可以在其中查看編譯器生成的代碼。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/536579.html
