在直接記憶體回收程序中,有可能會造成當前需要分配記憶體的行程被加入一個等待佇列,當整個node的空閑頁數量滿足要求時,由kswapd喚醒它重新獲取記憶體,這個等待佇列頭就是node結點描述符pgdat中的pfmemalloc_wait,如果當前行程加入到了pgdat->pfmemalloc_wait這個等待佇列中,那么行程就不會進行直接記憶體回收,而是由kswapd喚醒后直接進行記憶體分配,
直接記憶體回收執行路徑是:
__alloc_pages_slowpath() -> __alloc_pages_direct_reclaim() -> __perform_reclaim() -> try_to_free_pages() -> do_try_to_free_pages() -> shrink_zones() -> shrink_zone()
在__alloc_pages_slowpath()中可能喚醒了所有node的kswapd內核執行緒,也可能沒有喚醒,每個node的kswapd是否在__alloc_pages_slowpath()中被喚醒有兩個條件:
- 分配標志中沒有__GFP_NO_KSWAPD,只有在透明大頁的分配程序中會有這個標志,
- node中有至少一個zone的空閑頁框沒有達到 空閑頁框數量 >= high閥值 + 1 << order + 保留記憶體,或者有至少一個zone需要進行記憶體壓縮,這兩種情況node的kswapd都會被喚醒,
而在kswapd中會對node中每一個不平衡的zone進行記憶體回收,直到所有zone都滿足 zone分配頁框后剩余的頁框數量 > 此zone的high閥值 + 此zone保留的頁框數量,kswapd就會停止記憶體回收,然后喚醒在等待佇列的行程,
之后行程由于記憶體不足,對zonelist進行直接回收時,會呼叫到try_to_free_pages(),在這個函式內,決定了行程是否加入到node結點的pgdat->pfmemalloc_wait這個等待佇列中,如下:
unsigned long try_to_free_pages(struct zonelist *zonelist, int order,
gfp_t gfp_mask, nodemask_t *nodemask)
{
unsigned long nr_reclaimed;
struct scan_control sc = {
/* 打算回收32個頁框 */
.nr_to_reclaim = SWAP_CLUSTER_MAX,
.gfp_mask = (gfp_mask = memalloc_noio_flags(gfp_mask)),
/* 本次記憶體分配的order值 */
.order = order,
/* 允許進行回收的node掩碼 */
.nodemask = nodemask,
/* 優先級為默認的12 */
.priority = DEF_PRIORITY,
/* 與/proc/sys/vm/laptop_mode檔案有關
* laptop_mode為0,則允許進行回寫操作,即使允許回寫,直接記憶體回收也不能對臟檔案頁進行回寫
* 不過允許回寫時,可以對非檔案頁進行回寫
*/
.may_writepage = !laptop_mode,
/* 允許進行unmap操作 */
.may_unmap = 1,
/* 允許進行非檔案頁的操作 */
.may_swap = 1,
};
/*
* Do not enter reclaim if fatal signal was delivered while throttled.
* 1 is returned so that the page allocator does not OOM kill at this
* point.
*/
/* 當zonelist中獲取到的第一個node平衡,則回傳,如果獲取到的第一個node不平衡,則將當前行程加入到pgdat->pfmemalloc_wait這個等待佇列中
* 這個等待佇列會在kswapd進行記憶體回收時,如果讓node平衡了,則會喚醒這個等待佇列中的行程
* 判斷node平衡的標準:
* 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大于 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大于則說明node平衡
* 加入pgdat->pfmemalloc_wait的情況
* 1.如果分配標志禁止了檔案系統操作,則將要進行記憶體回收的行程設定為TASK_INTERRUPTIBLE狀態,然后加入到node的pgdat->pfmemalloc_wait,并且會設定超時時間為1s
* 2.如果分配標志沒有禁止了檔案系統操作,則將要進行記憶體回收的行程加入到node的pgdat->pfmemalloc_wait,并設定為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 回應致命信號的狀態
* 回傳真,表示此行程加入過pgdat->pfmemalloc_wait等待佇列,并且已經被喚醒
* 回傳假,表示此行程沒有加入過pgdat->pfmemalloc_wait等待佇列
*/
if (throttle_direct_reclaim(gfp_mask, zonelist, nodemask))
return 1;
trace_mm_vmscan_direct_reclaim_begin(order,
sc.may_writepage,
gfp_mask);
/* 進行記憶體回收,有三種情況到這里
* 1.當前行程為內核執行緒
* 2.最優node是平衡的,當前行程沒有加入到pgdat->pfmemalloc_wait中
* 3.當前行程接收到了kill信號
*/
nr_reclaimed = do_try_to_free_pages(zonelist, &sc);
trace_mm_vmscan_direct_reclaim_end(nr_reclaimed);
return nr_reclaimed;
}
主要通過throttle_direct_reclaim()函式判斷是否加入到pgdat->pfmemalloc_wait等待佇列中,主要看此函式:
/* 當zonelist中第一個node平衡,則回傳,如果node不平衡,則將當前行程加入到pgdat->pfmemalloc_wait這個等待佇列中
* 這個等待佇列會在kswapd進行記憶體回收時,如果讓node平衡了,則會喚醒這個等待佇列中的行程
* 判斷node平衡的標準:
* 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大于 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大于則說明node平衡
* 加入pgdat->pfmemalloc_wait的情況
* 1.如果分配標志禁止了檔案系統操作,則將要進行記憶體回收的行程設定為TASK_INTERRUPTIBLE狀態,然后加入到node的pgdat->pfmemalloc_wait,并且會設定超時時間為1s
* 2.如果分配標志沒有禁止了檔案系統操作,則將要進行記憶體回收的行程加入到node的pgdat->pfmemalloc_wait,并設定為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 回應致命信號的狀態
*/
static bool throttle_direct_reclaim(gfp_t gfp_mask, struct zonelist *zonelist,
nodemask_t *nodemask)
{
struct zoneref *z;
struct zone *zone;
pg_data_t *pgdat = NULL;
/* 如果標記了PF_KTHREAD,表示此行程是一個內核執行緒,則不會往下執行 */
if (current->flags & PF_KTHREAD)
goto out;
/* 此行程已經接收到了kill信號,準備要被殺掉了 */
if (fatal_signal_pending(current))
goto out;
/* 遍歷zonelist,但是里面只會在獲取到第一個pgdat時就跳出 */
for_each_zone_zonelist_nodemask(zone, z, zonelist,
gfp_mask, nodemask) {
/* 只遍歷ZONE_NORMAL和ZONE_DMA區 */
if (zone_idx(zone) > ZONE_NORMAL)
continue;
/* 獲取zone對應的node */
pgdat = zone->zone_pgdat;
/* 判斷node是否平衡,如果平衡,則回傳真
* 如果不平衡,如果此node的kswapd沒有被喚醒,則喚醒,并且這里喚醒kswapd只會對ZONE_NORMAL以下的zone進行記憶體回收
* node是否平衡的判斷標準是:
* 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大于 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大于則說明node平衡
*/
if (pfmemalloc_watermark_ok(pgdat))
goto out;
break;
}
if (!pgdat)
goto out;
count_vm_event(PGSCAN_DIRECT_THROTTLE);
if (!(gfp_mask & __GFP_FS)) {
/* 如果分配標志禁止了檔案系統操作,則將要進行記憶體回收的行程設定為TASK_INTERRUPTIBLE狀態,然后加入到node的pgdat->pfmemalloc_wait,并且會設定超時時間為1s
* 1.pfmemalloc_watermark_ok(pgdat)為真時被喚醒,而1s沒超時,回傳剩余timeout(jiffies)
* 2.睡眠超過1s時會喚醒,而pfmemalloc_watermark_ok(pgdat)此時為真,回傳1
* 3.睡眠超過1s時會喚醒,而pfmemalloc_watermark_ok(pgdat)此時為假,回傳0
* 4.接收到信號被喚醒,回傳-ERESTARTSYS
*/
wait_event_interruptible_timeout(pgdat->pfmemalloc_wait,
pfmemalloc_watermark_ok(pgdat), HZ);
goto check_pending;
}
/* Throttle until kswapd wakes the process */
/* 如果分配標志沒有禁止了檔案系統操作,則將要進行記憶體回收的行程加入到node的pgdat->pfmemalloc_wait,并設定為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 回應致命信號的狀態
* 這些行程在兩種情況下被喚醒
* 1.pfmemalloc_watermark_ok(pgdat)為真時
* 2.接收到致命信號時
*/
wait_event_killable(zone->zone_pgdat->pfmemalloc_wait,
pfmemalloc_watermark_ok(pgdat));
check_pending:
/* 如果加入到了pgdat->pfmemalloc_wait后被喚醒,就會執行到這 */
/* 喚醒后再次檢查當前行程是否接受到了kill信號,準備退出 */
if (fatal_signal_pending(current))
return true;
out:
return false;
}
有四點需要注意:
- 當前行程已經接收到kill信號,則不會將其加入到pgdat->pfmemalloc_wait中,
- 只獲取第一個node,也就是當前行程最希望從此node中分配到記憶體,
- 判斷一個node是否平衡的條件是:此node的ZONE_NORMAL和ZONE_DMA兩個區的空閑頁框數量 > 此node的ZONE_NORMAL和ZONE_DMA兩個區的平均min閥值,如果不平衡,則加入到pgdat->pfmemalloc_wait等待佇列中,如果平衡,則直接回傳,并由當前行程自己進行直接記憶體回收,
- 如果當前行程分配記憶體時使用的標志沒有__GFP_FS,則加入pgdat->pfmemalloc_wait中會有一個超時限制,為1s,并且加入后的狀態是TASK_INTERRUPTABLE,
其他情況的行程加入到pgdat->pfmemalloc_wait中沒有超時限制,并且狀態是TASK_KILLABLE,
如果行程加入到了node的pgdat->pfmemalloc_wait等待佇列中,在此node的kswapd進行記憶體回收后,會通過再次判斷此node是否平衡來喚醒這些行程,如果node平衡,則喚醒這些行程,否則不喚醒,實際上,不喚醒也說明了node沒有平衡,kswapd還是會繼續進行記憶體回收,最后kswapd實在沒辦法讓node達到平衡水平下,會在kswapd睡眠前,將這些行程全部進行喚醒,
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/6485.html
標籤:嵌入式
