集群存盤使用nfs，在存盤中運行python機器學習程式經常D狀態行程-有解無憂

RT，這里描述下環境，有經驗的大牛幫分析下排查方案：
K8S集群：一個管理節點，4到12個計算節點不等
這些計算節點共同掛載一個nfs服務器，這個nfs服務器上放置著機器學習代碼及代碼的圖片資源
最大并發時，每個計算節點都在nfs掛載目錄里跑程式，偶爾會出現D狀態行程或Z狀態行程，這種行程處理很麻煩
kill不掉，kill掉父行程，爺爺行程后該行程歸到1行程也不會被回收。
該行程使用的GPU資源也不會被釋放（即GPU快取不會被清除），只能重啟該計算節點，并且reboot還會卡住。

這是該行程/etc/proc下的部分資訊：



root@n004:/proc/16496# cat stack

[<ffffffff81086248>] do_exit+0x778/0xb00

[<ffffffff81086653>] do_group_exit+0x43/0xb0

[<ffffffff81092e74>] get_signal+0x294/0x600

[<ffffffff8102e567>] do_signal+0x37/0x6f0

[<ffffffff8100320c>] exit_to_usermode_loop+0x8c/0xd0

[<ffffffff81003c7e>] syscall_return_slowpath+0x4e/0x60

[<ffffffff8184f170>] int_ret_from_sys_call+0x25/0x9f

[<ffffffffffffffff>] 0xffffffffffffffff

root@n004:/proc/16496# cat status

Name:   python

State:  Z (zombie)

Tgid:   16496

Ngid:   0

Pid:    16496

PPid:   16371

TracerPid:      0

Uid:    0       0       0       0

Gid:    0       0       0       0

FDSize: 0

Groups:

NStgid: 16496   1953

NSpid:  16496   1953

NSpgid: 50821   6

NSsid:  50761   1

Threads:        1

SigQ:   3/1031197

SigPnd: 0000000000000000

ShdPnd: 0000000000000000

SigBlk: 0000000000000000

SigIgn: 0000000001005002

SigCgt: 0000000180000000

CapInh: 00000000a80425fb

CapPrm: 00000000a80425fb

CapEff: 00000000a80425fb

CapBnd: 00000000a80425fb

CapAmb: 0000000000000000

Seccomp:        0

Cpus_allowed:   ffffff,ffffffff

Cpus_allowed_list:      0-55

Mems_allowed:   00000000,00000003

Mems_allowed_list:      0-1

voluntary_ctxt_switches:        3

nonvoluntary_ctxt_switches:     1

root@n004:/proc/16496# cat wchan 

do_exit

uj5u.com熱心網友回復：

根據目前了解到的資料，大多數D狀態行程都是和IO有關，但是該如何從行程上定位一定是IO問題，還望路過大佬指點一二。

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/12498.html

標籤：云存儲

上一篇：求助大佬們！!

下一篇：k8s flannel大量訪問網路風暴