RT,這里描述下環境,有經驗的大牛幫分析下排查方案:
K8S集群:一個管理節點,4到12個計算節點不等
這些計算節點共同掛載一個nfs服務器,這個nfs服務器上放置著機器學習代碼及代碼的圖片資源
最大并發時,每個計算節點都在nfs掛載目錄里跑程式,偶爾會出現D狀態行程或Z狀態行程,這種行程處理很麻煩
kill不掉,kill掉父行程,爺爺行程后該行程歸到1行程也不會被回收。
該行程使用的GPU資源也不會被釋放(即GPU快取不會被清除),只能重啟該計算節點,并且reboot還會卡住。
這是該行程/etc/proc下的部分資訊:
root@n004:/proc/16496# cat stack
[<ffffffff81086248>] do_exit+0x778/0xb00
[<ffffffff81086653>] do_group_exit+0x43/0xb0
[<ffffffff81092e74>] get_signal+0x294/0x600
[<ffffffff8102e567>] do_signal+0x37/0x6f0
[<ffffffff8100320c>] exit_to_usermode_loop+0x8c/0xd0
[<ffffffff81003c7e>] syscall_return_slowpath+0x4e/0x60
[<ffffffff8184f170>] int_ret_from_sys_call+0x25/0x9f
[<ffffffffffffffff>] 0xffffffffffffffff
root@n004:/proc/16496# cat status
Name: python
State: Z (zombie)
Tgid: 16496
Ngid: 0
Pid: 16496
PPid: 16371
TracerPid: 0
Uid: 0 0 0 0
Gid: 0 0 0 0
FDSize: 0
Groups:
NStgid: 16496 1953
NSpid: 16496 1953
NSpgid: 50821 6
NSsid: 50761 1
Threads: 1
SigQ: 3/1031197
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000000000
SigIgn: 0000000001005002
SigCgt: 0000000180000000
CapInh: 00000000a80425fb
CapPrm: 00000000a80425fb
CapEff: 00000000a80425fb
CapBnd: 00000000a80425fb
CapAmb: 0000000000000000
Seccomp: 0
Cpus_allowed: ffffff,ffffffff
Cpus_allowed_list: 0-55
Mems_allowed: 00000000,00000003
Mems_allowed_list: 0-1
voluntary_ctxt_switches: 3
nonvoluntary_ctxt_switches: 1
root@n004:/proc/16496# cat wchan
do_exit
uj5u.com熱心網友回復:
根據目前了解到的資料,大多數D狀態行程都是和IO有關,但是該如何從行程上定位一定是IO問題,還望路過大佬指點一二。轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/12498.html
標籤:云存儲
上一篇:求助大佬們!!
