有這么一個內部網路,可以認為類似windows集群。
有一大堆的計算任務,如果讓一個節點來計算,那么需要計算十幾個小時。所以需要一個佇列管理的程式。
有一個任務管理服務器A,用戶把計算任務提交到任務管理服務器A,A就把這些任務記錄在一個佇列里。
A和其他幾個B類節點,也就是專門處理計算任務的計算節點B1、B2、B3……通信,每分鐘通信一次,以此來查詢這些B類節點是否空閑
如果B1空閑,那就不再給B1分派任務;如果B2空閑,A就把計算任務佇列中的第一個任務分配給B2,這樣原本計算任務佇列中的第二個任務就變成第一個了;如果B3空閑就把新的這個第一個任務分配給B3,然后原本下一個計算任務就會排到第一位……依此類推;如果所有的B類節點都忙,那就暫停分配,計算任務佇列中的任務就先不分配。
其實大家可能已經猜到了,這就是一個AI資料分析的小型集群,只不過題目種類和數量多一些,而且由于題目本身性質的原因,其實不方便讓多個B類節點并行,各個B類節點單獨運行可能更好一些,當然也不排除將來可能會用到多個B類節點并行的情況。
我需要的這個功能在linux下有一個slurm是可以做到的。但是因為我要運行的計算程式是windows only的,所以沒辦法用Linux+slurm,退而求其次尋求windows下的管理程式
至于資料的存盤,另外有一個C類服務器,提供共享目錄。然后讓A和B類服務器通過盤符映射來使用C服務器上的存盤。
我想問一下,windows有沒有自帶類似的軟體,或者說有什么現成的軟體能夠實作這個計算任務管理的功能嗎。
uj5u.com熱心網友回復:
分布式計算啊,windows應該有專業的軟體吧,沒用過轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/238207.html
上一篇:bash: cannot set terminal process group (6): Inappropriate ioctl for device bash
