主頁 >  其他 > 閱讀筆記:Sybilla DLT任務重啟判定系統

閱讀筆記:Sybilla DLT任務重啟判定系統

2023-05-21 07:34:42 其他

論文簡介

Sibylla: To Retry or Not To Retry on Deep Learning Job Failure 這篇論文發表在ATC 2022上,主題是提出了一個基于半監督學習的深度學習訓練(DLT)作業調度的系統,該系統減少了GPU集群中不必要的作業重啟操作,

背景知識

深度學習作業調度中的錯誤型別與處理機制

目前的大規模GPU訓練任務集群中存在后端分布式存盤系統專門用于存盤在整個集群中訓練期間生成的stdout和stderr日志,這些日志中記載了不同虛擬機或者容器的啟動,運行情況,

論文中將深度學習作業中發生的錯誤(failure),分類為決定性(DT failure)非決定性(NDT failure),以此來確定后續需要針對這些錯誤的回應機制,決定性錯誤(或DT failure)是由固有的代碼語法錯誤、API誤用、錯誤配置的設定等引起的,這種錯誤一般無法正常恢復,即使重啟虛擬機或者容器鏡像也不能正常運行,與此相對,非決定性錯誤(或NDT failure)是偶然的,通常與臨時網路連接丟失或作業分配節點的瞬態問題有關,這種錯誤可能會因為重啟或者在運行而得到恢復,下圖展示了論文中認為的這些錯誤,

在目前Microsoft Philly深度學習訓練集群中,失敗的訓練作業會重啟(Retry)固定次數,以克服NDT failure,并在重啟后繼續或開始運行深度學習訓練作業,除了這種重啟的作業例外處理機制,企業中的NoRetry機制則會終止每一個發生錯誤的作業,以避免在DT failure中毫無價值地嘗試重新執行作業,占用固定的GPU資源,

Observation

在調度初始作業和失敗后重啟作業中,使用日志追蹤,我們可以估計作業重啟率(即經歷重啟的作業÷所有作業)以及重啟期間花費的GPU時間占所有GPU時間的比例,

其中可以發現,深度學習訓練作業的重啟率在分布式任務上大約為20-40%,這也就說明實際集群中深度學習作業失敗率并不容忽視,除開顯而易見的結論,論文中還提到了一些重要的觀察,具體而言,使用更多GPU的作業更頻繁地重試執行,而重試期間消耗的GPU時間占作業大小的12.3-19.9%,我們記一個深度學習作業從正常運行到出現例外的時間為RTF(runtime to failure),那么對于失敗的作業,DT failure和NDT failure的中值RTF為614秒和2458秒,這也表明重啟的開銷也并不低,

如果堅持Retry策略,例如retry所有出現問題的作業固定次數,那么勢必會造成嚴重的資源浪費,但是堅持NoRetry策略是否合適呢?作者提到這樣做的訓練成功率將下降4.5%左右,其實對于那些可以通過重啟正常運行的作業而言的體驗會非常不好,

論文方法

論文提出的Sibylla是一個判定出現failure的深度學習作業是否需要重啟的系統,其設計目標是高精度、易用、易集成,前兩個都好解釋,易集成則需要簡單說明,Sibylla設計在一個獨立的agent中運行,或者在應用程式端運行(例如,Apache YARN中的application Master)以與調度器獨立互動,所以并不需要更改原集群的調度器就能將Sibylla集成入集群調度系統中,

Sibylla的思路非常簡單,將本問題建模為一個二分類問題再利用AI的方法解決,具體思路是將原本集群中的stdlog和stderr檔案作為輸入訓練一個神經網路,由神經網路的輸出判定是否需要重啟改作業,有此基礎,下面我們來看看它的具體方法,

training workflow

data preprocessing

雖然思路是將log檔案作為輸入,但實際的log檔案資訊量并不小,且大部分是與出現failure無關或不起太大作用的,而神經網路如果一次性接受整個不加處理的檔案,那么資訊提取的結果也會相當有限,如何減少資訊的輸入呢,論文的思路是選擇在出現與特定的failure相關關鍵字的行之后最多5行,Sibylla還包括關鍵字前面的一些行,因為它們可能指示導致失敗的日志子序列,這樣有效的完成了資訊提取的第一步,
但僅僅如此問題依然存在,因為log檔案是一個具備大量資訊的半結構化資料,其中很多類似用戶定義的error表達,或者特定的型別名稱,函式路徑等等都會極大得增加輸入長度的不確定性,這些資訊很多對最終判定的幫助也并不大,論文的思路是,在決議階段,每個日志行被分類到一個結構化模板中,該模板主要重新移動與判定語意無關的單詞,如非字符單詞和停止單詞,就如下圖的左側顯示的那樣:

解決了輸入資訊量的問題,下面就是如何完成輸入的embedding了,Sibylla的思路是采用非深度學習方法進行embedding,這個程序如上圖右側,首先將每個單詞數字化為一個矢量,然后,它通過基于TF-IDF(術語頻率逆檔案頻率)得分對每個單詞進行加權,將模板中每行的所有單詞向量累積到單個語意向量條目中,

Model training

Embedding完成后的語意向量序列用作模型訓練的輸入,有兩種具有代表性的RNN模型參與訓練Sibylla:LSTM和基于注意力的GRU,所以模型本身比較簡單,但值得一提的是其訓練方式選擇了半監督訓練,采用投票自標注的方法進行模型訓練,Sibylla用部分標記的資料開始模型訓練,并通過在線方式自動標記未標記的資料來不斷更新模型,

Automatic sample labeling

訓練和自動標注的流程如下:

Sibylla利用了對預測結果進行投票的集成方法來決定失敗型別,從而減輕了單個模型錯誤預測的影響,總的來說就是自標注的半監督學習+集成學習的方式構成其模型訓練的整個程序,

神經網路的訓練資料則是從操作NoRetry的公司獲得了97個錯誤日志檔案,并通過手動搜索Stack Overflow收集了另外159條錯誤訊息得到的,此外這點資料很容易過擬合,所以論文還使用了兩種流行的文本資料增強方法,WordNet和Word2Vec,用于用認知同義詞替換原始日志檔案中的單詞,并創建一個新的資料增強檔案,

實驗

實驗需要提到的并不多,本篇論文的實驗純模擬,通過深度學習集群資料集the Philly trace of MS來作業調度性能,

討論

總的來說,這是一篇應用深度學習方法的典型文章,主要突出的創新點在于問題的切入點非常新,考慮了以往深度學習作業調度中基本被避開的失敗問題,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/552979.html

標籤:其他

上一篇:AtCoder Beginner Contest 302

下一篇:返回列表

標籤雲
其他(159403) Python(38156) JavaScript(25440) Java(18078) C(15229) 區塊鏈(8267) C#(7972) AI(7469) 爪哇(7425) MySQL(7203) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4573) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1975) 功能(1967) Web開發(1951) HtmlCss(1940) python-3.x(1918) C++(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 閱讀筆記:Sybilla DLT任務重啟判定系統

    ## 論文簡介 [Sibylla: To Retry or Not To Retry on Deep Learning Job Failure](https://www.usenix.org/system/files/atc22-kim-taeyoon.pdf) 這篇論文發表在ATC 2022上,主 ......

    uj5u.com 2023-05-21 07:34:42 more
  • AtCoder Beginner Contest 302

    ## [A - Attack (abc302 a)](https://atcoder.jp/contests/abc302/tasks/abc302_a) ### 題目大意 給定怪物的血量$a$和你每次攻擊扣除的血量 $b$,問打多少次怪物才會死。 ### 解題思路 答案即為$\lceil \fra ......

    uj5u.com 2023-05-21 07:34:04 more
  • Codeforces Round 874 (Div. 3)

    # [A.Musical Puzzle](https://codeforces.com/contest/1833/problem/A "A.Musical Puzzle") ### 題意: 用最少的長度為2的字串按一定規則拼出s。規則是:前一個字串的尾與后一個字串的首相同。 ### 分析: 統 ......

    uj5u.com 2023-05-21 07:33:57 more
  • CodeForces1061C Multiplicity

    ## 題面翻譯 從序列 $\{a_1,\ a_2,\ ..\ ,\ a_n\}$ 中選出**非空**子序列 $\{b_1,\ b_2,\ ..\ ,\ b_k\}$,一個子序列合法需要滿足 $\forall\ i \in [1,\ k],\ i\ |\ b_i$。求有多少互不相等的合法子序列,答案對 ......

    uj5u.com 2023-05-21 07:33:51 more
  • 小白如何理解軟體自動化介面測驗

    隨著軟體開發行業的不斷發展,軟體測驗介面自動化已經成為了一種趨勢。
    介面自動化可以提高軟體測驗的效率和準確性,減少人力成本和時間成本,幫助企業更好地實施軟體測驗介面自動化。 ......

    uj5u.com 2023-05-21 07:33:29 more
  • 天涯神貼合集(2.3G,全網最全)

    近期,不少網友發現**天涯社區無法訪問**,這讓許多人倍感唏噓。 ![](http://img.topjavaer.cn/img/202305190848117.png) 天涯社區創立于1999年,那個時候正是中國互聯網產業開展的黃金時期,當時天涯社區可謂是相當火爆。2007年,天涯社區注冊用戶數已 ......

    uj5u.com 2023-05-20 08:05:21 more
  • 性能測驗-JMeter分布式測驗及其詳細步驟

    性能測驗是軟體測驗中的一種,它可以衡量系統的穩定性、擴展性、可靠性、速度和資源使用。它可以發現性能瓶頸,確保能滿足業務需求。很多系統都需要做性能測驗,如Web應用、資料庫和作業系統等。
    性能測驗種類非常多,有些概念也很相近:
    我將在本文詳細介紹JMeter的分布式測驗,我們經常會通過它來做性能測驗。... ......

    uj5u.com 2023-05-20 08:05:01 more
  • 數字孿生:雙碳目標推動下的汽車動力電池發展

    ?據中汽協統計,2022年我國新能源汽車持續爆發式增長,銷量超680萬輛,已連續8年位居世界第一,保持“快車道”發展態勢,引起西方發達國家的高度重視。相當一部分國家以產品全生命周期碳排放為基礎,試圖建立新的國際貿易壁壘:歐盟規定境內新乘用車碳排放不得高于95g/km;出臺了專門針對出口到歐盟的汽車零 ......

    uj5u.com 2023-05-20 08:04:45 more
  • 論文的技術路線流程圖如何繪制?

    本文介紹基于**Visio**軟體繪制**技術路線圖**、**流程圖**、**作業步驟圖**等的方法。 首先打開**Visio**。我們可以直接選擇“**基本框圖**”進行繪制。 ![](https://picturesali.oss-cn-beijing.aliyuncs.com/20230505 ......

    uj5u.com 2023-05-20 08:02:27 more
  • 如何用postman實作介面自動化測驗

    介面正常作業只是最基本的要求,經常要評估介面性能,進行壓力測驗。
    postman進行簡單壓力測驗
    下面是壓測資料源,支持json和csv兩個格式,如果包含有中文,請將檔案編碼改為UTF-8(否則請求中文會亂碼) ......

    uj5u.com 2023-05-20 08:01:58 more