2021年中國高校大資料挑戰賽-智能運維中的例外檢測與趨勢預測-A題思路1028版-有解無憂

2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路 2021年中國高校大資料挑戰賽A題思路

CSDN：數模范訓園，提供，思路開源持續更新，允許售賣，鼓勵進行改進，歡迎加入學習群，這里有漂亮的小姐姐，小哥哥，可脫單，，，

A 智能運維中的例外檢測與趨勢預測

首先按題目要求整理好關鍵資料

雖然題目只要求用到了幾個指標，但是其余指標也都可以用，可以用來描述設備的運行狀態，怎么用要看第一問檢測出的例外變動和其余哪些指標具有強相關性，如果有就可以作為后期預測的參考，沒有就不做，

雖然本題目告訴了資料具有周期性，也談到了例外，很明顯時間序列解題方向是沒錯，用例外檢測演算法檢測出例外資料，然后需要對例外資料進行修正，這里的修正我個人覺得不是簡單套一個演算法解決，資料例外只是設備的問題，而資料趨勢肯定不和設備有關，雖然這道題沒說輿情，但是自己想一下用戶的活躍，是否和娛樂圈、電影、新冠疫情、股市期貨、豬肉價格等等事件相關呢，這也并不是說要人人都去爬取微博、知乎、東方財富等網站的評論然后做熱詞分析，量太大時間也來不及，這里推薦百度指數、微指數、谷歌趨勢、360趨勢，

疫情資料國內外都可以，以及股市大盤的走向，或者比較關心的豬肉價格走勢等等，分別構建本題三個關鍵指標的指標體系，然后用這些指標資料作為訓練輸入，關鍵指標作為輸出，分別通過機器學習方法去修正檢測到的資料，如何給自己增加亮點自己考慮，隨便套用演算法誰都會

來看看第一問，一定是針對每個小區編號來做分析，做分析前一定是要對資料進行平滑處理，雖然說平滑后會導致資料失真，那肯定不能平滑的太厲害，平滑程度至少要把例外資料段凸顯出來，其實是有必要進行平滑的，只要趨勢一致就行，這樣主要利于后問的分析，接下來是先檢測例外資料,這三個關鍵指標理論上應當是相關性較強的，因此可以直接比對趨勢就可以比對出來，并不是單獨對每個關鍵指標用例外檢測演算法去做，就比如說下面這個小區的資料肯定沒有例外，例外檢測如果一定要寫個唬人的，就寫通過設立濾波矩陣去對趨勢例外進行檢測的，還有一個需要注意的是，人們睡覺期間肯定沒有太多的活躍資料，可以單獨對0點到7點進行檢測，用戶和基站資料肯定是比較低的

例外周期好算，如果有兩個以上例外點就可以算例外周期，然后進行例外值修正，如果不想用上面說到的修正方法，哪怕你直接其中一個關鍵指標的趨勢去等比計算也可以

時間周期推薦兩個方法，一個是傅里葉變化的平均時間周期，第二個是混沌理論中的時延（常見的有自相關法、互資訊法、平均位移法等，在matlab混沌時間序列工具箱中都有）

function T_mean=period_mean_fft(data)

%該函式使用快速傅里葉變換FFT計算序列平均周期

%data：時間序列

%T_mean：回傳快速傅里葉變換FFT計算出的序列平均周期

Y = fft(data); %快速FFT變換

N = length(Y); %FFT變換后資料長度

Y(1) = []; %去掉Y的第一個資料，它是data所有資料的和

power = abs(Y(1:N/2)).^2; %求功率譜

nyquist = 1/2;

freq = (1:N/2)/(N/2)*nyquist; %求頻率

figure

plot(freq,power); grid on %繪制功率譜圖

xlabel('頻率')

ylabel('功率')

title('功率譜圖')

period = 1./freq; %計算周期

figure

plot(period,power); grid on %繪制周期－功率譜曲線

ylabel('功率')

xlabel('周期')

title('周期—功率譜圖')

[mp,index] = max(power); %求最高譜線所對應的下標

T_mean=period(index); %由下標求出平均周期

第一問也差不多就是確定周期引數和一場資料檢測和處理，來看第二問

注意是每個小區單獨分析，如果有例外就有例外，每例外就別故意增加例外

如果按前面說的找輿情資料，那這個問就比較好做，為什么前面要說如果能用上設備狀態的資料就用，設備的運行，主要有天氣和負載導致的，地理位置都沒給也沒辦法對標天氣資料，分析設備引數與三個關鍵指標的相關性后，如果沒發現相關性較高的設備狀態指標，這里也可以通過基站服務范圍所有用戶的活躍情況來反映，第二問首先是例外預測，在歷史資料中，三個關鍵指標以及一些輿情指標、小區所屬基站的整體三個關鍵指標值，例外點輸出1，正常輸出0，建立一個二分類的模型，為什么還要結合基站來分析，一個基站服務多個小區，就算一個小區看著資料正常，但是也不能保證會因為其他小區導致高過載引起的例外，就例如平時的網路波動，大家在做題目的時候一定是要結合生活實際去分析，在使用演算法算出比較好的結果的同時，也應當具有完善的邏輯

第三問是預測，先對例外處理后的三個關鍵指標資料進行預測，第一問的周期是需要用上的，在混沌時間序列中，時延和周期是其中演算法的輸入引數，也就剛好接上了第一問，這個問可以先用混沌時間序列方法進行預測（RBF神經網路一步預測、RBF神經網路多步預測、Volterra級數一步預測、Volterra級數多步預測等），預測之后再同樣的用第二問做法過一遍，如果預測出資料，接下來還需考慮例外變化量，例外變化量可通過第二問中的程序資料求一個關系式，這里加減就行，最后建議輸出無例外的趨勢和存在例外的趨勢

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/340606.html

標籤：其他

上一篇：Java如何在HTTP請求時做DNS決議？

下一篇：[OS-Linux]詳解Linux的檔案系統、inode和動靜態庫