主頁 >  其他 > AI 賦能安全技術總結與展望

AI 賦能安全技術總結與展望

2022-02-23 07:31:37 其他

??大家好,我是 herosunly,985 院校碩士畢業,現擔任演算法研究員一職,熱衷于機器學習演算法研究與應用,曾獲得阿里云天池安全惡意程式檢測第一名,科大訊飛惡意軟體分類挑戰賽第三名,CCF 惡意軟體家族分類第四名,科大訊飛阿爾茨海默綜合癥預測挑戰賽第四名,科大訊飛事件抽取挑戰賽第七名,Datacon 大資料安全分析比賽第五名,擁有多項發明專利,對機器學習和深度學習擁有自己獨到的見解,今天給大家分享的是 AI 賦能安全技術總結與展望,歡迎大家在評論區留言,和大家一起成長進步,

文章目錄

  • 1. 背景
  • 2. 惡意樣本檢測
  • 3. 基于UEBA的例外檢測
  • 4. 總結與展望

1. 背景

??伴隨著人工智能技術的蓬勃發展,當前網路空間已經邁進到人工智能時代,人工智能對網路空間產生了變革性的影響,如何使用人工智能技術構建更可靠的網路安全系統就變得至關重要,具體來說,人工智能賦能安全,是指基于海量資料的基礎上利用人工智能來自動識別或回應潛在網路威脅的工具和技術,

??伴隨著人工智能技術的蓬勃發展,在網路空間安全中的很多細分領域涌現出與人工智能相關的新應用,比如惡意樣本檢測、惡意流量檢測、惡意域名檢測、例外檢測、網路釣魚檢測與防護、威脅情報構建等,在人工智能賦能安全蓬勃發展浪潮中,機器學習技術(包括深度學習技術)在應對網路空間威脅方面起著至關重要的作用,

??為了幫助初學者少走彎路以及更多人了解AI賦能安全,筆者總結了2021年AI賦能安全的一些經典案例(AI比賽和論文),希望能夠啟發大家的思維,最終推動AI賦能安全的發展與進步,由于AI賦能安全的細分領域較多,鑒于篇幅和時間的原因,以下主要介紹其中的兩大方面:惡意樣本檢測、基于UEBA的例外檢測,為了讓大家能夠深刻理解其中的要點,筆者提煉出相應的核心方法論,希望讀者能夠舉一反三,靈活應用到自己的作業生活中,

2. 惡意樣本檢測

??從檢測方法上來說,惡意樣本檢測包括靜態檢測、動態檢測、混合態檢測,其中靜態檢測是指在不運行惡意樣本的條件下,進行程式分析的檢測方法,而動態檢測是指將樣本放在隔離環境(沙箱)中自動地動態執行,然后提取其運行程序中的行程操作行為、網路操作行為、檔案操作行為等動態行為,而混合態檢測指的是綜合靜態檢測與動態檢測的檢測方法,簡單說明下,靜態檢測與動態檢測的主要區別在于是否運行惡意樣本,在靜態檢測中往往是對二進制檔案或者反匯編后的 ASM 檔案進行檢測(后續提到的 CCF 惡意軟體檢測即基于二進制檔案與 ASM 檔案進行檢測);而動態檢測往往是對沙箱運行出的 API 序列進行檢測;除此之外,兩者的主要區別在于,靜態檢測的執行效率遠遠高于動態檢測,但動態檢測往往能夠獲得更加完整的資訊,即動態檢測的漏報率往往低于靜態檢測

??近年來,不同家族的惡意檔案如勒索軟體、 木馬、 病毒、 挖礦程式等惡意軟體不斷涌現, 對用戶和機構帶來了很多麻煩和經濟的損失,為了提升海量惡意軟體分析的高效性, 需要對惡意軟體的家族進行區分,考慮到在很多場景中算力較為有限,無法提供GPU計算資源,在此條件下使用傳統機器學習方法更為恰當,在傳統機器學習方法中,如何進行有效的特征工程,往往是作業中的重中之重,接下來將會分享一種核心方法論:小顆粒度分析法

??主要內容來自于2021年12月份的論文:Malware Classification Using Static Disassembly and Machine Learning,本論文提出了四大類特征:PE section對應的大小(虛擬大小、原始大小、兩者比例)、PE section中不同權限section的大小(可讀、可寫、可執行段對應的虛擬大小之和、原始大小之和、兩者比例)、內容復雜度(PE和ASM檔案原始大小、使用zlib對PE和ASM檔案進行壓縮后的檔案大小、壓縮前后PE和ASM檔案的比例)和匯入庫,

?&emsp什么是細顆粒度分析法呢?對應到上述的文章中,一般來說往往只會考慮到 PE section 中的原始大小,而忽略其虛擬大小,也就是說在大小這個維度上將其細分考慮,即同時考慮到原始大小和虛擬大小則為細顆粒度分析,另外,將 PE section 按照不同權限進行劃分,劃分后再進行 PE section 對應的大小的建模,本質上是將整個檔案的建模細分為不同的 section 進行建模,我們可以將其理解為二層的細顆粒度分析法,當然,顆粒度也并非越小越好(即層數越高越好),需要根據實際資料、具體場景、模型效果來綜合判定,

??為了提高模型的運行效率,往往會使用特征篩選的方法來減少無效特征,具體來說是使用隨機森林模型并通過基尼系數進行特征篩選得到 40 維特征,其維度數遠遠小于常用的 N-gram 特征,提高了模型的運行效率,實驗任務為惡意樣本家族九分類,總資料量為 10868 個,其中 80%作為訓練集(使用 auto-sklearn 和 5 折交叉經驗確定模型及其超引數),20%作為測驗集,實驗結果表明:使用論文提出的四大類特征的效果較好,位于實驗結果第二名(準確率為 0.994),而第一名(0.9948)是采用了所有特征(特征選擇后為 10343 維度),

??為了幫助大家更好的理解細顆粒度分析法,再對大家較為常用的特征之一:熵進行細顆粒度分析法進行分析,在2021年CCF基于人工智能的惡意軟體家族分類比賽中,前幾名的隊伍都構建了熵直方圖作為其中一部分特征,具體來說,在二進制檔案上滑動一個固定位元組長度的視窗,步長也為固定位元組長度,通過計算在該視窗中每個位元組的出現次數,并計算每個視窗上的以2為底的熵,使用計算出的熵值作為下標,將視窗中每個位元組的出現次數自增到特征矩陣相應下標所對應的向量上,隨后滑動視窗繼續計算對應位元組視窗的熵值,在生成特征時,展開該特征矩陣為一維特征向量,計算位元組熵時滑動視窗示意圖如下圖所示,在實際比賽程序中,我們通過上述方法提取的位元組統計值特征維數為256,
在這里插入圖片描述
??為了方便大家對此特征進行理解,特意進行更加細致的講解:

??原本的資訊熵是對每個位元組求資訊熵,由于位元組大小范圍為[0, 255],所以一共是256個bins,每個bin內僅僅包含一個位元組,不同滑窗但位于相同bin的資料會進行相加,

??同時我們將熵的值進行細粒度劃分,其中資訊熵的最大值為 l o g 2 ( n ) log_2(n) log2?(n),n為bin的個數,原本bin的個數為256個,所以最大值為8,如果熵每隔1作為其間隔,那么最終的維度數為256*8=2048維,

??如果我們只考慮高4位對應的熵值,然后再乘以2就能近似得到8位對應的熵值,本質是是將ASCII碼對應的字符(0~127)一視同仁處理,

??由于高4位總共只有16個取值,所以將原有的n從256轉換成了16,此時熵的最大值即為 l o g 2 16 = 4 log_2{16}=4 log2?16=4,同樣,我們在熵的維度上進行細粒度的劃分,將熵乘以4以后每個bin的距離為1,那么熵這一維的維度數為16,

??那么最終的維度數為16*16=256,簡單總結下就是把熵值進行了小顆粒度劃分,從而將一維特征表示成了二維特征,

??順便提一句,個人也在該比賽中使用了上述特征,并最終取得了第四名的優異成績,也歡迎大家報名參加各項AI比賽,說不定會找到屬于自己的一片天地,
在這里插入圖片描述

3. 基于UEBA的例外檢測

??用戶與物體行為分析系統采用的UEBA 技術( User and Entity Behaviours Analytics),是網路安全領域里進行例外檢測的重要手段之一,在傳統檢測設備(如 IDS、 IPS、 NGIPS、 NGIDS、FW、 NGFW )中,需要根據專家經驗來構建規則,然后通過檢索匹配的方法來進行威脅檢測,但在部分實際場景中,由于威脅不斷演變,所以往往需要靈活的對規則中的部分閾值進行及時調整,從而達到較好的檢測效果,

??而所謂的UEBA手段不僅是從資料分析的視角去發現關鍵問題,從聚焦資料內容本身到內容背景關系關系、行為分析等,從單點單條檢測到多維度大資料分析來發現更多更準確的有價值資訊,

??2021年的CCF舉辦了基于UEBA的用戶上網例外行為分析比賽,該比賽是基于無標簽的用戶日常上網日志資料,從而構建用戶上網行為基線和上網行為評價模型,依據上網行為與基線的距離確定偏離程度,從而評價上網行為與基線的偏離程度,

其中第一名使用了將全域語意和區域語意相結合的核心方法論,其中全域指的是基于全部資料構建模型,而區域指的是用戶和部門來構建模型,其中每個用戶建立一個模型,每個部門建立一個模型,然后對上述三大模型進行集成,其中模型均采用的是孤立森林,

??孤立森林具有檢測效果好,并且時間復雜度低(時間復雜度)的特點,模型結構如下圖所示:
在這里插入圖片描述

4. 總結與展望

??本文主要介紹了AI賦能安全的兩大應用場景:惡意樣本檢測與基于UEBA的例外檢測,同時也分享了兩大核心方法論:細粒度分析法和全域語意和區域語意相結合的方法,

??隨著深度學習技術在NLP、CV、推薦系統等領域的蓬勃發展,筆者很看好Transformer等預訓練模型、對比學習、Prompt Learning等技術能夠成功應用于網路空間安全中,讓我們一起努力,為AI賦能安全盡出自己的一份力量,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/431055.html

標籤:AI

上一篇:R語言常用基礎函式:使用edit函式呼叫資料編輯器手動自定義編輯資料物件不改變原始資料物件內容、使用fix函式呼叫資料編輯器手動自定義編輯資料物件并直接覆寫原資料內容

下一篇:谷粒學院(九)EasyExcel | 課程分類模塊

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more