主頁 >  其他 > 李航統計學習概述

李航統計學習概述

2023-04-25 08:08:12 其他

監督學習

感知機

  • 概念:

    • 感知機模型的基本形式是:

      \(f(x) = sign(w \cdot x + b)\)

      其中,\(x\) 是輸入樣本的特征向量,\(w\) 是權值向量,\(b\) 是偏置量,\(w \cdot x\) 表示向量 \(w\)\(x\) 的點積,\(sign\) 函式表示符號函式,當輸入大于 0 時輸出 1,否則輸出 -1,

  • 要求模型必須線性可分

K近鄰

  • 基本思想:是對于一個新的輸入樣本,在訓練資料集中找出與之最鄰近的k個樣本,并將其預測結果作為該樣本的輸出,

  • 步驟

    1. 計算測驗樣本與訓練樣本集中每個樣本的距離;
    2. 選取距離最近的k個訓練樣本;
      對于分類問題,采用投票法,即將k個樣本中出現最多的類別作為預測結果;對于回歸問題,采用平均值,即將k個樣本的輸出值的平均值作為預測結果,
  • 選取最近的k個樣本一般采用kd樹來進行實作,

    kd樹采取方差最大的那一變數(的中位數)進行分割

    kd樹的查詢首先尋找到該點所在的子節點的部分,然后逐漸向上遞回比較父節點和父節點的另一個子節點是否在某個領域(當前的最小距離)內具有交際,

樸素貝葉斯

  • 假設每個特征之間相互獨立,即\(P(X_1,X_2,X_3,...,X_n|Y)=P(X_1|Y)*P(X_2|Y)*...*P(X_n|Y)\)
  • 后驗概率最大化,無論是采用極大似然估計或者貝葉斯估計,都可以推匯出相應的公式,
  • 假設有 \(n\) 個特征和 \(m\) 個類別,我們需要分類一個新的樣本 \(x\),其中 \(x_i\) 表示第 \(i\) 個特征的取值,根據貝葉斯定理,可以計算出給定樣本 \(x\) 屬于第 \(j\) 個類別的后驗概率 \(P(C_j | x)\),即:

\[P(C_j|X) = \frac{P(X|C_j)P(C_j)}{P(X)} \]

?

其中,\(P(C_j)\) 表示類別 \(j\) 在訓練集中的先驗概率,\(P(x | C_j)\) 表示樣本 \(x\) 在給定類別 \(j\) 的條件下的概率密度函式(通常假設為高斯分布,或者直接使用頻率代替概率),\(P(x)\) 表示樣本 \(x\) 在所有類別下的概率,由于分母 \(P(x)\) 對于所有類別來說都是相同的,因此可以省略,只需要計算分子即可,此時,\(P(C_j | x)\) 可以看作樣本 \(x\) 屬于類別 \(j\) 的“置信度”,將樣本分配給概率最大的類別即可,

決策樹

  • 分為三個步驟:特征選擇、樹的生成和剪枝,
  • 需要了解下面幾個概念:

\[\text{熵:}H(Y) = -\sum_{y \in Y} p(y) \log_2 p(y) \]

\[H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i) \]

\[\text{資訊增益:IG}(X, Y) = H(Y) - H(Y|X) \]

\[\text{資訊增益比:IGR}(X, Y) = \frac{\text{IG}(X, Y)}{H(X)} \]

\[\text{基尼指數:Gini}(Y) = \sum_{i=1}^{|Y|} \sum_{j\neq i} p_i p_j = 1 - \sum_{i=1}^{|Y|} p_i^2 \]

\[\text{Gini}(X,Y) = \sum_{D_i=1}^{|D|}p_i\text{Gini}(D_i) \]

  • 不同的決策樹演算法就是基于上述不同的指標來進行特征的選擇,

  • 剪枝演算法:首先定義一個損失函式\(L(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|,其中T為子節點,N_t為子節點的樣本點數量,\)對于決策樹每一個子節點,如果多個子節點的損失大于父節點將他們吸收的損失,那么父節點就合并所有的子節點,并向上計算,可以通過遞回(或者非遞回)的動態規劃進行解決,

logitics和最大熵模型

類似感知機,只是將最終的函式由sign改為了logistics,

支持向量機

首先了解以下概念:

  1. 函式間隔.\(y|wx+b|\)
  2. 幾何間隔.\(y\frac{|wx+b|}{|w|}\)
  3. 線性支持向量機就是要最大幾何間隔,
  4. 拉格朗日對偶原理和拉格朗日乘子法,拉格朗日對偶
  5. 支持向量
  6. 合頁函式最優化求解和支持向量的原問題的等價性
  7. SMO啟發式方法

AdaBoost

假定具備一個弱分類器(該分類準確率僅僅比隨機猜測的概率高一些),AdaBoost通過綜合多種分類器的線性疊加,從而實作一個強分類器,

AdaBoost具有兩種等價的解釋:

  1. 通過調整訓練資料的權重(增加錯誤樣例的權重,減小正確樣例的權重),從而訓練得到不同的弱分類器\(G_1,G_2...G_m和相應的權重\alpha_1...\alpha_m\),最終線性疊加得到\(f=\alpha_1G_1+...+\alpha_mG_m\).
  2. AdaBoost等價于不斷求解殘差的擬合,

EM演算法

EM演算法用的特別廣泛,需要完全理解它的推導程序,

  1. EM演算法的推導
  2. EM演算法求解高斯混合模型
  3. EM演算法的推廣,F函式,

隱馬爾可夫模型

  1. 三個基本問題:預測、評估和學習
  2. 前向、后向演算法
  3. 維特比演算法,本質上三個演算法都是動態規劃
  4. Baum-Welch演算法求解學習問題

條件隨機場

  1. 勢函式的定義和條件隨機場的定義
  2. 使用前向后向演算法求解概率
  3. 學習演算法,使用迭代尺度、擬牛頓進行學習

無監督學習

聚類演算法

  1. 層次化聚類
  2. k均值聚類

奇異值分解

矩陣的SVD分解,并對\(\Sigma\)進行截斷(取前k個奇異值)

主成分分析

SVD的應用

潛在語意分析

概率潛在語意分析

馬爾可夫蒙特卡洛方法

  1. 拒絕采樣法

  2. Metropolis-Hasting采用法

    1. 初始化:給定樣本起始值 \(x^{(0)}\)
    2. 對于 \(t=1,2,\ldots,T\),進行如下迭代:
      從給定的候選分布 \(q(x^{(t)}|x^{(t-1)})\) 中抽取一個樣本 \(x^\prime\)
      計算接受概率 $$\alpha=\min({1,\frac{p(x\prime)}{p(x)}\frac{q(x{(t-1)}|x\prime)}{q(x\prime|x)})}$$
    3. 以概率 \(\alpha\) 接受樣本 \(x^\prime\),即 \(x^{(t)}=x^\prime\),否則拒絕樣本 \(x^\prime\),即 \(x^{(t)}=x^{(t-1)}\)
    4. 回傳樣本集合 \({x^{(1)},x^{(2)},\ldots,x^{(T)}}\)
      其中,\(T\) 是迭代次數,\(x^{(t)}\) 表示第 \(t\) 次迭代后的樣本值,\(p(x)\) 表示目標概率分布,\(q(x^{(t)}|x^{(t-1)})\) 表示給定上一個狀態 \(x^{(t-1)}\) 的條件下,生成下一個狀態 \(x^{(t)}\) 的候選分布,\(\alpha\) 表示接受候選狀態的概率,即 \(x^{(t)}\) 作為下一個狀態的概率,\(\min{1,\cdots}\) 保證了接受概率不會大于 \(1\),從而保證了接受的狀態總是有意義的,
  3. 吉布斯采用法

    吉布斯采樣(Gibbs Sampling)是一種基于馬爾可夫鏈蒙特卡羅(MCMC)方法的采樣演算法,用于從多維分布中抽取樣本,它通過迭代更新每個維度的條件概率分布來得到樣本,吉布斯采樣的公式如下:

    1. 初始化:給定樣本起始值 \(x^{(0)}=(x_1^{(0)},x_2^{(0)},\ldots,x_n^{(0)})\)
      對于 \(t=1,2,\ldots,T\),進行如下迭代:
      對于第 \(i\) 維,計算條件概率 \(p(x_i|x_1^{(t)},\ldots,x_{i-1}^{(t)},x_{i+1}^{(t-1)},\ldots,x_n^{(t-1)})\)
    2. 從條件概率分布 \(p(x_i|x_1^{(t)},\ldots,x_{i-1}^{(t)},x_{i+1}^{(t-1)},\ldots,x_n^{(t-1)})\) 中抽取一個樣本,即 \(x_i^{(t+1)}\sim p(x_i|x_1^{(t)},\ldots,x_{i-1}^{(t)},x_{i+1}^{(t-1)},\ldots,x_n^{(t-1)})\)
    3. 回傳樣本集合 \({x^{(1)},x^{(2)},\ldots,x^{(T)}}\)
      其中,\(T\) 是迭代次數,\(x_i^{(t)}\) 表示第 \(t\) 次迭代后第 \(i\) 維的值,\(p(x_i|x_1^{(t)},\ldots,x_{i-1}^{(t)},x_{i+1}^{(t-1)},\ldots,x_n^{(t-1)})\) 表示在給定其他維度取值的情況下第 \(i\) 維的條件概率分布,

    吉布斯采樣的核心思想是,通過條件概率分布來描述多維分布的聯合概率分布,從而能夠通過單個維度的條件概率來更新樣本值,避免了計算聯合概率分布的復雜度,通過多次迭代,吉布斯采樣可以得到服從多維分布的樣本集合,從而可以用于估計多維分布的各種性質,需要注意的是,吉布斯采樣的收斂性和穩定性是需要保證的,否則會導致采樣結果不準確或者不收斂,針對不同的問題和資料分布,需要進行適當的調整和優化,

潛在迪利克雷分配

PageRank演算法

\[PR(p_i) = \frac{1-d}{N} + d \sum_{p_j \in M(p_i)} \frac{PR(p_j)}{L(p_j)} \]

其中,\(PR(p_i)\) 表示網頁 \(p_i\) 的PageRank值,\(d\) 是一個常數,稱為阻尼因子,通常取值為 0.85,\(N\) 是網頁總數,\(M(p_i)\) 表示指向網頁 \(p_i\) 的所有網頁集合,\(L(p_j)\) 表示網頁 \(p_j\) 指向的網頁數,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551075.html

標籤:其他

上一篇:[Week 18] 每日一題(C++,動態規劃,線段樹,數學)

下一篇:返回列表

標籤雲
其他(158009) Python(38099) JavaScript(25390) Java(17999) C(15217) 區塊鏈(8260) C#(7972) AI(7469) 爪哇(7425) MySQL(7140) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5328) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4559) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2430) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1960) Web開發(1951) HtmlCss(1923) python-3.x(1918) 弹簧靴(1913) C++(1911) xml(1889) PostgreSQL(1873) .NETCore(1855) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 李航統計學習概述

    監督學習 感知機 概念: 感知機模型的基本形式是: $f(x) = sign(w \cdot x + b)$ 其中,$x$ 是輸入樣本的特征向量,$w$ 是權值向量,$b$ 是偏置量,$w \cdot x$ 表示向量 $w$ 和 $x$ 的點積。$sign$ 函式表示符號函式,當輸入大于 0 時輸出 ......

    uj5u.com 2023-04-25 08:08:12 more
  • [Week 18] 每日一題(C++,動態規劃,線段樹,數學)

    [Daimayuan] T1 最長公共子序列(C++,DP,二分) 給出從 $1$ 到 $n$ 的兩個排列 $P_1$ 和 $P_2$,求它們的最長公共子序列。 輸入格式 第一行是一個正整數 $n$。 接下來兩行,每行為 $n$ 個數,為自然數 $1,2,…,n$ 的一個排列。 輸出格式 一個數,即 ......

    uj5u.com 2023-04-25 08:08:08 more
  • 資料結構之線性表

    Linear_list 型別定義 一個線性表是n個資料元素的有限序列,線性表中的元素個數n定義為線性表的長度,n=0時成為空表; 抽象資料型別: InitList(&L) //構造空線性表L DestroyList(&L) //銷毀線性表L ClearList(&L) //將L重置為空表 ListE ......

    uj5u.com 2023-04-25 08:08:03 more
  • 稀疏陣列

    引入 當在網頁上下棋類游戲時,玩到中途想要離開,但是我們需要保存進度,方便下次繼續 我們應該怎么實作 ? 以圍棋舉例 使用二維陣列將棋盤記下 ,如 0 為 沒有棋子 ,1 為 黑子 , 2為白子 但是沒有棋子的地方都為 0 ,整個二維陣列充斥著大量的無效資料 0 我們需要想一個辦法來 優化存盤的方式 ......

    uj5u.com 2023-04-25 08:08:00 more
  • STM32HAL庫常用指令速查手冊

    STM32HAL庫常用指令速查手冊 持續更新中 GPIO HAL_GPIO_Init void HAL_GPIO_Init(GPIO_TypeDef *GPIOx, GPIO_InitTypeDef *GPIO_Init); //功能: GPIO初始化 HAL_GPIO_DeInit void HA ......

    uj5u.com 2023-04-25 08:07:35 more
  • 小程式容器,推動國產作業系統技術創新

    資訊技術應用創新不僅是各行各業實作數字轉型的關鍵起點,而且還是我國加強網路安全和資訊安全的重要手段。 現階段,微軟,谷歌和蘋果等外國公司在作業系統市場上占據著幾乎壟斷的行業地位。國內作業系統行業正在努力改變過去過于分散的狀態,并開始通過力量整合尋求新的市場機會。 事實上,使用國外桌面作業系統確實存在 ......

    uj5u.com 2023-04-25 08:07:31 more
  • Bios.boot——開機無法進入系統相關解決方法(windows & ubuntu)

    最近有機器出現開機無法進入系統,提示Crtl + Alt + Delete重啟 最開始我以為引導丟失,重啟時按F12(某些機器是F11或是其他),竟然還能看到 ubuntu 和 windows boot manager ,選擇ubuntu 順利進入系統,windows也順利進入了,系統沒問題。 然后 ......

    uj5u.com 2023-04-25 08:07:26 more
  • A-Buffer簡介

    A-Buffer簡介 A-Buffer是一種圖形學(渲染方向)上的用于可見面分析(Visble Surface Detection)的技術。 可見面分析最常見的技術有以下三種: Z-Buffer 演算法(或者叫 Depth-Buffer 演算法) Back-Face Detection方法,該方法用于剔 ......

    uj5u.com 2023-04-25 08:06:56 more
  • 微信小程式 + App = ?

    為了讓開發者可以一次編碼,就能夠編譯為 小程式、 Android、 iOS 應用,實作所謂的 多端開發,去年微信推出了 Donut(多納) 開發平臺(目前是 Beta 版),核心包括:1、開發者可將 小程式 構建成可 獨立運行的移動應用;2、也可以將 小程式 構建成運行于 原生應用中的業務模塊 從圖 ......

    uj5u.com 2023-04-25 08:06:20 more
  • 軟體自動化測驗初學者忠告

    題外話 測驗入門 很多受過高等教育的大學生經常問要不要去報測驗培訓班來入門測驗。 答案是否。 高等教育的合格畢業生要具備自學能力,如果你不具備自學能力,要好好地反省一下,為什么自己受了高等教育迷戀于各種入門級別的培訓?是沒有毅力還是不知道學習方法? 沒有毅力的話,要自己多看些勵志的書,多想想社會的殘 ......

    uj5u.com 2023-04-25 08:06:02 more