#########update to Lec 10###########################
html版本(看起來好看一點)
鏈接:https://pan.baidu.com/s/1GktN6dPSAscMDO_59Q7Www
提取碼:hou5
目錄
#########update to Lec 10###########################
EE4408: Machine Learning:
Lecture1
Types of machine learning
Probability Review
Lecture 2
Graphical Model:
Belief Networks (Bayesian Networks)
Intro to Linear Algebra:
Eigenvalue and Eigenvector
Lecture 3
Bayesian Decision Theory
MLE maximum Likelihood Estimation 極大似然估計
Lecture 4
MLE Classifier Example
Cross Validation (交叉驗證)
Maximum a posteriori (MAP) Estimation
Non-parametric Classification
Dimensionality Reduction(降維)
Lecture 5
Data Scaling
Dimensionality Reduction
PCA
Eigenfaces
Lecture 6
Fisher's Linear Discriminant Analysis
LDA:Linear Discriminant Functions
Lecture 7
Linear Regression
Logistic Regression
Linear Discriminant Functions(線性判別方程)
LDF Criterion Function
Perceptron(感知機)
Non-separable Example && Convergence of Perceptron Rules
Lecture 8
Minimum Squared-Error Procedures
Support Vector Machines
SVM: Non-Separable Case
Nonlinear Mapping
Kernels(SVM的核函式)
Nonlinear SVM Step-by-Step
Lecture 9
Ensemble Classifiers (集成分類器)
Bagging:
Decision Tree(決策樹)
Random Forest:(隨機森林)
Boosting
Random Forests vs. Boosting
Lecture 10
Unsupervised Learning(Clustering)
K-means Clustering
EE4408: Machine Learning:
Lecture1
Types of machine learning
Supervised Learning:
-
example:Regression,*Classification
-
difference: need labels,需要標簽來學習
Unsupervised Learning:
-
example:Clustering
-
difference:not need labels,不需要標簽進行學習
Reinforcement Learning:強化學習
-
組成部分:環境,用戶

用戶根據environment所處的state產生action,作用于Environment,產生reward,回傳Agent,更新action產生網路,使得下一次的action會更好,
Probability Review
Discrete Random Variable:



Bayes Rule:

Continuous Random Variable:

Lecture 2
Graphical Model:


DAG:有向圖,沒有cycle(沒有一條路徑重新訪問一個節點)
Belief Networks (Bayesian Networks)

利用給定圖關系.求joint probablities
Intro to Linear Algebra:
-
Vectors:向量
-
scalars:標量
-
Subspace:子空間
-
Basis of Vector Space:基向量,在圖片中,基向量為:


-
Orthogonal matrices正交矩陣,滿足

-
Trace:矩陣對角線之和

-
Determinant:行列式
-
Covariance:協方差,

-
Correlation coefficient:相關系數:

-
Covariance matrix:

協方差:COV(X,Y)=E[(X-E(X))(Y-E(Y))]
-
Normal Density:正態分布
Eigenvalue and Eigenvector
用

可以求出

為Eigenvalue(特征值),
將lambda 帶入

求出的x為eigenvector(特征向量)
Lecture 3
Bayesian Decision Theory
prior:先驗概率 posterior:后驗概率


Decision using Posteriors:
-
判斷規則:

后驗概率哪個大,判斷成哪個
-
Error:

Error:給定x集合,后驗概率是確定的,所以error就是概率小的那個
-
Loss Function

Conditional Risk:
后驗概率決策的升級版,在進行決策前,設定一個引數


R()函式相當于將 每一類的錯誤率相加
MLE maximum Likelihood Estimation 極大似然估計
question
答案:a 因為對于每一個似然函式,都有一個確定的引數,比如高斯分布中的均值和方差,線性分類中的w和,所以他的判別函式的形狀是統一的.
main idea
-
用最大似然函式渠道最大值作為估計值,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的引數值(模型已知,引數未知),
-
先再寫出似然函式:

-

-
簡述方法:
-
寫出似然函式:

-
取對數log

-
求導數:

-
Lecture 4
MLE Classifier Example
-
利用train_data 進行最大似然估計(example中估計的是var和mean)
-
利用后驗概率 = likehood * 先驗概率 進行判斷.
-
利用測驗集的標簽來計算error
Cross Validation (交叉驗證)
基礎概念:
-
訓練集(train set) —— 用于模型擬合的資料樣本,
-
驗證集(validation set)—— 是模型訓練程序中單獨留出的樣本集,它可以用于調整模型的超引數和用于對模型的能力進行初步評估, 通常用來在模型迭代訓練時,用以驗證當前模型泛化能力(準確率,召回率等),以決定是否停止繼續訓練,
-
測驗集 —— 用來評估模最終模型的泛化能力,但不能作為調參、選擇特征等演算法相關的選擇的依據,
一個形象的比喻:
訓練集-----------學生的課本;學生 根據課本里的內容來掌握知識, ? 驗證集------------作業,通過作業可以知道 不同學生學習情況、進步的速度快慢, ? 測驗集-----------考試,考的題是平常都沒有見過,考察學生舉一反三的能力,
K-fold cross validation
-
隨機將訓練資料等分成k份,S1, S2, …, Sk,
-
對于每一個模型Mi,演算法執行k次,每次選擇一個Sj作為驗證集,而其它作為訓練集來訓練模型Mi,把訓練得到的模型在Sj上進行測驗,這樣一來,每次都會得到一個誤差E,最后對k次得到的誤差求平均,就可以得到模型Mi的泛化誤差,
-
演算法選擇具有最小泛化誤差的模型作為最終模型,并且在整個訓練集上再次訓練該模型,從而得到最終的模型,
overfitting 過擬合
模型對于訓練集來說太精確了,失去泛化性
Maximum a posteriori (MAP) Estimation
最大化后驗概率,首先后驗概率 = 先驗概率 * likehood
-
在MLE中,核心思想是最大化likehood,是不需要先驗知識的,只需要輸入觀測資料.缺點:在給定樣本不多的情況下,似然估計的引數不一定對
-
所以在MAP中,用最大后驗概率,其實是綜合了給定的樣本和先驗知識

可能會考當把先驗知識 prior =1(均勻先驗知識),則MLE和MAP等價
Non-parametric Classification
優點:可以用在任意分布,且不需要知道概率密度函式的形式
Density Estimation
其實就是用樣本算直方圖
Dimensionality Reduction(降維)
Lecture 5
Data Scaling
對資料進行預處理,歸一化,防止部分features數值過大,不利于后續操作
Dimensionality Reduction
Greedy Forward Feature Selection:從空的features集合中不斷加最好的特征
Greedy Backward Feature Selection:從所有的features集合中不斷洗掉最壞的特征
PCA
一種資料降維的方法,
question
maxmize the variance from the new data
minimize reconstruction error
main idea
基于特征值分解協方差矩陣實作PCA演算法
-
計算出協方差矩陣
-
利用特征分解方法求協方差矩陣的特征值與特征向量
-
取出特征值最大的k個特征向量組成新的空間
基于SVD分解協方差矩陣實作PCA演算法
-
去平均值,即每一位特征減去各自的平均值,
-
計算協方差矩陣,
-
通過SVD計算協方差矩陣的特征值與特征向量,
-
對特征值從大到小排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣,
-
將資料轉換到k個特征向量構建的新空間中,
Eigenfaces
-
用PCA 分解出 基影像(Eigenfaces)
-
將影像用基影像表示:

-
兩個向量的距離差來表示是否是一張臉:

Lecture 6
Fisher's Linear Discriminant Analysis
把分類集合投影到一條線上進行分類
question:
explain why maximizing the distance between the projected class means is not sufficient for separating?
不能簡單的用一個維度的均值去分類
maybe have many overlapping parts,such like:
main idea
-
maximum objective function:

-
details:

-
use v to separate different classes
LDA:Linear Discriminant Functions
與Fisher 不同,Fisher 是投影到一條線上進行分類,LDA是根據在線的哪一邊進行分類.

可能會考!
LDF 對于 不連續的決策區域無法正常作業
Lecture 7
Linear Regression
步驟:
-
Assume a linear model: Y = β0 + β1 X
-
Find the line which “best” fits the data, i.e. estimate parameters β0 and β1(訓練:用最小誤差進行擬合)
-
Check assumptions of model(驗證)
-
Draw inferences and make predictions(測驗)
Five Assumptions of Linear Regression
-
Existence: for each fixed value of X, Y is a random variable with finite mean and variance (對于每一個給定的X,Y都是隨機的但是有一個有限的均值和方差)
-
Independence: the set of Yi are independent random variables given Xi(對于給定Xi,Yi是獨立的隨機變數,和X沒有關系)
-
Linearity: the mean value of Y is a linear function of X(Y的均值對于x是一個線性的函式)
-
Homoscedasticity: the variance of Y is the same for any X(對于任意X,Y是同方差的)
-
Normality: For each fixed value of X, Y has a normal distribution (by assumption 4, σ2 does not depend on X)(對于任意X,Y是一個正態分布)
Estimating β0 and β1

實際上就是擬合 預測值和標簽值的差 的平方和 最小,(MSE最小均方誤差法----Lec8)
Logistic Regression
Aim: to learn Learn P(Y|X) directly by using the way like Linear Regression


實質:利用 l = a+bx 做線性回歸,然后講 l 帶入 logistic function表示概率p
損失計算:
利用極大似然函式法,擬合邏輯回歸中的引數(a,b)
邏輯回歸模型的數學形式確定后,剩下就是如何去求解模型中的引數,在統計學中,常常使用極大似然估計法來求解,即找到一組引數,使得在這組引數下,我們的資料的似然度(概率)最大,
設:

似然函式:

為了更方便求解,我們對等式兩邊同取對數,寫成對數似然函式:

在機器學習中我們有損失函式的概念,其衡量的是模型預測錯誤的程度,如果取整個資料集上的平均對數似然損失,我們可以得到:

即在邏輯回歸模型中,我們最大化似然函式和最小化損失函式實際上是等價的,
邏輯回歸的損失函式是:(計算方法可以用后面講到的梯度下降)

Linear Discriminant Functions(線性判別方程)
Augmented Feature Vector:


相當于多添加了一維的資料
判別形式:

Normalization:

將第二類的輸入變成原輸入的反數,這樣做是為了,簡化方法,只要滿足
就是分類正確的.

Solution Region

兩種求解方法
Optimization:
將目標函式進行求導,算導數等于0的時候,缺點:解方程復雜,且對于現在的一些問題(深度學習),不太可能寫出求導方程,
Gradient Descent(梯度下降)
更新weight vector方法:利用前一次的算出來的目標函式的導數,與目前的weight vector進行想減,
理解:梯度可以表示為目標函式下降的方向,我們只需要不斷控制weight vector往這個方向前進,如下圖,

優點:現在用的非常廣泛,并且適合任意的目標函式
LDF Criterion Function
還沒有看懂
Perceptron(感知機)

感知器得目標函式為所有分錯樣本的距離和,目的就是最小化這個目標函式,
利用梯度更新方法:

因為目標函式對于y求導之后只剩下y了,所以梯度與a沒有關系
Non-separable Example && Convergence of Perceptron Rules

對于以上這種沒有辦法找到一個合適的分類線的情況,對于基礎感知器或者線性判別分類器,它會一直繼續分類,沒有辦法收斂,
此時我們可以設定合適的學習率

,相當于更新次數越多,梯度會越來越不想更新,
Lecture 8
Minimum Squared-Error Procedures

MSE 只是一種設立目標函式(損失)的一個方程而已,
MSE:求解方法:
-
利用求導為0(Optimization)
-
梯度下降Gradient Descent
Support Vector Machines
Support Vector Machines
LDF出現的問題:我們只是很好的擬合了訓練集,當出現一個新的樣本(十分接近我們的決策平面),我們就很容易將它分錯,
因此就需要SVM(? Idea: maximize distance to the closest example)使最接近決策平面的兩個點之間的距離最大,
公式:

(不考數學推理:)
求解||w||,需要利用拉格朗日函式,將原來的形式轉變成:
如果利用核函式:
SVM: Non-Separable Case

通過設定 b 的大小來松弛間隔(允許多少點可以在這個間隔內)

Nonlinear Mapping
利用轉換方程實作非線性映射:

Kernels(SVM的核函式)
因為許多樣本并不是線性可分的(用一條線就能夠分出來),因此需要用到核函式(改變決策平面的形狀)
核函式一定是半正定的
核函式型別(了解):

Nonlinear SVM Step-by-Step
與之前步驟是一樣的,只是改變了核函式(感興趣可以看數學推導里面)
Multi-class SVMs
有兩種考慮角度:One-against-all:一次性分出多類 Pairwise:多次兩兩分類
(1)One-Against-All

(2)Pairwise SVMs
實質:經過多次的兩兩分類 訓練出 n*(n-1)/2 個支持向量機

SVM實作多分類的三種方案 - ZH奶酪 - 博客園 參考閱讀~ thank 徐文熙 諸葛楊陽 for sharing
Lecture 9
Ensemble Classifiers (集成分類器)
利用多個分類器集成來提高分類效果
主要分為 Bagging 和 boosting,其中random forest 屬于 bagging(感徑訓考)
Bagging:
類似于投票機制:隨機選取樣本,利用每一次隨機選取的訓練集訓練一個分類器,最后通過所有分類器進行投票來獲得最后的分類效果,
Decision Tree(決策樹)
是一個樹狀的分類器,每一個節點的選擇是根據資訊增益熵選擇的

感興趣可以看:(考試應該不考)
決策樹(decision tree)(一)——構造決策樹方法_天澤28的專欄-CSDN博客_決策樹
Random Forest:(隨機森林)
就是把決策樹當成弱分類器,然后利用Bagging方法,投票決定最后的分類,
Advantages of Random Forests
-
Very high accuracy – not easily surpassed by other algorithms
-
Efficient on large datasets
-
Can handle thousands of input variables without variable deletion
-
Effective method for estimating missing data, also maintains accuracy when a large proportion of the data are missing
-
Robust to label noise
-
Can be used in clustering, locating outliers and semi-supervised learning
Boosting
與bagging不同點在于,不是隨機的選擇每一次的訓練樣本(有規則的)
以AdaBoost為例:


-
第一次均勻的選取樣本
-
之后會根據上一次選取的樣本的錯誤率來更新,錯誤率越大就增加選取概率(為的是能夠更好地訓練分不對的點)
-
最后地分類由每一個分類器以及該分類器地錯誤率聯合決定(sign是一個激活函式)

Random Forests vs. Boosting

Lecture 10
Unsupervised Learning(Clustering)
為什么要用非監督學習:

Distance Measures:

考慮問題:
-
Fix the number of clusters to k(分成幾類)
-
Find the best clustering according to the criterion function (number of clusters may vary)(怎么分)
K-means Clustering
一種迭代地演算法 Iterative optimization algorithms

-
人為選取要分地類數,上圖k=3,并且隨機初始化三個中心點,自動分類,距離哪個中心點近就是哪一類
-
計算每一個聚類地mean(均值)
-
重新將所有的點依據第二步地均值分類,
-
重復2 3 步驟 直到所有點不變
第二步地均值經常用距離(Distance Measures)來計算
-----------------------------------------------------------------------------------------感謝賈神、陳工友,無私奉獻
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/402644.html
標籤:AI









