#########update to Lec 10###########################

html版本（看起來好看一點）

鏈接：https://pan.baidu.com/s/1GktN6dPSAscMDO_59Q7Www
提取碼：hou5

EE4408: Machine Learning:

Lecture1

Types of machine learning

Probability Review

Lecture 2

Graphical Model:

Belief Networks (Bayesian Networks)

Intro to Linear Algebra:

Eigenvalue and Eigenvector

Lecture 3

Bayesian Decision Theory

MLE maximum Likelihood Estimation 極大似然估計

Lecture 4

MLE Classifier Example

Cross Validation (交叉驗證)

Maximum a posteriori (MAP) Estimation

Non-parametric Classification

Dimensionality Reduction(降維)

Lecture 5

Data Scaling

Dimensionality Reduction

PCA

Eigenfaces

Lecture 6

Fisher's Linear Discriminant Analysis

LDA:Linear Discriminant Functions

Lecture 7

Linear Regression

Logistic Regression

Linear Discriminant Functions（線性判別方程）

LDF Criterion Function

Perceptron(感知機)

Non-separable Example && Convergence of Perceptron Rules

Lecture 8

Minimum Squared-Error Procedures

Support Vector Machines

SVM: Non-Separable Case

Nonlinear Mapping

Kernels（SVM的核函式）

Nonlinear SVM Step-by-Step

Lecture 9

Ensemble Classifiers （集成分類器）

Bagging：

Decision Tree（決策樹）

Random Forest：（隨機森林）

Boosting

Random Forests vs. Boosting

Lecture 10

Unsupervised Learning（Clustering）

K-means Clustering

EE4408: Machine Learning:

Lecture1

Types of machine learning

Supervised Learning：

example:Regression，*Classification
difference: need labels,需要標簽來學習

Unsupervised Learning：

example：Clustering
difference：not need labels，不需要標簽進行學習

Reinforcement Learning:強化學習

組成部分：環境，用戶

用戶根據environment所處的state產生action，作用于Environment,產生reward，回傳Agent，更新action產生網路，使得下一次的action會更好，

Probability Review

Discrete Random Variable:

Bayes Rule:

Continuous Random Variable:

Lecture 2

Graphical Model:

DAG:有向圖，沒有cycle（沒有一條路徑重新訪問一個節點）

Belief Networks (Bayesian Networks)

利用給定圖關系.求joint probablities

Intro to Linear Algebra:

Vectors:向量
scalars:標量
Subspace:子空間
Basis of Vector Space:基向量,在圖片中,基向量為:

Orthogonal matrices正交矩陣,滿足
Trace:矩陣對角線之和
Determinant:行列式
Covariance:協方差,
Correlation coefficient:相關系數:
Covariance matrix:

協方差:COV(X，Y)=E[(X-E(X))(Y-E(Y))]
Normal Density:正態分布

Eigenvalue and Eigenvector

用

可以求出

為Eigenvalue(特征值),

將lambda 帶入

求出的x為eigenvector(特征向量)

Lecture 3

Bayesian Decision Theory

prior:先驗概率 posterior:后驗概率

Decision using Posteriors:

判斷規則:

后驗概率哪個大,判斷成哪個

Error:

Error:給定x集合,后驗概率是確定的,所以error就是概率小的那個
Loss Function

Conditional Risk:

后驗概率決策的升級版,在進行決策前,設定一個引數

R()函式相當于將每一類的錯誤率相加

MLE maximum Likelihood Estimation 極大似然估計

question

答案:a 因為對于每一個似然函式,都有一個確定的引數,比如高斯分布中的均值和方差,線性分類中的w和,所以他的判別函式的形狀是統一的.

main idea

用最大似然函式渠道最大值作為估計值,就是利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值(模型已知，引數未知），
先再寫出似然函式:
簡述方法:
- 寫出似然函式:
- 取對數log
- 求導數:

Lecture 4

MLE Classifier Example

利用train_data 進行最大似然估計(example中估計的是var和mean)
利用后驗概率 = likehood * 先驗概率進行判斷.
利用測驗集的標簽來計算error

Cross Validation (交叉驗證)

基礎概念:

訓練集（train set） —— 用于模型擬合的資料樣本，
驗證集（validation set）—— 是模型訓練程序中單獨留出的樣本集，它可以用于調整模型的超引數和用于對模型的能力進行初步評估，通常用來在模型迭代訓練時，用以驗證當前模型泛化能力（準確率，召回率等），以決定是否停止繼續訓練，
測驗集 —— 用來評估模最終模型的泛化能力，但不能作為調參、選擇特征等演算法相關的選擇的依據，

一個形象的比喻：

訓練集-----------學生的課本；學生 根據課本里的內容來掌握知識，
?
驗證集------------作業，通過作業可以知道 不同學生學習情況、進步的速度快慢，
?
測驗集-----------考試，考的題是平常都沒有見過，考察學生舉一反三的能力，

K-fold cross validation

隨機將訓練資料等分成k份，S1, S2, …, Sk，
對于每一個模型Mi，演算法執行k次，每次選擇一個Sj作為驗證集，而其它作為訓練集來訓練模型Mi，把訓練得到的模型在Sj上進行測驗，這樣一來，每次都會得到一個誤差E，最后對k次得到的誤差求平均，就可以得到模型Mi的泛化誤差，
演算法選擇具有最小泛化誤差的模型作為最終模型，并且在整個訓練集上再次訓練該模型，從而得到最終的模型，

overfitting 過擬合

模型對于訓練集來說太精確了,失去泛化性

Maximum a posteriori (MAP) Estimation

最大化后驗概率,首先后驗概率 = 先驗概率 * likehood

在MLE中,核心思想是最大化likehood,是不需要先驗知識的,只需要輸入觀測資料.缺點:在給定樣本不多的情況下,似然估計的引數不一定對
所以在MAP中,用最大后驗概率,其實是綜合了給定的樣本和先驗知識

可能會考當把先驗知識 prior =1(均勻先驗知識),則MLE和MAP等價

Non-parametric Classification

優點:可以用在任意分布,且不需要知道概率密度函式的形式

Density Estimation

其實就是用樣本算直方圖

Dimensionality Reduction(降維)

Lecture 5

Data Scaling

對資料進行預處理,歸一化,防止部分features數值過大,不利于后續操作

Dimensionality Reduction

Greedy Forward Feature Selection:從空的features集合中不斷加最好的特征

Greedy Backward Feature Selection:從所有的features集合中不斷洗掉最壞的特征

PCA

一種資料降維的方法，

question

maxmize the variance from the new data

minimize reconstruction error

main idea

基于特征值分解協方差矩陣實作PCA演算法

計算出協方差矩陣
利用特征分解方法求協方差矩陣的特征值與特征向量
取出特征值最大的k個特征向量組成新的空間

基于SVD分解協方差矩陣實作PCA演算法

去平均值，即每一位特征減去各自的平均值，
計算協方差矩陣，
通過SVD計算協方差矩陣的特征值與特征向量，
對特征值從大到小排序，選擇其中最大的k個，然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣，
將資料轉換到k個特征向量構建的新空間中，

Eigenfaces

用PCA 分解出基影像(Eigenfaces)
將影像用基影像表示:
兩個向量的距離差來表示是否是一張臉:

Lecture 6

Fisher's Linear Discriminant Analysis

把分類集合投影到一條線上進行分類

question:

explain why maximizing the distance between the projected class means is not sufficient for separating?

不能簡單的用一個維度的均值去分類

maybe have many overlapping parts,such like:

main idea

maximum objective function:
details:
use v to separate different classes

LDA:Linear Discriminant Functions

與Fisher 不同,Fisher 是投影到一條線上進行分類,LDA是根據在線的哪一邊進行分類.

可能會考!

LDF 對于不連續的決策區域無法正常作業

Lecture 7

Linear Regression

步驟：

Assume a linear model: Y = β0 + β1 X
Find the line which “best” fits the data, i.e. estimate parameters β0 and β1（訓練：用最小誤差進行擬合）
Check assumptions of model（驗證）
Draw inferences and make predictions（測驗）

Five Assumptions of Linear Regression

Existence: for each fixed value of X, Y is a random variable with finite mean and variance (對于每一個給定的X，Y都是隨機的但是有一個有限的均值和方差)
Independence: the set of Yi are independent random variables given Xi（對于給定Xi，Yi是獨立的隨機變數，和X沒有關系）
Linearity: the mean value of Y is a linear function of X(Y的均值對于x是一個線性的函式)
Homoscedasticity: the variance of Y is the same for any X（對于任意X，Y是同方差的）
Normality: For each fixed value of X, Y has a normal distribution (by assumption 4, σ2 does not depend on X)（對于任意X，Y是一個正態分布）

Estimating β0 and β1

實際上就是擬合預測值和標簽值的差的平方和最小，（MSE最小均方誤差法----Lec8）

Logistic Regression

Aim： to learn Learn P(Y|X) directly by using the way like Linear Regression

實質：利用 l = a+bx 做線性回歸，然后講 l 帶入 logistic function表示概率p

損失計算：

利用極大似然函式法，擬合邏輯回歸中的引數（a，b）

邏輯回歸模型的數學形式確定后，剩下就是如何去求解模型中的引數，在統計學中，常常使用極大似然估計法來求解，即找到一組引數，使得在這組引數下，我們的資料的似然度（概率）最大，

設：

似然函式：

為了更方便求解，我們對等式兩邊同取對數，寫成對數似然函式：

在機器學習中我們有損失函式的概念，其衡量的是模型預測錯誤的程度，如果取整個資料集上的平均對數似然損失，我們可以得到:

即在邏輯回歸模型中，我們最大化似然函式和最小化損失函式實際上是等價的，

邏輯回歸的損失函式是：（計算方法可以用后面講到的梯度下降）

Linear Discriminant Functions（線性判別方程）

Augmented Feature Vector：

相當于多添加了一維的資料

判別形式：

Normalization：

將第二類的輸入變成原輸入的反數，這樣做是為了，簡化方法，只要滿足

就是分類正確的.

Solution Region

兩種求解方法

Optimization：

將目標函式進行求導，算導數等于0的時候，缺點：解方程復雜，且對于現在的一些問題（深度學習），不太可能寫出求導方程，

Gradient Descent（梯度下降）

更新weight vector方法：利用前一次的算出來的目標函式的導數，與目前的weight vector進行想減，

理解：梯度可以表示為目標函式下降的方向，我們只需要不斷控制weight vector往這個方向前進，如下圖，

優點：現在用的非常廣泛，并且適合任意的目標函式

LDF Criterion Function

還沒有看懂

Perceptron(感知機)

感知器得目標函式為所有分錯樣本的距離和，目的就是最小化這個目標函式，

利用梯度更新方法：

因為目標函式對于y求導之后只剩下y了，所以梯度與a沒有關系

Non-separable Example && Convergence of Perceptron Rules

對于以上這種沒有辦法找到一個合適的分類線的情況，對于基礎感知器或者線性判別分類器，它會一直繼續分類，沒有辦法收斂，

此時我們可以設定合適的學習率

，相當于更新次數越多，梯度會越來越不想更新，

Lecture 8

Minimum Squared-Error Procedures

MSE 只是一種設立目標函式（損失）的一個方程而已，

MSE:求解方法：

利用求導為0（Optimization）
梯度下降Gradient Descent

Support Vector Machines

LDF出現的問題：我們只是很好的擬合了訓練集，當出現一個新的樣本（十分接近我們的決策平面），我們就很容易將它分錯，

因此就需要SVM(? Idea: maximize distance to the closest example)使最接近決策平面的兩個點之間的距離最大，

公式：

(不考數學推理：)

求解||w||，需要利用拉格朗日函式，將原來的形式轉變成：

如果利用核函式：

SVM: Non-Separable Case

通過設定 b 的大小來松弛間隔(允許多少點可以在這個間隔內)

Nonlinear Mapping

利用轉換方程實作非線性映射：

Kernels（SVM的核函式）

因為許多樣本并不是線性可分的(用一條線就能夠分出來)，因此需要用到核函式（改變決策平面的形狀）

核函式一定是半正定的

核函式型別（了解）：

Nonlinear SVM Step-by-Step

與之前步驟是一樣的，只是改變了核函式（感興趣可以看數學推導里面）

Multi-class SVMs

有兩種考慮角度：One-against-all：一次性分出多類 Pairwise：多次兩兩分類

(1)One-Against-All

(2)Pairwise SVMs

實質：經過多次的兩兩分類訓練出 n*(n-1)/2 個支持向量機

SVM實作多分類的三種方案 - ZH奶酪 - 博客園參考閱讀～ thank 徐文熙諸葛楊陽 for sharing

Lecture 9

Ensemble Classifiers （集成分類器）

利用多個分類器集成來提高分類效果

主要分為 Bagging 和 boosting，其中random forest 屬于 bagging（感徑訓考）

Bagging：

類似于投票機制：隨機選取樣本，利用每一次隨機選取的訓練集訓練一個分類器，最后通過所有分類器進行投票來獲得最后的分類效果，

Decision Tree（決策樹）

是一個樹狀的分類器，每一個節點的選擇是根據資訊增益熵選擇的

感興趣可以看：（考試應該不考）

決策樹（decision tree）(一)——構造決策樹方法_天澤28的專欄-CSDN博客_決策樹

Random Forest：（隨機森林）

就是把決策樹當成弱分類器，然后利用Bagging方法，投票決定最后的分類，

Advantages of Random Forests

Very high accuracy – not easily surpassed by other algorithms
Efficient on large datasets
Can handle thousands of input variables without variable deletion
Effective method for estimating missing data, also maintains accuracy when a large proportion of the data are missing
Robust to label noise
Can be used in clustering, locating outliers and semi-supervised learning