目錄
- 通徑分析
- 使用背景
- 數學原理
- 計算步驟
- 典型相關分析
- 適用物件
- Bayes判別法
- 使用前提
- 基本思想
- 一般步驟
- 例題
- 寫作體現
- 逐步判別法
- 背景
- 基本思想
- 步驟
- 例題及代碼分析
- 因子分析
- 簡要介紹
- 一般步驟
- 例題
- 結果分析
- 在這里插入圖片描述
通徑分析
使用背景
大前提:所有變數都要服從正態分布
- 僅僅研究兩個變數的關系
??簡單相關系數(皮爾遜相關系數)
- 多個相關變數中研究兩個變數之間的關系
??偏相關系數(注意,多個變數之間應該是相關的)
- 多個不相關自變數與一個因變數之間的關系
??多元回歸
- 多個相關的自變數與一個因變數之間的關系
??通徑分析
- 多個相關的因變數和多個相關的自變數之間的關系
??典型相關系數
數學原理
先做一個r檢驗(相關性檢驗)?
如果用到通徑分析,一定要把這個線性運算式公式寫到文章里去

計算步驟
- 1.計算所有自變數與因變數的簡單相關系數,并做相關性檢驗,排除與因變數不相關的自變數,
- 2.計算余下所有自變數之間的相關系數,
- 3.建立通徑方程,
- 4.解方程組,計算出直接通徑系數
典型相關分析
適用物件
??多個相關的因變數和多個相關的自變數之間的關系

- u 1 , u 2 , u 3 . . . 各 自 線 性 無 關 u_1,u_2,u_3...各自線性無關 u1?,u2?,u3?...各自線性無關
- v 1 , v 2 , v 3 . . . 各 自 線 性 無 關 v_1,v_2,v_3...各自線性無關 v1?,v2?,v3?...各自線性無關
- u 1 u_1 u1?只與 v 1 v_1 v1?相關,與其他的 v v v不相關(以此類推)
- v 1 v_1 v1?只與 u 1 u_1 u1?相關,與其他的 u u u不相關(以此類推)
- 具有最大相關性的一對稱為 u 1 , v 1 u_1,v_1 u1?,v1?,具有第二大相關性的便是 u 2 , v 2 u_2,v_2 u2?,v2?(以此類推)
- 約束條件: u k u_k uk?和 v k v_k vk?的方差均為1
例:

??解釋問題:哪一個x與哪一個y關系緊密
??運行結果:


??文章里提及:
- 典型相關:三對典型變數的相關系數
- 特征值:沒有任何特殊意義,但要寫,還要寫比例
- F值
- 自由度
- Pr>F(也叫F檢驗的顯著性概率):概率小于0.05,拒絕原假設,說明對應的典型變數是相關的
??上圖中,前兩對典型變數的顯著性概率都小于0.05,說明前兩對典型變數是相關的,第三對典型變數線性關系不顯著,因此,只留下前兩對典型變數,


- 產出組與影響組典型相關系數平方:對應典型R方(VAR或WITH都可)
- 對產出組解釋能力:對應VAR-它們自己-比例
- 產出組方差被影響組典型變數解釋比例:對應VAR-對立面-比例


對上述表格的解釋:

- v 1 v_1 v1?中, y 1 y_1 y1?和 y 2 y_2 y2?占的權重比較大; w 1 w_1 w1?中, x 1 x_1 x1?占的權重比較大;而 v 1 v_1 v1?和 w 1 w_1 w1?還具有較高的相關系數,因此, x 1 x_1 x1?和 y 1 y_1 y1?與 y 2 y_2 y2?關系很緊密,也就是說, x 1 x_1 x1?是首先影響 y 1 y_1 y1?與 y 2 y_2 y2?的
- v 2 v_2 v2?中, y 1 y_1 y1?和 y 2 y_2 y2?占的權重比較大; w 2 w_2 w2?中, x 2 x_2 x2?占的權重比較大;而 v 2 v_2 v2?和 w 2 w_2 w2?還具有比較高的相關系數,因此, x 2 x_2 x2?和 y 1 y_1 y1?與 y 2 y_2 y2?關系很緊密,也就是說, x 2 x_2 x2?是首先影響 y 1 y_1 y1?與 y 2 y_2 y2?的
Bayes判別法
??判別分析是一種在一些已知研究物件用某種方法已經分成若干類的情況下,確定新的樣品的觀測資料屬于哪一類的統計分析方法,
??目前比較流行的判別方法:貝葉斯判別,Fisher判別,模糊識別,神經網路,支持向量機,距離判別法,逐步判別法,
使用前提
- 資料符合正態分布
基本思想
??總是假設對所研究的物件已有一定的認識,計算新給樣品屬于各總體的條件概率
P
(
G
i
∣
x
0
)
,
(
i
=
1
,
.
.
.
k
)
P(G_i|x_0),(i=1,...k)
P(Gi?∣x0?),(i=1,...k)比較這個概率的大小,然后將新樣品判歸為來自概率最大的總體,
??設有總體
G
i
(
i
=
1
,
2
,
.
.
.
,
k
)
G_i(i=1,2,...,k)
Gi?(i=1,2,...,k),
G
i
G_i
Gi?具有概率密度函式
f
i
(
x
)
f_i(x)
fi?(x).并且根據以往的統計分析,知道
G
i
G_i
Gi?出現的概率為
q
i
q_i
qi?,即當樣本
x
0
x_0
x0?發生后,求他屬于某類的概率,由貝葉斯共識計算后驗概率,有
P
(
G
i
∣
x
0
)
=
q
i
f
i
(
x
0
)
∑
q
i
f
i
(
x
0
)
P(G_i|x_0)=\frac{q_if_i(x_0)}{\sum q_if_i(x_0)}
P(Gi?∣x0?)=∑qi?fi?(x0?)qi?fi?(x0?)?
??判別規則:若
P
(
G
h
∣
x
0
)
=
m
a
x
P
(
G
i
∣
x
0
)
(
1
≤
i
≤
k
)
P(G_h|x_0)=maxP(G_i|x_0)(1\leq i\leq k)
P(Gh?∣x0?)=maxP(Gi?∣x0?)(1≤i≤k)
??則
x
0
x_0
x0?判給
G
h
G_h
Gh?
一般步驟
- 1.計算各類中變數的均值 x ˉ j \bar{x}_j xˉj?及均值向量 x ˉ h \bar{x}_h xˉh?( h = 1 , 2 , . . . k h=1,2,...k h=1,2,...k),各變數的總均值 x ˉ j \bar{x}_j xˉj?( j = 1 , 2 , . . . p j=1,2,...p j=1,2,...p)及均值向量
- 2.計算類內協方差矩陣S及其逆矩陣S-1 ;
- 3.計算Bayes判別函式中,各個變數的系數及常數項并寫出判別函式;
- 4.計算類內協方差矩陣W及總各協方差矩陣T作多個變數的全體判別效果的檢驗;
- 5.各個變數的判別能力的檢驗;
- 6.判別新樣本應屬于的類別
例題

??資料如下:

??代碼解釋:

寫作體現
- 1.寫貝葉斯判別函式


??注意:這些系數要與回歸區別開,這些系數沒有特別的意義,只是作為函式的系數
??判別方法:將每個國家所給的引數代入,比較y1與y2的大小,誰大,就是哪一類
??一般而言,得出判別公式后要對原有的資料進行判別,判別錯誤的概率稱為誤判率,SAS會計算出來


??可以看到,第一類的誤判概率為0,第二類的誤判概率為零,合計誤判概率也為零,說明我們創建出來的判別函式很有效,判別能力很強
??貝葉斯判別作業中規定先驗概率為類別個數分之一
??
??之后判別新資料:

??解釋:
-
_1:y1/(y1+y2)
-
_2:y2/(y1+y2)
-
2.將原有資料重新判別一下
-
3.進行現有資料的判別,并給出自己可能認為的原因
逐步判別法
背景
??在判別問題中,當判別變數個數較多時,如果不加選擇地一概采用來建立判別函式,
不僅計算量大,還由于變數之間的相關性,可能使求解逆矩陣的計算精度下降,建立的判別函式不穩定,因 此適當地篩選變數的問題就成為一個很重要的事情,凡具有篩選變數能力的判別分析方法就統稱為逐步判別法,
基本思想
??逐步判別法其基本思路類似于逐步回歸分析,按照變數是否重要逐步引入變數,每引入一個“最重要”的變數進入判別式,同時要考慮較早引入的變數是否由于其后的新變數的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個變數的組合所代替),應及時從判別式中把它剔除,直到判別式中沒有不重要的變數需要剔除,剩下來的變數也沒有重要的變數可引入判別式時,逐步篩選結束,也就是說每步引入或剔除變數,都作相應的統計檢驗,使最后的判別函式僅保留“重要”的變數,
步驟
- 1.計算各總體中各變數的均值和總均值以及似然統計量,規定引入變數和剔除變數的臨界值F進、F出,
- 2.逐步計算,計算全部變數的判別能力,在已入選變數中考慮剔除可能存在的最不顯著變數,在未選入變數中選出最大判別能力的變數,對變數作F檢驗通過檢驗則接受,否則剔除變數,直到能剔除又不能增加新變數,逐步計算結束,
- 3.建立判別式,使用第2步中選入的變數,用Bayes判別法建立判別式,
- 4.對待判樣本進行判別分類,
例題及代碼分析
??例題還是參考上面的人文系數作為引數
??先注釋掉下面的代碼,運行一遍結果



- Pr>F:(該程式的顯著性水平是0.30)x3對應的概率為0.0004,原假設是該變數不重要,0.0004小于0.30,小概率事件發生,說明x3很重要;x1對應的概率為0.1516,原假設是該變數不重要,0.1516小于0.30,小概率事件發生,說明x1很重要;
- 顯著性水平越小(標準越高),留下的變數越小
- 作圖的時候留下step;number in;entered;F value;Pr>F這幾列
??之后將下面的注釋恢復,將上面的代碼注釋掉

??運行代碼:


??看一下新判別函式的誤判率


??兩類的誤判率均為0,說明判別能力很強
??評估待判別資料


因子分析
簡要介紹



- 需要先把 x i x_i xi?標準化
- ε i \varepsilon_i εi?是特殊因子(每個變數所擁有的別人沒有的東西)
- F m F_m Fm?每個變數所共有的東西(公因子),公因子之間彼此應該是線性無關的


一般步驟

例題

- 做綜合評價時,先把資料處理為同向化
結果分析


??要求因子累計貢獻率超過80%,結果表明要選取2個因子,即前兩個


??采用因子旋轉


- 第一公因子與school,services,house關系緊密
- 第二公因子與pop,employ關系緊密
- 猜測第一公因子為福利因子
- 猜測第二公因子為經濟因子


??得到兩個因子得分向量


??根據因子得分表:
- 10,1,4的福利因子較大,即福利水平高
- 12,10,11的經濟因子較大,即經濟水平高
??做綜合評價的方法:將最后兩列分別乘以相應的貢獻率(0.5747,0.3593),得出最終得分
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/255865.html
標籤:其他
下一篇:多租戶技術

