一、術語
1.1 總體和樣本,引數和統計量
- 總體(population):
- 樣本:總體的子集
- 引數(parameter):總體資料計算的值,適用于總體
- 統計量(statistic):樣本資料計算的值
- 描述統計(descriptive):描述收集資料樣本或總體的資訊
- 推斷統計(inferential):假定收集的樣本能夠代表更大的總體,利用樣本資料得到總體特征的一些結論,
注意:總體可大可小,要看你想研究什么物件;樣本不一定能代表總體,假如不能代表總體,此時得到的樣本統計量只能用于描述統計,而不能推斷總體引數,
1.2抽樣
- 隨機抽樣(random sampling):每一個樣本被選中的概率相等,
- 典型抽樣(representative sampling):人為的有意選取樣本某些特征和總體相匹配,如總體中男女比例7:3,樣本選取是男女比例也是7:3,
- 方便抽樣(convenience sampling):根據地理位置、接觸難度、參與意愿來選擇樣本,
1.3變數型別和測量尺度
(1)變數型別
- 定量/連續(continuous)變數:身高
- 定性/分類(categorical)變數:男女(二值變數dichotomous variable)
(2)測量尺度 - 定類尺度:又叫分類資料,特點是不可排序不可運算,比如,國籍,不能說中國大于美國,只能對面人口、面積,又比如男女
- 定序尺度:特點是可以排序但不可以運算,比如,健康狀況(優良中差),優比良好,但是優‘’減‘’不了良
- 定矩尺度:0點有意義,比如年份1987,零點可以是公元0年,耶穌出生那年,當然0點可以隨意定義,假如你統治了時間,你可以把0點定為你出生那年,只要有意義即可,
- 定比尺度:0點無意義,比如體重56公斤,0公斤沒有意義,
后兩種資料統稱為數值資料,可以排序可以運算,
1.4研究設計
- 實驗組設計:將樣本分成不同組,然后對感興趣的一個或多個變數進行組間比較,如:AB test
- 相關性研究設計:收集若干變數資料,進行統計分析以確定不同變數之間彼此相關的強度,
實驗性設計變數因素可控、可分離,但也很難排除所有的干擾因素,相關性研究設計易于實施,但無法施加精準控制,相關性研究只能提供變數間是否相關的資訊(統計理論資訊),不能得出實際的因果關系結論(實際業務資訊),
二、分布的集中趨勢和分散變異
2.1集中趨勢
??集中趨勢:又稱“資料的中心位置”、“集中量數”,一組資料的代表值,是用來描述輿論現象的重要統計分析指標,
(1) 均值(算術平均數)mean
??描述平均水平,理論計算方式:

- Outliers(例外值、極端值):資料集中會包含一個或多個數值例外大或例外小的值,例外值檢查方法——(四分位計演算法),
- 資料偏斜(skewed data)現象:when the outliers “pull” the data to the left or right,
- Mean最大的缺陷——受outliers影響較大,所以mean最適用的情況為:
The data is symmetric(均勻的)
With the one trend(趨勢)均值回歸
(2)中位數
??定義:將資料按大小順序(從大到小或是從小到大都可以)排列后處于中間位置的數, - 理論計算方式——從小到大排序,分為兩種情況:
- n=odd number(奇數),median position=(n+1)/2
- n=even number(偶數),median positon=n/2 or n/2+1,so median=two median number/2
- 最適用的情況:the data is skewed by outliers.因為中位數不受outliers影響,只跟序列的位置有關,
(3)四分位數quartile
??定義:把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值, - 下四分位數:Q1,從小到大的順序排序排在第25%位置的數字,
- 上四分位數:Q3,在第75%位置的數字
- 四分位距interquartile range:IQR,等于Q3-Q1,衡量資料離散程度的一個統計量
- Quartile作用——檢查例外值tukey test:
最小值估計=Q1-KIRQ
最大值估計=Q3+KIRQ
其中,K=1.5(中度例外)/3(極度例外) - 理論計算方式:
- 方式一,基于n基礎
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75 - 方式二,基于n-1基礎
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
如果算出來是小數,取下一個最近的整數,
(4)眾數mode——定類資料
- 資料中出現次數最多的數(所占比例最大的數),可能會存在多個眾數(多峰),也可能不存在眾數,
- 適用的情況:不僅適用于數值型資料,對于非數值型資料也同樣適用,
(5)mean、median、mode三者比較


- Mean>median:資料向右偏,右端可能存在極大值
- Mean<median:資料向左偏,左端可能存在極小值
(6) 例外值檢查方法
例外值檢查方法
2.2 離散程度和相關性
??對于離散程度的程度衡量,可以只針對單一變數自身離散程度,如極差、方差、標準差、變異系數等;也可以針對多變數的離散程度之間的相關性,如協方差、相關系數、皮爾森系數,
- 極差:max()-min()
- 四分位差:75%-25%
- 方差:點到均值的平方和的平均,單位:原單位的平方
- 標準差:方差開方,單位:和原單位相同

- 變異系數(coefficient of variation):

??變異系數CV,又稱“離散系數”(英文:coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為標準差與平均值之比,單位:無量綱,
-** 協方差:**

??假若有兩個變數X,Y,每個時刻的“X值與其均值只差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和并求出均值,
??反映兩個變數在變化程序中,是同向變化還是反向變化,同向或反向的程度如何:
- 你變大,我也變大,說明兩變數是同向變化,協方差為正;
- 你變大,同時我變小,說明兩變數是反向變化,協方差為負;
- 協方引數值越大,兩變數同向程度也越大,反之亦然,
- 相關系數:

??用X、Y的協方差除以X的標準差和Y的標準差,相關系數也可以看成協方差:一種剔除了兩個變數量綱影響、標準化后的特殊協方差,
??也可以反映兩個變數變化時是同向還是反向,如果同向變化就為正,反向變化就為負;
??由于它是標準化后的協方差,因此更重要的特性來了:它消除了兩個變數變化幅度的影響,而只是單純反應兩個變數每單位變化時的相似程度, - 皮爾森系數(pearson):
參考網站:
協方差和相關系數史詩級白話介紹:協方差和相關系數
三、分布
3.1 累計函式和概率密度函式
參考網站:累計函式和概率密度函式
①離散型資料
概率函式(概率分布、分布律):離散隨機變數X取不同的值,對應不同的概率值,
概率分布函式(累計概率函式)F(x):概率函式取值的累加結果,

②連續型資料
概率密度函式(連續型資料概率函式)f(x):連續型資料,某點的概率為0,只能用某點資料密集程度表示概率分布情況,

??左邊是F(x)連續型隨機變數分布函式畫出的圖形,右邊是f(x)連續型隨機變數的概率密度函式畫出的影像,它們之間的關系就是,概率密度函式是分布函式的導函式,
3.4 正態分布(Normal Distribution)
(1)正態分布描述現象
??普通分布,描述某些穩定但又受到一些偶然因素影響的現象,
(2)正態分布概率密度函式
(3)正態分布密度函式數學意義
- f(x)永遠大于0,左右對稱,當x=μ,即等于均數時,概率密度函式達到最大值;
- x離均數越遠,f(x)值越小,距離無限遠時,趨于0;
- 標準差σ越大,f(x)值越小,分布形狀越“矮”,峰度平坦;反之,越’瘦高‘,
??正態分布由兩個引數決定:均數和標準差,均數是位置引數,決定分布集中的位置;標準差是形狀引數,決定分布的分散程度,
(4)正態分布統計規律
- 1倍標準差面積:68.2%
- 1.96倍標準差:95%
- 2倍標準差:95.4%
- 3倍標準差:99.7%,1000大概會有3次錯誤發生的概率,
- 6倍標準差:之外的面積為百萬分之2,100萬份樣品出現2次錯誤,
(5)小概率事件(P<0.05)
??P<0.05,認為差異有統計學意義,對于正態分布來說,兩側面積小于5%,即均數往左往右各1.96倍標準差時,對應的左側和右側面積之和就是5%,這個概率很低,一般情況不會發生,認為是小概率事件,
(6)標準正態分布(Standarized Normal Distribution)——μ=0,σ=1
3.5 幾個常見分布:t分布、x2分布,F分布
??T檢驗對應t分布,x2檢驗對應x2分布,方差分析對應F分布,
(1)T分布
(2)x2分布
(3)F分布
四、資料資料分類
五、描述統計
六、中心極限定理和大數定理
七、假設檢驗
7.2 零假設和備擇假設
零假設(無效假設Null Hypothesis):一般從正面做出假設(不具備XXX,沒有XXX等),
八、引數估計
九、置信區間
十、統計方法串講
10.1 一般線性模型(General Linear Model)——方差分析與線性回歸統計
①t檢驗、方差分析、線性回歸用途
- t檢驗——兩組均值比較
- 方差分析——多組均值比較
- 線性回歸——自變數對因變數的影響分析
②一般線性模型
t檢驗、方差分析、線性回歸等都屬于一般線性模型,一般線性模型基本形式:

??y:因變數(反應變數、結局變數),x:自變數(解釋變數、預測變數),β0表示截距,反映自變數x=0時,y的均值,β1、β2表示斜率,反映自變數增加1單位,y值變動的大小,
??一般線性模型中,因變數必須是定量的(連續),自變數可以是定量或分類,自變數的不同形式對應不同的統計方法:

十一、正態性和方差齊性
①做正態性檢驗必要性
??保證樣本資料的隨機性,因為亂數就是正態分布的,
②正態性和方差齊性含義
??正態性和方差性是經典統計模型應用的兩個前提條件,t檢驗、方差分析、線性回歸等都需要滿足這兩個條件:
- 正態性(Normality):嚴格上說是殘差要符合正態分布,不過實際中都是對因變數進行正態性檢驗,
- 方差齊性(Equality of Variances):即方差相等,自變數x每取一個值,因變數(嚴格說是殘差)的方差基本相等,
11.1 用統計檢驗方法判斷正態性
(1)基于峰度和偏度的SW(Shapiro-Wilk)檢驗
①峰度和偏度
- 峰度(Kurtosis):分布形狀是平坦還是尖峰,上下維度,
- 偏度(Skewness):分布形狀是否對稱,左右維度,
②正態分布的峰度和偏度
??正態分布的峰度和偏度均為0,峰度>0,尖峰;峰度<0,平坦峰,偏度>0,右偏態(正偏);偏度<0,左偏態(負偏),
(2)基于擬合優度KS、CVM、AD檢驗
KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①擬合優度思想
??基于理論分布與基于實際資料得到的分布之間的差異,這種思想不僅可以用于正態分布,還可以用于其他分布檢驗,
②正態分布擬合優度檢驗思路
??先求出正態分布的累積分布函式(CDF,Cumulative Distribution Function)——>樣本資料與該函式差別——>差別不大,接近正態分布——>差別較大,樣本資料可能不服從正態分布,
③三種方法對“差別”的定義
三種檢驗都基于此思想,區別在于對“差別”定義:
- KS:取絕對值
- CVM:取平方
- AD:對CVM的改進
④參考網站
KS:KS
python正態檢驗方法:python正態檢驗方法
11.2 用描述的方法判斷正態性——圖形判斷
(1)Q-Q圖和P-P圖
①Q-Q圖含義和檢驗原理
??Q-Q(Quantile-Quantile),分位數-分位數圖,橫坐標,理論正態分位數,縱坐標,實際資料分位數,
??比較分位數和實際分位數差別,無差別,點集中在一條直線,正態分布,有差別,偏離直線較遠,
②P-P圖
??P-P(Probability-Probability),和Q-Q類似,用的是累計概率,
(2)莖葉圖
(3)用四分位數間距和標準差進行簡易判斷
??正態分布四分位間距(IQR)和標準差(s)之比大約為1.34,若IQR/s=1.34左右,基本滿足正態分布,
11.3 方差分析中方差齊性判斷
①方差齊性判斷
??就是判斷兩組或多組的方差是否相等,樣本抽樣是不是隨機的,方差不等會嚴重影響方差分析的F檢驗,
②各種檢驗方法
...................................
十二、T檢驗
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/285701.html
標籤:其他
