一、術語

1.1 總體和樣本，引數和統計量

總體（population）：
樣本：總體的子集
引數（parameter）：總體資料計算的值，適用于總體
統計量（statistic）：樣本資料計算的值
描述統計（descriptive）：描述收集資料樣本或總體的資訊
推斷統計（inferential）：假定收集的樣本能夠代表更大的總體，利用樣本資料得到總體特征的一些結論，
注意：總體可大可小，要看你想研究什么物件；樣本不一定能代表總體，假如不能代表總體，此時得到的樣本統計量只能用于描述統計，而不能推斷總體引數，

1.2抽樣

隨機抽樣（random sampling）：每一個樣本被選中的概率相等，
典型抽樣（representative sampling）：人為的有意選取樣本某些特征和總體相匹配，如總體中男女比例7:3，樣本選取是男女比例也是7:3，
方便抽樣（convenience sampling）：根據地理位置、接觸難度、參與意愿來選擇樣本，

1.3變數型別和測量尺度

（1）變數型別

定量/連續（continuous）變數：身高
定性/分類（categorical）變數：男女（二值變數dichotomous variable）
（2）測量尺度
定類尺度：又叫分類資料，特點是不可排序不可運算，比如，國籍，不能說中國大于美國，只能對面人口、面積，又比如男女
定序尺度：特點是可以排序但不可以運算，比如，健康狀況（優良中差），優比良好，但是優‘’減‘’不了良
定矩尺度：0點有意義，比如年份1987，零點可以是公元0年，耶穌出生那年，當然0點可以隨意定義，假如你統治了時間，你可以把0點定為你出生那年，只要有意義即可，
定比尺度：0點無意義，比如體重56公斤，0公斤沒有意義，

后兩種資料統稱為數值資料，可以排序可以運算，

1.4研究設計

實驗組設計：將樣本分成不同組，然后對感興趣的一個或多個變數進行組間比較，如：AB test
相關性研究設計：收集若干變數資料，進行統計分析以確定不同變數之間彼此相關的強度，

實驗性設計變數因素可控、可分離，但也很難排除所有的干擾因素，相關性研究設計易于實施，但無法施加精準控制，相關性研究只能提供變數間是否相關的資訊（統計理論資訊），不能得出實際的因果關系結論（實際業務資訊），

二、分布的集中趨勢和分散變異

2.1集中趨勢

??集中趨勢：又稱“資料的中心位置”、“集中量數”，一組資料的代表值，是用來描述輿論現象的重要統計分析指標，
（1）均值（算術平均數）mean
??描述平均水平，理論計算方式：

Outliers（例外值、極端值）：資料集中會包含一個或多個數值例外大或例外小的值，例外值檢查方法——（四分位計演算法），
資料偏斜（skewed data）現象：when the outliers “pull” the data to the left or right，
Mean最大的缺陷——受outliers影響較大，所以mean最適用的情況為：
The data is symmetric（均勻的）
With the one trend（趨勢）均值回歸
（2）中位數
??定義：將資料按大小順序（從大到小或是從小到大都可以）排列后處于中間位置的數，
理論計算方式——從小到大排序，分為兩種情況：

n=odd number（奇數）,median position=(n+1)/2
n=even number（偶數）,median positon=n/2 or n/2+1,so median=two median number/2

最適用的情況：the data is skewed by outliers.因為中位數不受outliers影響，只跟序列的位置有關，
（3）四分位數quartile
??定義：把所有數值由小到大排列并分成四等份，處于三個分割點位置的數值，
下四分位數：Q1，從小到大的順序排序排在第25%位置的數字，
上四分位數：Q3，在第75%位置的數字
四分位距interquartile range：IQR，等于Q3-Q1，衡量資料離散程度的一個統計量
Quartile作用——檢查例外值tukey test：
最小值估計=Q1-KIRQ
最大值估計=Q3+KIRQ
其中，K=1.5（中度例外）/3（極度例外）
理論計算方式：

方式一，基于n基礎
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
方式二，基于n-1基礎
Q1的位置=1+（n-1）x 0.25
Q2的位置=1+（n-1）x 0.5
Q3的位置=1+（n-1）x 0.75
如果算出來是小數，取下一個最近的整數，

（4）眾數mode——定類資料

資料中出現次數最多的數（所占比例最大的數），可能會存在多個眾數(多峰)，也可能不存在眾數，
適用的情況：不僅適用于數值型資料，對于非數值型資料也同樣適用，
（5）mean、median、mode三者比較
Mean>median：資料向右偏，右端可能存在極大值
Mean<median：資料向左偏，左端可能存在極小值
（6）例外值檢查方法
例外值檢查方法

2.2 離散程度和相關性

??對于離散程度的程度衡量，可以只針對單一變數自身離散程度，如極差、方差、標準差、變異系數等；也可以針對多變數的離散程度之間的相關性，如協方差、相關系數、皮爾森系數，

極差：max()-min()
四分位差：75%-25%
方差：點到均值的平方和的平均，單位：原單位的平方
標準差：方差開方，單位：和原單位相同
變異系數（coefficient of variation）：

??變異系數CV，又稱“離散系數”（英文：coefficient of variation），是概率分布離散程度的一個歸一化量度，其定義為標準差與平均值之比，單位：無量綱，
-** 協方差：**

??假若有兩個變數X,Y，每個時刻的“X值與其均值只差”乘以“Y值與其均值之差”得到一個乘積，再對這每時刻的乘積求和并求出均值，
??反映兩個變數在變化程序中，是同向變化還是反向變化，同向或反向的程度如何：

你變大，我也變大，說明兩變數是同向變化，協方差為正；
你變大，同時我變小，說明兩變數是反向變化，協方差為負；
協方引數值越大，兩變數同向程度也越大，反之亦然，

相關系數：

??用X、Y的協方差除以X的標準差和Y的標準差，相關系數也可以看成協方差：一種剔除了兩個變數量綱影響、標準化后的特殊協方差，
??也可以反映兩個變數變化時是同向還是反向，如果同向變化就為正，反向變化就為負；
??由于它是標準化后的協方差，因此更重要的特性來了：它消除了兩個變數變化幅度的影響，而只是單純反應兩個變數每單位變化時的相似程度，
皮爾森系數（pearson）：

參考網站：
協方差和相關系數史詩級白話介紹：協方差和相關系數

三、分布

3.1 累計函式和概率密度函式

參考網站：累計函式和概率密度函式
①離散型資料
概率函式（概率分布、分布律）：離散隨機變數X取不同的值，對應不同的概率值，
概率分布函式（累計概率函式）F(x)：概率函式取值的累加結果，

②連續型資料
概率密度函式（連續型資料概率函式）f(x)：連續型資料，某點的概率為0，只能用某點資料密集程度表示概率分布情況，

??左邊是F(x)連續型隨機變數分布函式畫出的圖形，右邊是f(x)連續型隨機變數的概率密度函式畫出的影像，它們之間的關系就是，概率密度函式是分布函式的導函式，

3.4 正態分布（Normal Distribution）

（1）正態分布描述現象

??普通分布，描述某些穩定但又受到一些偶然因素影響的現象，

（2）正態分布概率密度函式

（3）正態分布密度函式數學意義

f(x)永遠大于0，左右對稱，當x=μ，即等于均數時，概率密度函式達到最大值；
x離均數越遠，f(x)值越小，距離無限遠時，趨于0；
標準差σ越大，f(x)值越小，分布形狀越“矮”，峰度平坦；反之，越’瘦高‘，

??正態分布由兩個引數決定：均數和標準差，均數是位置引數，決定分布集中的位置；標準差是形狀引數，決定分布的分散程度，

（4）正態分布統計規律

1倍標準差面積：68.2%
1.96倍標準差：95%
2倍標準差：95.4%
3倍標準差：99.7%，1000大概會有3次錯誤發生的概率，
6倍標準差：之外的面積為百萬分之2，100萬份樣品出現2次錯誤，

（5）小概率事件（P<0.05）

??P<0.05，認為差異有統計學意義，對于正態分布來說，兩側面積小于5%，即均數往左往右各1.96倍標準差時，對應的左側和右側面積之和就是5%，這個概率很低，一般情況不會發生，認為是小概率事件，

（6）標準正態分布（Standarized Normal Distribution）——μ=0，σ=1

3.5 幾個常見分布：t分布、x2分布，F分布

??T檢驗對應t分布，x2檢驗對應x2分布，方差分析對應F分布，

（1）T分布

（2）x2分布

（3）F分布

四、資料資料分類

五、描述統計

六、中心極限定理和大數定理

七、假設檢驗

7.2 零假設和備擇假設

零假設（無效假設Null Hypothesis）：一般從正面做出假設（不具備XXX，沒有XXX等），

八、引數估計

九、置信區間

十、統計方法串講

10.1 一般線性模型（General Linear Model）——方差分析與線性回歸統計

①t檢驗、方差分析、線性回歸用途

t檢驗——兩組均值比較
方差分析——多組均值比較
線性回歸——自變數對因變數的影響分析
②一般線性模型
t檢驗、方差分析、線性回歸等都屬于一般線性模型，一般線性模型基本形式：

??y：因變數（反應變數、結局變數），x：自變數（解釋變數、預測變數），β0表示截距，反映自變數x=0時，y的均值，β1、β2表示斜率，反映自變數增加1單位，y值變動的大小，
??一般線性模型中，因變數必須是定量的（連續），自變數可以是定量或分類，自變數的不同形式對應不同的統計方法：

十一、正態性和方差齊性

①做正態性檢驗必要性
??保證樣本資料的隨機性，因為亂數就是正態分布的，
②正態性和方差齊性含義
??正態性和方差性是經典統計模型應用的兩個前提條件，t檢驗、方差分析、線性回歸等都需要滿足這兩個條件：

正態性（Normality）：嚴格上說是殘差要符合正態分布，不過實際中都是對因變數進行正態性檢驗，
方差齊性（Equality of Variances）：即方差相等，自變數x每取一個值，因變數（嚴格說是殘差）的方差基本相等，

11.1 用統計檢驗方法判斷正態性

（1）基于峰度和偏度的SW（Shapiro-Wilk）檢驗

①峰度和偏度

峰度（Kurtosis）：分布形狀是平坦還是尖峰，上下維度，
偏度（Skewness）：分布形狀是否對稱，左右維度，
②正態分布的峰度和偏度
??正態分布的峰度和偏度均為0，峰度>0，尖峰；峰度<0，平坦峰，偏度>0，右偏態（正偏）；偏度<0，左偏態（負偏），

（2）基于擬合優度KS、CVM、AD檢驗

KS（Kolmogorov-Smirnov）、CVM（Cramer-von Mises）、AD（Anderson-Darling）
①擬合優度思想
??基于理論分布與基于實際資料得到的分布之間的差異，這種思想不僅可以用于正態分布，還可以用于其他分布檢驗，
②正態分布擬合優度檢驗思路
??先求出正態分布的累積分布函式（CDF，Cumulative Distribution Function）——>樣本資料與該函式差別——>差別不大，接近正態分布——>差別較大，樣本資料可能不服從正態分布，
③三種方法對“差別”的定義
三種檢驗都基于此思想，區別在于對“差別”定義：

KS：取絕對值
CVM：取平方
AD：對CVM的改進

④參考網站
KS：KS
python正態檢驗方法：python正態檢驗方法

11.2 用描述的方法判斷正態性——圖形判斷

（1）Q-Q圖和P-P圖

①Q-Q圖含義和檢驗原理
??Q-Q（Quantile-Quantile），分位數-分位數圖，橫坐標，理論正態分位數，縱坐標，實際資料分位數，
??比較分位數和實際分位數差別，無差別，點集中在一條直線，正態分布，有差別，偏離直線較遠，
②P-P圖
??P-P（Probability-Probability），和Q-Q類似，用的是累計概率，

（2）莖葉圖

（3）用四分位數間距和標準差進行簡易判斷

??正態分布四分位間距（IQR）和標準差（s)之比大約為1.34，若IQR/s=1.34左右，基本滿足正態分布，

11.3 方差分析中方差齊性判斷

①方差齊性判斷
??就是判斷兩組或多組的方差是否相等，樣本抽樣是不是隨機的，方差不等會嚴重影響方差分析的F檢驗，
②各種檢驗方法
...................................

十二、T檢驗

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/285701.html

標籤：其他

上一篇：南京大學2021年春季學期《微分幾何》期中考試

下一篇：《大型網站技術架構核心原理與案例分析》讀書筆記（一）

《白話統計&&白話統計學》——讀書筆記