已知特征\(X=x_1\)的樣本呈現\(Y=y_1\)的特點,或者\(Y=y_1\)的樣本有\(X=x_1\)的特征,如何計算干預X對Y的影響
Eg. 看快手視頻喜歡評論的用戶活躍程度更高,那引導用戶去發表評論能讓他們更活躍么?
建模特征應該如何選擇,以及特征通過那些途徑最終影響Y
Eg. 個人并不喜歡有啥放啥的建模方式,既增加模型不穩定性還會增加特征解釋的難度,尤其在業務中我們跟多想知道的是不同特征影響Y的方式
如何解釋資料分析中有違常理或者自相矛盾的結論?為什么把資料分組和整體計算會得到不同的結果?
Eg. 藥物實驗結果表明對高血壓患者藥物無效,對低血壓患者藥物也無效,但合起來對全部患者藥物有效?
無法開展AB實驗的時候,我們如何從觀測資料中估計因果關系
Eg. 最常遇到這種問題的是社會學,醫學實驗,例如當兵經歷對收入的影響,吸煙是否會得肺癌,但這也提醒我們有些成本高的AB實驗其實是有可能從已有資料中找到近似答案的,
如果你在和資料打交道的程序中也碰到過以上的問題,那圖靈獎得主Judea Pearl的The Book of WHY可能會幫你打開新世界的大門,因果推理方面我也是新人,這里只是拋出一些觀點來和大家一起討論,下面列舉了因果推理和統計學本質的一些差異, 具體的理論我們在后面章節慢慢展開~
-
統計學解決的是P(Y|X),它更多是對觀測的刻畫,而因果推理旨在解決What-if問題,用Do-Caculus來表達就是P(Y|do(X)),既對X進行干預,對Y的影響,一個同事開玩笑說因果推理就像開啟上帝之眼
-
統計學認為資料是一切,而因果推理堅持資料產生的程序是解釋資料所必須的,想直觀感受差異的可以看下這個 Toy Example
-
統計完全客觀,而因果推理需要依賴基于經驗等因素給出因果圖(DAG)再進行分析計算,
作為序章最重要的是什么?吸引人眼球!所以本章通過5個資料分析中經典案例,看看當統計陷入兩難,因果推理是如何變身奧特曼來打小怪獸的!
以下案例只為直觀感受因果推理的現實意義,暫不考慮統計顯著,小樣本不置信等問題
Confounding Bias - Simpson Paradox
Confounding在資料分析中非常常見,既存在同時影響treatment和outcome的變數沒有被控制,它是統計分析要控制變數的根本原因之一,是AB實驗有效的背后邏輯,它也直接導致了\(P(Y|X) \neq p(Y|do(x))\),但往往Confounder的存在只有在分析結果嚴重不符合邏輯時才被人們想到,
離散Confounder - 案例1. 今天你吃藥了么?
以下是一次觀測性醫學實驗的結果,分別給出男性和女性在服/不服用藥物后心臟病發作的概率,有趣的是這種藥物既不能顯著降低女性病發概率,也不能顯著降低男性病發概率,但卻能降低整體的病發概率,你是分析師請問這種藥物有用么?

答案是NO,這種藥物無效
這就是著名的Simpson Paradox,用上面的因果圖(DAG)分析結論會變得顯而易見,這里treatment是服藥,outcome是心臟病發作的概率,而因為是觀測性實驗所以性別可能會成為confounder,注意這里我用的是可能,而驗證這種可能性就要看性別是否同時影響treatment和outcome,先看treatment,女性是對照組20,實驗組40,而男性是對照組40,實驗組20,因此性別顯著影響treatment的滲透率 -服藥人群比例,再看outcome,同在對照組女性病發率是5%而男性是30%,因此性別同時影響outcome-病發概率,
因此衡量treatment(服藥)對outcome(心臟病發作)的影響,我們需要控制confounder,這樣總體的發病率計算如下:
\[P(treatment|outcome) = P(treatment|outcome, 男) * P(男) + P(treatment|outcome, 女) * P(女) \]對照組的整體效果變為 0.5 * 5% + 0.5 * 40% = 17.5%
實驗組的整體效果變為 0.5 * 7.5% + 0.5 * 40% = 23.75%
這樣整體就和男女分別的結論一致,服藥并不能降低心臟病發概率,
連續Confounder - 案例2.運動導致高膽固醇?
在上面的例子中confounder是個離散變數男女,下面我們舉個連續confounder的例子,研究目標是每周運動時間對膽固醇水平的影響,‘影響’在統計學中多數只能依賴于相關關系,于是我們畫個散點圖吧,
嗯?!運動時間越長,膽固醇水平越高!You What?! 這簡直是厭惡運動,堅持生命在于靜止的最好理由,
下一次根據統計結果給出結論時,無論結果和你的預期 [直覺|第六感|推理|經驗] 多么一致,都記得多想一步喲,看看自己是否遺漏了可能的confounder呢?
Mediation Bias
Mediation Bias最常發生在控制了不該控制的變數而導致影響被人為削弱,在傳統統計學中,因為沒有引入因果推理,本著控制一切能控制的變數來做分析的原則,往往會在不經意間踩進Mediation的深坑,同時Mediation Analysis也是AB實驗后續分析中有很高實用價值的一個方向,有機會咱在AB實驗高端玩法系列中好好聊聊,
變數控制并非越多越好 - 案例3. 今天你又吃藥了嗎?
還記得上面心臟病藥物實驗么?當時我們給出的結論是應該分男女分別計算實驗效果,因為性別是藥物效果的Confounder,這里讓我們把性別因素換成患者血壓,并以此告訴大家分組計算并不是永遠正確的,
資料和案例1一樣,只不過這里的分組變數變成了患者血壓,
這里加入新的假設,已知高血壓是導致心臟病發作的原因之一,且該藥物理論上有降血壓的效果,因此醫生想要檢驗該藥物對防治心臟病的效果,

因為是觀測性實驗,如果從傳統分析的角度,我們似乎應該控制一切能控制的變數,保證人群一致,但根據假設,結合資料我們能發現服藥患者中高血壓占比顯著下降,這時降血壓成為藥物降低心臟病發作的一個Mediator,也就是部分藥物效果通過降低血壓來降低心臟病發概率,因果圖如下
這種情況下如果我們按血壓對患者分組,相當于Condition on Mediator,人為剔除了藥物通過控制血壓保護心臟的效果,會造成藥物影響被人為低估,因此應該合并計算,藥物對控制心臟病是有效的,
在分析觀測資料時,并非一切變數都應該被控制, 一切處于treatment和outcome因果路徑上的變數都不應該被控制,這里直接計算整體效果是合理的
Collidar Bias - BERKSON PARADOX
Collidar 最直觀的影響是偽相關關系, 往往發生在對區域樣本進行分析時,因為忽略了樣本本身的特點從而得到一些非常奇葩的相關關系,
負‘相關’- 案例4. 孕媽媽應該吸煙?!
1959年的一項關于新生兒的研究中出現了有趣的資料:
- 已有研究表明孕媽媽吸煙會造成新生兒平均體重偏低
- 已有研究表明體重過輕(<5.5磅)的新生兒存活率顯著偏低
- 該實驗資料發現在體重過輕(<5.5磅)的新生兒中,媽媽吸煙的寶寶存活率顯著高于媽媽不吸煙的寶寶
這是正正得負的節奏,,,>_<
還記得上面我們說Collidar Bias最容易在分析區域樣本時發生,而這里體重過輕的新生兒明顯就是區域樣本,讓我們畫一個最簡單的因果圖答案就很明顯了,
通過只觀察體重過輕的新生兒存活率,我們一腳踩進了Collidar='出生體重過輕'這個陷阱,因為Condition on Collidar,從而讓兩個本來無關的原因出現了負向關系,簡單講,就是新生兒缺陷和媽媽吸煙都有可能導致新生兒體重過輕,兩個因素此消彼長,當已知媽媽吸煙的時候,新生兒缺陷的概率會下降,而天生缺陷導致的體重過輕對嬰兒存活率的影響更大是一個合理推斷,因此孕媽媽吸煙反而會導致存活率上升,
上面的DAG并不完整,比如媽媽吸煙也有可能直接引起新生兒缺陷等等,但至少Collidar的存在在這里是很有說服力的
正‘相關’- 案例5. 呼吸道疾病和骨科疾病有關系?
因為Collidar而產生偽關聯的變數往往是負相關的,就像上面的例子,也稱explain-away effect,簡單理解就是A,B都導致Collidar,那控制Collidar,A多了B就少了,但下面這個例子卻是Collidar產生偽正向關系,

觀察資料不難發現,對普通百姓而言患呼吸道疾病和骨科疾病沒啥關系,但如果只看住院患者,患呼吸道疾病的患者同時患骨科疾病的概率會顯著提升3倍以上!
這個案例的DAG很好畫,但是為什么這里不是負效應而是正效應呢?一種解釋是單獨呼吸疾病,或者骨科疾病直接導致住院的概率都很小,因此這里對于Collidar=‘住院’,兩種疾病形成互補效應而非替代效應,既同時患有兩種疾病的患者住院概率更高,因此只看住院患者就產生了偽正向關系,
上述DAG并不是唯一的可能,也有可能是患者的其他疾病導致住院的同時,導致患呼吸道和骨科疾病的概率上升,Anyway只看到以上資料是無法給出結論的,因此在分析區域樣本的時候請格外小心
序章的案例就分享這么多,開始懷疑人生了有沒有?!
Ref
- https://towardsdatascience.com/why-every-data-scientist-shall-read-the-book-of-why-by-judea-pearl-e2dad84b3f9d
- Judea Pearl, The Book of Why, the new science of casue and effect
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/187362.html
標籤:其他
上一篇:win10+Ubuntu16.04雙系統下深度學習環境的搭建
下一篇:目標跟蹤文章閱讀
