《因果科學周刊》第5期：OOD 泛化-有解無憂

為了幫助大家更好地了解因果科學的最新科研進展和資訊，我們因果科學社區團隊本周整理了第5期《因果科學周刊》，推送近期因果科學值得關注的論文和資訊資訊，本期的主題是”OOD 泛化“，另外在“近期社區活動”專欄，我們將介紹清華副教授崔鵬在 NeurIPS 2020中國預講會上，所作主題報告「穩定學習：發掘因果推理和機器學習的共同基礎」中的精彩觀點，

本期作者：閆和東許雄銳陳天豪楊二茶龔鶴揚張天健 方文毅郭若城

1. OOD 泛化簡介

Out-of-distribution(OOD) 泛化是一種 Systemactic 泛化，很多人對 OOD 問題的關注是從 Bengio 開始的，傳統上一些做法是認為OOD=Novelty Detection=Outlier Detection，但是本文完全不討論 OOD detection 相關內容.

圖1：Bengio 目前第一的研究興趣

Bengio 表示傳統機器學習一半是基于獨立同分布(IID)的資料分布假設，但實際現狀是很多真實場景下我們感興趣的資料往往是出現次數非常少的資料，也就是我們在處理時需要關注更多的是 OOD，也就是在資料中出現較少的分布，這需要我們在機器學習演算法中有新的資料假設，尤其是從 Agent 的角度來考慮，考慮哪些是影響資料分布變化的因素，以及不同分布的可組合性等很重要，

圖2：從 IID 到 OOD (Bengio)

元學習（學習學習的模型）是可能實作機器學習到 OOD 和模型快速遷移的一個辦法，說到 OOD，究其原因是有行為的變化，或者是用戶行為對于資料的干預，元學習的知識表示，e.g. 變數之間的因果結構，可以有效幫助 OOD 泛化，這里的挑戰是如何學習到未知干預變數的因果知識，

作為因果結合機器學習的一個具體方向，下面是我們邀請亞利桑那州立大學在讀博士郭若城推薦的6 篇 Causal + OOD 論文：

Peters, Jonas, Peter Bühlmann, and Nicolai Meinshausen. "Causal inference using invariant prediction: identification and confidence intervals." arXiv preprint arXiv:1501.01332 (2015).
Rothenh?usler, Dominik, Nicolai Meinshausen, Peter Bühlmann, and Jonas Peters. "Anchor regression: heterogeneous data meets causality." arXiv preprint arXiv:1801.06229 (2018).
Rojas-Carulla, Mateo, Bernhard Sch?lkopf, Richard Turner, and Jonas Peters. "Invariant models for causal transfer learning." The Journal of Machine Learning Research 19, no. 1 (2018): 1309-1342.
Arjovsky, Martin, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. "Invariant risk minimization." arXiv preprint arXiv:1907.02893 (2019).
Krueger, David, Ethan Caballero, Joern-Henrik Jacobsen, Amy Zhang, Jonathan Binas, Remi Le Priol, and Aaron Courville. "Out-of-distribution generalization via risk extrapolation (rex)." arXiv preprint arXiv:2003.00688 (2020).
Ahuja, Kartik, Karthikeyan Shanmugam, Kush Varshney, and Amit Dhurandhar. "Invariant risk minimization games." ICML 2020.

2. 崔鵬談 OOD

崔鵬是清華大學計算機科學與技術系副教授，主要研究方向是 Stable learning, OOD generalization, fairness, counterfactual prediction. 我們在研讀和翻譯了如上所述的論文之后，特別邀請崔鵬老師談了他的觀感，具體如下：

1）Bengio 選擇嘗試用因果來解決 OOD 問題，獲得 Systematic 泛化能力，崔鵬老師團隊的 Stable learning/prediction 就是 Causal + OOD 的一系列具體作業，

2）崔鵬老師強調了 OOD 問題不應該假定 Testing distribution，所以嚴格意義上上面的文章3可能不是 OOD 范疇，

3）前兩篇文章是融入了因果圖的資訊來解決 OOD 問題，而后三篇是純基于 representation learning 的，Stable learning是兼顧 Causal implication 和 Learning 框架，是這兩種思路的融合，

4) 支持 OOD 研究的資料集對初學者很重要，崔鵬老師其實是在推薦他們近期的作業 NICO 資料集給關注 OOD 問題的研究者，該資料集合已經在上一期內容中介紹，

關于 Stable Larning 的論文，請查看我們的周刊：《因果科學周刊》第三期：因果助力 Stable Learning

接下來，是我們對 6 篇 Causal + OOD 論文的摘要翻譯，包括因果社區龔鶴揚所進行的評論解讀，

3. 論文翻譯和解讀

3.1 Methods with causal graphs

這部分的論文在某種意義上假定因果結構已知，

Peters, Jonas, Peter Bühlmann, and Nicolai Meinshausen. "Causal inference using invariant prediction: identification and confidence intervals." arXiv preprint arXiv:1501.01332 (2015).

摘要翻譯：就預測來說，因果模型和非因果模型有什么區別呢？假設我們干預預測變數或更改整個環境，因果模型的預測將在一般情況下以及在觀測資料的干預下起作用，相反，如果我們積極干預變數，則非因果模型的預測可能會非常錯誤，在這里，我們提出利用在因果模型下預測的這種不變性進行因果推斷：在不同的實驗設定（例如各種干預措施）下，我們匯集所有在設定和干預措施中確實顯示出預測準確度不變性的模型，因果模型將以較高的概率成為這些模型的一個，這種方法在相當普遍的情況下為因果關系產生有效的置信區間，我們將更詳細地研究結構方程模型的例子，并提供充分的假設，在這些假設下可以使因果預測變數集可識別，我們將進一步研究模型誤定情況下我們方法的魯棒性，并討論可能的擴展，我們研究了各種資料集的經驗性質，包括大規模的基因擾動實驗，

譯者：閆和東

龔鶴揚解讀：

如果我們干預一些變數或者改變整個環境，因果模型的預測效果將會依然很好，而非因果模型則不一定，
本文探索的是模型 prediction invariance 性質，而因果模型則很可能就是擁有 prediction invariance 性質，
主要貢獻是新方法，新概念，新理論，

Rothenh?usler, Dominik, Nicolai Meinshausen, Peter Bühlmann, and Jonas Peters. "Anchor regression: heterogeneous data meets causality." arXiv preprint arXiv:1801.06229 (2018).

翻譯摘要：我們考慮了在一個與訓練集分布不同的資料集中，如何從一組協變數預測一個因變數的問題，當在新的分布中有大量變數被干預所影響，或者雖然只有一部分變數被影響、但干擾非常強烈時，因果變數在預測準確率上是最優的，如果訓練集和測驗集的分布存在一個偏移，因果引數可能由于太保守而在上述任務中表現欠佳，這激發了錨回歸（anchor regression）方法的提出，這個方法通過一個對最小二乘損失的修正，利用外生變數來解決因果最小最大問題的一個松弛，我們證明了估計量（estimator）的預測性能有保障，具體來說是分布線性偏移下的預測具備分布魯棒性，甚至工具變數假設不再滿足的時候依然有效，我們發現如果錨回歸與最小二乘法提供的答案相同（錨穩定性），則在特定的分布變化下普通最小二乘法引數是穩定不變的，實證表明錨回歸能夠提高可重復性并避免分布變化的影響，

譯者：許雄銳

龔鶴揚解讀：

The anchor variable can either be used to encode heterogeneity “within” a data set or heterogeneity “between” data sets.

Rojas-Carulla, Mateo, Bernhard Sch?lkopf, Richard Turner, and Jonas Peters. "Invariant models for causal transfer learning." The Journal of Machine Learning Research 19, no. 1 (2018): 1309-1342.

摘要翻譯：遷移學習方法嘗試結合來自幾個相關任務或領域的知識以提高測驗集的性能，受因果方法的啟發，我們放寬通常的協變數偏移假設，并假設它適用于預測變數的子集：給定該預測變數子集下，目標變數的條件分布在所有任務中都是不變的，我們展示了這個假設是如何從因果關系領域的觀點中得到啟發的，我們聚焦于領域泛化問題(Domain Generalization)，在這個問題中沒有觀察到來自測驗任務的示例，我們證明了在對抗性環境下，使用該子集進行預測在域泛化中是最優的；我們進一步提供例子，其中任務充分多樣化，因此即使在平均水平上，估計器也優于池化的資料，我們還介紹了一種實用的方法，該方法允許對上述子集進行自動推理，并給出了相應的代碼，我們給出這種方法在合成資料集和基因缺失資料集的結果，

譯者：陳天豪

龔鶴揚解讀：

主要內容包括

問題的假定是給定某部分變數下結果的條件分布不變←covariate shift assump
我們用對抗學習能夠選擇出來正確的變數 with proof

3.2 Methods without causal graphs

這部分內容是基于表示學習的，

Arjovsky, Martin, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. "Invariant risk minimization." arXiv preprint arXiv:1907.02893 (2019).

摘要翻譯：我們介紹了一種在多種訓練資料分布下學習不變相關關系的學習范式，稱為不變風險最小化（IRM），為了實作這個目標，IRM可以學到一種資料表示，使得基于這種資料表示的最優分類器在不同的訓練資料分布下都有較好的表現，通過理論和實驗，我們展現了IRM學到的不變性是如何與資料生成機制的因果結構相聯系的，并且提高了OOD情況下的泛化能力，

譯者張天健注：

這里多種訓練資料分布是指，在每種環境下聯合分布會有不同，對于實驗者，每個資料點采自的相應環境是已知的，

龔鶴揚解讀：

基本思想 spurious correlations do not appear to be stable properties
文章的主要貢獻是: OOD 新范式 for multiple training envs.
- 影像像素點不會是因果變數，所以我們自動學習出來，
- 提出 IRM 原則：To learn invariances ..., find a representation such that .....，
IRM 的數學原理如下：

Krueger, David, Ethan Caballero, Joern-Henrik Jacobsen, Amy Zhang, Jonathan Binas, Remi Le Priol, and Aaron Courville. "Out-of-distribution generalization via risk extrapolation (rex)." arXiv preprint arXiv:2003.00688 (2020).

摘要翻譯：訓練分布之外資料集的泛化是當前機器學習面臨的挑戰，一個弱形式的分布外(OoD)泛化能力是指能成功地在多個觀測分部之間進行內插(Interpolate)，實作這一目標的方法之一是通過魯棒性優化，這意味著最小化在訓練分布的凸組合中最差的情況，然而，OoD 泛化的一種更強的形式是指在訓練時對觀察到的分布外進行外推的能力，為了追求強大的 Ood 泛化，我們引入風險外推(REx)，REx能被看做通過促進訓練風險之間的嚴格平等從而促進訓練風險線性組合的魯棒性，我們從概念上展示了這一原則如何允許外推，并且展示了REx在不同的 OoD 泛化任務上的有效性和實體擴展性，

譯者：方文毅

龔鶴揚解讀：

我們提出一個類似 IRM 的新原則 REx，用于解決 “Spurious” features are predictive in training, but not in a test time，例如手寫數字的顏色，
基本數學原理如下：

不同領域上的風險進行線性組合，并且允許組合系數為負值，通過這個實作了外推，并且優化這個組合中最差的情況，對于 Variance REx(V-REx)，使用方差進行正則化，從結果來說比 MM-REx 穩定一些，

Ahuja, Kartik, Karthikeyan Shanmugam, Kush Varshney, and Amit Dhurandhar. "Invariant risk minimization games." ICML 2020.

摘要翻譯：當環境中的測驗分布和訓練分布的差異是由虛假相關導致的，機器學習的標準風險最小化的范式就變得岌岌可危了，通過多環境的資料集訓練，同時尋找不變的那些預測指標，將模型專注于對結果有因果關系的特征，可達到減少虛假特征影響的目的，本研究提出不變風險最小化的概念，尋找納什均衡中差異環境下的組合博弈，研究者提出一種采用最優反映動態的簡單訓練演算法，實驗產出比Arjovsky et al. (2019)雙層優化問題中，更小的方差，近似甚至更好的實證準確性，本研究的關鍵理論貢獻表明在任意有限數量的環境中，包括非線性分類及變換的環境，研究提出策略的納什均衡集合與不變預測指標的集合是等價的，綜上所述，本研究方法同Arjovsky et al. (2019)，需保留大量的環境集合，才具有泛化保證，本文提出演算法在現有的成功博弈-理論的機器學習演算法如生成對抗網路（GAN）等研究的基礎上進行了補充，

譯者：楊二茶

龔鶴揚解讀：

IRM 的變體 + Nash 均衡

4. 近期社區活動

在11月27日由智源社區舉辦的 NeurIPS 2020中國預講會上，智源青年科學家、清華大學計算機科學與技術系副教授崔鵬發表了主題為「穩定學習：發掘因果推理和機器學習的共同基礎」的演講，崔鵬表示，「我們將站在機器學習的角度，探討如何看待因果推理，」

在本次演講中，崔鵬結合其研究組近年來的相關研究作業，針對如何「將因果與機器學習相結合」這一問題進行了分享，

自 2016 年起，崔鵬團隊開始深入研究如何將因果推理與機器學習相結合，并最終形成了「穩定學習」（stable learning）的研究方向，從宏觀的角度來看，穩定學習旨在尋找因果推理與機器學習之間的共同基礎，從而應對一系列有待解決的問題，

在演講中，崔鵬首先介紹了當下人工智能存在的風險，即不可解釋性和不穩定性，并指出，關聯統計是導致這些風險的重要原因，而結合因果推斷的機器學習可以克服這兩個缺陷，實作穩定學習，值得一提的是，從因果角度出發，可解釋性和穩定性之間存在一定的內在關系，即通過優化模型的穩定性亦可提升其可解釋性，

然后，崔鵬介紹了如何通過「混淆變數平衡」的思想實作穩定學習，并指出其具有理論保障，實驗結果也表明：「訓練和測驗時環境差異越大，采用因果方法相對于關聯方法取得的性能提升也就越大」，從而展現了因果推斷對于降低機器學習風險、克服關聯統計缺陷的優勢，以及引領機器學習下一個發展方向的潛力，

因果科學社區簡介：它是由智源社區、集智俱樂部共同推動，面向因果科學領域的垂直型學術討論社區，目的是促進因果科學專業人士和興趣愛好者們的交流和合作，推進因果科學學術、產業生態的建設和落地，孕育新一代因果科學領域的學術專家和產業創新者，

因果科學社區歡迎您加入！

因果科學社區愿景：回答因果問題是各個領域迫切的需求，當前許多不同領域（例如 AI 和統計學）都在使用因果推理，但是他們所使用的語言和模型各不相同，導致這些領域科學家之間溝通交流困難，因此我們希望構建一個社區，通過組織大量學識訓動，使得科研人員能夠掌握統計學的核心思想，熟練使用當前 AI 各種技術（例如 Pytorch/Pyro 搭建深度概率模型），促進各個領域的研究者交流和思維碰撞，從而讓各個領域的因果推理有著共同的范式，甚至是共同的工程實踐標準，推動剛剛成型的因果科學快速向前發展，具備因果推理能力的人類緊密協作創造了強大的文明，我們希望在未來社會中，因果推理融入到每個學科，尤其是緊密結合和提升 AI ，期待無數具備攀登因果之梯能力的 Agents (Causal AI) 和人類一起協作，共建下一代的人類文明！

如果您有適當的數學基礎和人工智能研究經驗，既有科學家的好奇心也有工程師思維，希望參與到”因果革命“中，教會機器因果思維，為因果科學作出貢獻，請加入我們微信群：掃描下面社區小助手二維碼加入（請備注“因果科學”）????

閱讀往期《因果科學周刊》，請點擊下面鏈接：

《因果科學周刊》第一期：因果社區誠邀加入，打造因果推理共同范式

《因果科學周刊》第二期：如何解決混淆偏差？

《因果科學周刊》第三期：因果助力 Stable Learning

《因果科學周刊》第四期：因果賦能推薦系統

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/235419.html

標籤：AI

上一篇：死磕Android_LeakCanary原理賞析

下一篇：官宣 | Apache Flink 1.12.0 正式發布，流批一體真正統一運行！