AI 浪淘沙 week （222-226）-有解無憂

文章目錄

- 【國外】
- - 1. 谷歌開源了自動化尋找最優機器學習模型的平臺 Model Search
  - 2. 圖靈獎得主發布論文，介紹因果表示學習
  - 3.DALL-E 公開論文和代碼
  - 4.多模態表征學習
  - 5.OpenAI、Uber AI Labs 提出全新演算法 Go-Explore ，在 Atari 游戲超過所有玩家，
  - 6. 研究人員合作開發了 Vx2Text 可以從視頻得到文字
- 【國內】
- - 1.北京大學、阿爾伯特大學聯合發布微標記圖神經網路動態標注文章
  - 2. 中山大學發布無偏視覺問答資料集 KRVQA
  - 3.哈工大、天大合作發布本地化蒸餾專案文章
  - 4.中國人工智能學會2021年擬推選院士候選人公示
  - 5.大連理工大學和香港城市大學的研究人員發布自動生成漫畫書的系統

【國外】

1. 谷歌開源了自動化尋找最優機器學習模型的平臺 Model Search

【時間】2021-2-19
【來源】Google AI 研究院
【鏈接】https://ai.googleblog.com/2021/02/introducing-model-search-open-source.html
【內容摘要】
日前，Google 基于 TensorFlow 開源了一個自動尋找最優機器學習模型的平臺，旨在通過 AutoML 方法幫助研究人員自動尋找合適的神經網路，而無需手動試驗，例如強化學習（RL），進化演算法，和組合搜索，以便在給定的搜索空間內構建神經網路，解決了這些演算法計算量大以及需要數千模型訓練的缺點，
Model Search 的開源版本可幫助研究人員高效，自動地開發最佳機器學習模型，模型搜索不關注特定領域，而是領域無關的，靈活的，并且能夠找到最適合給定資料集和問題的適當體系結構，同時最大程度地減少編碼時間，作業量和計算資源，可以在單臺機器上或分布式環境中運行，
此處輸入圖片的描述

2. 圖靈獎得主發布論文，介紹因果表示學習

【標題】Towards Causal Representation Learning
【時間】2021-2-22
【來源】Bernhard Sch?lkopf, Francesco Locatello, Stefan Bauer, Nan Rosemary Ke, Nal Kalchbrenner, Anirudh Goyal, Yoshua Bengio
【鏈接】https://arxiv.org/abs/2102.11107
【內容摘要】
機器學習和圖形因果關系這兩個領域分別出現和發展，但是，現在存在交叉，并且對這兩個領域的興趣正在增加，這兩個領域都將從彼此的進步中受益，
文章回顧了因果推理的基本概念，并將它們與機器學習的關鍵開放問題（包括傳遞和泛化）相關聯，從而分析了因果關系如何有助于現代機器學習研究，這也適用于相反的方向：我們注意到大多數因果關系的作業都始于給出因果變數的前提，因此，人工智能和因果關系的中心問題是因果表示學習，即從低層觀察中發現高層因果變數，最后描述了因果關系對機器學習的一些影響，并提出了兩個社區相交處的關鍵研究領域，

基于討論列出了極大值得研究的問題：
1.大規模學習非線性因果關系；
2.學習因果變數；
3.了解現有深度學習方法的弊端；
4.學習因果關系正確的世界和策略模型

3.DALL-E 公開論文和代碼

【時間】2021-2
【來源】OpenAI
【鏈接】https://github.com/openai/DALL-E， http://arxiv.org/abs/2102.12092
【內容摘要】
Dall-E 公開了部分代碼和論文，文章介紹了從影像到文本的機制和模型假設，這些假設可能涉及復雜的體系結構，輔助損耗或輔助資訊，例如訓練程序中提供的目標部件標簽或分段蒙版，研究基于一個轉換器將一種簡單的方法描述為一種簡單的方法，該轉換器將文本和影像標記自動回歸為單個資料流，有了足夠的資料和規模，當以零樣本進行評估時，該方法就可以與以前的領域特定模型進行競爭，研究結果表明，將綜合性作為規模的函式來改善可能是完成此任務的有用推動力，

4.多模態表征學習

【標題】Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
【時間】2021-2
【來源】Ronghang Hu, Amanpreet Singh
【鏈接】https://arxiv.org/abs/2102.10772
【內容摘要】
文章提出使用統一 Transformer 模型 UniT，以同時學習跨領域最重要的任務，從目標檢測到語言理解和多模式推理，基于Transformer編碼器-解碼器體系結構，UniT模型使用編碼器對每個輸入形式進行編碼，并使用共享的解碼器對編碼后的輸入表示形式的每個任務進行預測，然后對特定任務的輸出頭進行預測，整個模型經過端到端的聯合培訓，每項任務都會造成損失，與以前使用Transformer進行多任務學習的方法相比，UniT對所有任務共享相同的模型引數，而不是分別微調特定于任務的模型，并處理不同領域中更多種類的任務，

5.OpenAI、Uber AI Labs 提出全新演算法 Go-Explore ，在 Atari 游戲超過所有玩家，

【時間】2021-2-24
【來源】Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley & Jeff Clune
【鏈接】https://www.nature.com/articles/s41586-020-03157-9
【內容摘要】
通常情況下，簡單直觀的獎勵提供稀疏的和欺騙性的反饋時，強化學習演算法會遇到困難，避免這些陷阱需要對環境進行徹底的探索，但是創建可以做到這一點的演算法仍然是該領域的主要挑戰之一，
文章提出了一類全新的增強學習演算法，該演算法在雅達利（Atari 2600）經典游戲中的得分超過了人類頂級玩家和以往的 AI 系統，在《蒙特祖馬的復仇》（Montezuma’s Revenge）和《陷阱》（Pitfall!）等一系列探索類游戲中達到了目前最先進的水平，結果證明，添加目標條件策略可以進一步提高Go-Explore的探索效率，并使其能夠在整個培訓程序中處理隨機性， Go-Explore帶來的實質性性能提升表明，記住狀態，回傳狀態并從狀態中進行探索的簡單原理是一種強大而通用的探索方法-這種見識可能對創建真正的智能學習代理至關重要，

6. 研究人員合作開發了 Vx2Text 可以從視頻得到文字

【標題】VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
【時間】2021-1-28
【來源】Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani
【鏈接】https://arxiv.org/abs/2101.12059
【內容摘要】
文章介紹了 VX2TEXT，這是一個用于從多模式輸入生成文本的框架，該輸入由視頻加上文本，語音或音頻組成，為了利用已經證明在建模語言方面有效的轉換器網路，每個模態首先由可學習的標記器轉換為一組語言嵌入，這使該的方法可以在語言空間中執行多模態融合，從而消除了對臨時跨模態融合模塊的需求，為了解決連續輸入（例如視頻或音頻）上令牌化的不可區分性，利用松弛方案可進行端到端訓練，
此外，與以前的僅編碼器模型不同，網路包括自回歸解碼器，可從語言編碼器融合的多模式嵌入中生成開放式文本，這使此方法完全具有生成性，并使其可直接應用于不同的 視頻+ x = 文本 問題，而無需為每個任務設計專門的網路負責人，

【國內】

1.北京大學、阿爾伯特大學聯合發布微標記圖神經網路動態標注文章

【標題】Dynamic Labeling for Unlabeled Graph Neural Networks
【時間】2021-2-23
【來源】Zeyu Sun, Wenjie Zhang, Lili Mou, Qihao Zhu, Yingfei Xiong, Lu Zhang
【鏈接】https://arxiv.org/abs/2102.11485
【內容摘要】
現有的圖神經網路（GNN）很大程度上依賴于節點嵌入，該嵌入通過其身份，型別或內容將節點表示為向量，但是，在現實世界的應用程式（例如匿名社交網路）中，廣泛存在帶有未標記節點的圖，先前的 GNN 要么為節點分配隨機標簽（這會向GNN引入偽影），要么向所有節點分配一個嵌入（無法將一個節點與另一個節點區分開），文章對現有方法在兩類分類任務中的局限性進行分析：圖分類和節點分類，并提出了兩種技術，即動態標記和優先動態標記，它們可以針對每種任務在統計上或漸近上滿足所需的屬性，實驗結果表明，我們在各種圖形相關任務中均實作了高性能，

2. 中山大學發布無偏視覺問答資料集 KRVQA

【標題】Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding
【時間】2021-2-23
【來源】Qingxing Cao, Bailin Li, Xiaodan Liang, Keze Wang, Liang Lin
【鏈接】https://arxiv.org/abs/2012.07192
【內容摘要】
盡管通過鼓勵超越影像和文本背景關系的輸入輸出關聯性來鼓勵視覺問題回答（VQA）模型來發現基礎知識，但現有知識VQA資料集大多以眾包方式進行注釋，例如，收集問題和外部原因，用戶網路等等，除了對知識推理的挑戰外，如何處理注釋者的偏見也仍然懸而未決，這常常導致問題和答案之間的表面過度擬合，

為了解決這個問題，文章提出了一個名為“知識路由視覺問題推理”的新穎資料集，用于 VQA 模型評估，考慮到理想的VQA模型應正確地感知影像背景關系，理解問題并整合其學習的知識，我們提出的資料集旨在切斷當前深度嵌入模型所利用的快捷學習，并推動基于知識的視覺研究的邊界問題推理，具體來說，我們基于可視基因組場景圖和具有受控程式的外部知識庫來生成問題-答案對，以使知識與其他偏見脫節，

這些程式可以從場景圖或知識庫中選擇一個或兩個三元組，以推動多步推理，避免答案含糊不清，并平衡答案分布，與現有的 VQA 資料集相比，我們進一步暗示了以下程式對合并知識推理的程式的兩個主要限制：i）多個知識三元組可以與問題相關，但是只有一個知識與影像物件相關，這可以使VQA模型正確地感知影像，而不必僅僅根據給定的問題猜測知識， ii）所有問題都基于不同的知識，但是對于培訓和測驗集而言，答案都是相同的，

3.哈工大、天大合作發布本地化蒸餾專案文章

【標題】Localization Distillation for Object Detection
【時間】2021-2-24
【來源】Zhaohui Zheng, Rongguang Ye, Ping Wang, Jun Wang, Dongwei Ren, Wangmeng Zuo
【鏈接】https://arxiv.org/abs/2102.12252
【內容摘要】
知識蒸餾（KD）見證了其在深度學習領域學習緊湊模型的強大能力，但在提取用于物件檢測的本地化資訊方面仍然受到限制，現有的用于物件檢測的KD方法主要側重于模仿教師模型和學生模型之間的深層特征，這不僅受特定模型體系結構的限制，而且不能提煉出本地化的歧義，在本文中，我們首先提出用于物件檢測的區域蒸餾（LD），
該 LD 可以通過采用邊界框的一般本地化表示形式來表示為標準 KD， LD非常靈活，適用于針對教師模型和學生模型的任意體系結構提煉本地化歧義，

邏輯模型非常靈活，適用于教師模型和學生模型的任意體系結構的提煉本地化歧義，此外，很有趣的是，發現Self-LD，即提煉教師模型本身，可以進一步提高技術水平，其次，我們建議使用助教（TA）策略來填補教師模型和學生模型之間的可能差距，通過這種策略，即使所選的教師模型不是最優的，也可以保證提煉效率，在基準資料集PASCAL VOC和MSCOCO上，我們的LD可以不斷提高學生探測器的性能，并顯著提高最先進的探測器的性能，

4.中國人工智能學會2021年擬推選院士候選人公示

【時間】2021-02-22
【來源】中國人工智能學會
【鏈接】https://mp.weixin.qq.com/s/YXzOFEKClQOdA1kQZZDNxQ
【內容摘要】
根據《中國科協辦公廳關于組織推選2021年中國科學院和中國工程院院士候選人的通知》（科協辦發組字〔2021〕2號）和《中國人工智能學會推選院士候選人作業實施細則》檔案要求，經推選專家委員會投票表決，北京大學王龍教授、清華大學施路平教授、中國科學院自動化研究所胡衛明研究員、中國人民解放軍陸軍劉增良教授為我會向中國科協推薦的中國科學院院士候選人，

王龍，北京大學教授，先后獲得國家自然科學獎二等獎、三等獎，在國內外學術期刊發表論文100余篇，王龍長期致力于控制理論與應用研究，在引數攝動系統控制、多智能體協作與控制、復雜網路化系統控制等方面作出了一系列系統性的創新作業，

施路平，現任清華大學類腦計算研究中心主任、清華大學光碟國家工程研究中心主任，過去十五年，潛心研究類腦計算，研制了世界首款異構融合類腦芯片和系統，提出類腦計算完備性基礎理論和層次系統架構，為我國在類腦計算這個新興領域的研究躋身國際先進行列做出了突出貢獻，

胡衛明，中國科學院自動化研究所研究員，國家杰出青年基金獲得者、萬人計劃科技創新領軍人才、百千萬人才工程國家級人才入選者，主要研究計算機視覺、視頻資訊處理與安全等方向，

劉增良，中國人民解放軍陸軍三級教授，智能系統工程專家，國家百千萬人才工程一、二層次人員，中央直接管理的高級專家，國務院特貼獲得者，建立了智能系統工程模型方法體系，提出了關系確定型、語意不定型、關系不定型等人工智能模糊系統模型和針對性關鍵技術方法，為解決重大裝備智能工程基礎性難題發揮了重大作用和影響，

5.大連理工大學和香港城市大學的研究人員發布自動生成漫畫書的系統

【標題】Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation
【時間】2021-2-26
【來源】Xin Yang, Zongliang Ma, Letian Yu, Ying Cao, Baocai Yin, Xiaopeng Wei, Qiang Zhang, Rynson W.H. Lau
【鏈接】https://arxiv.org/abs/2101.11111
【內容摘要】
文章提出了一種無需任何人工干預即可從視頻生成漫畫書的全自動系統，給定輸入視頻及其字幕，首先通過分析字幕提取資訊豐富的關鍵幀，然后將關鍵幀樣式化為喜劇風格的影像，利用一種新穎的自動多頁面布局框架，跨多個頁面分配影像并基于影像的豐富語意（例如重要性和影像間關系）合成視覺上有趣的布局，最后，與使用先前作品中相同型別的氣球相反，利用情緒感知氣球生成方法，通過分析字幕和音頻的情感來創建不同型別的單詞氣球，
該方法能夠根據不同的情感改變氣球形狀和單詞大小，從而帶來更豐富的閱讀體驗，一旦生成氣球，便通過揚聲器檢測將它們放置在與其相應揚聲器相鄰的位置，從結果來看，無需任何用戶輸入，就可以生成具有視覺上豐富的布局和提示框的高質量漫畫頁面，同時也受到了讀者的廣泛好評，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/264803.html

標籤：其他

上一篇：linux系統安裝Git

下一篇：【RabbitMQ】訊息可靠性投遞（四）Queue--＞Consumer

AI 浪淘沙 week （222-226）