【人工智能行業大師訪談2】吳恩達采訪 Pieter Abbeel-有解無憂

來源：Coursera吳恩達深度學習課程

作為deeplearning.ai課程的一部分，Andrew希望除了教授技術理念之外，同時介紹一些深度學習的先驅給大家認識，在這個視頻中，Andrew也希望問問這些先驅們，能不能給一些作業上的建議，關于如何入門深度學習，如何做課題研究或者如何在深度學習領域找一份作業，作為這個采訪的開頭，很榮幸先展示Geoffrey Hinton的采訪視頻【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton，接下來，采訪 Pieter Abbeel，文章末尾有總結，

吳恩達：謝謝你，Pieter，能夠來到這，很多人都認為你是一位有名的機器學習、深度學習、機器人技術的研究者，我想讓更多人知道你的故事，你是怎么開始的呢，

Pieter Abbeel：這是個好問題，要是你問14歲的我，我的志向在什么，可能就不會是現在的答案，那時候我想當職業籃球運動員，我不認為我能做到，

吳恩達：機器學習僥幸做成了，籃球應該沒戲，

Pieter Abbeel：是的，沒戲，打籃球很好玩，但是變成職業不太行，在學校我最喜歡物理和數學（physics and math），所以之后學工程就比較自然，也就是實際應用物理和數學，之后，我本科畢業于電子工程后，我不太確定做啥，因為工程相關的一切都太有趣了，去懂得一個東西如何運作很有趣，建一個東西也是某種意義上，AI贏了，因為看起來它在某種程度能幫助所有學科，并且它看起來是一切東西的核心，你會思考一個機器怎么思考的，那可能是一切的核心，也就不用選某個特定的學科，

吳恩達：我一直在說AI是新的電力（AI is the new electricity），聽起來14歲時的你，已經有很超前的意識，過去幾年你在深度增強學習中貢獻很大，現在情況如何，為什么深度增強學習（deep reinforcement learning）突然變得重要?

Pieter Abbeel：在我研究它之前，我研究了很多增強學習，與你和Durant在斯坦福的時候，當然了，我們做了自主直升機飛行，后來去伯克利和我的學生們，做了個會疊衣服的機器人，可以說是用組合的學習方式來描述，做成一些不學習就無法做成的事，也結合了領域知識才能完成，這很有趣，因為你需要領域知識，想辦法學到很好玩，但同時每次想做成新的應用都會很耗時，需要領域知識（domain expertise）和機器學習知識（machine learning expertise），在2012年，通過Geoff Hinton多倫多小組對ImageNet的研究結果突破，AlexNet證明監督學習，突然之間大大減少了工程量，AlexNet中所用的工程量非常之小，讓我開始思考，我們該用類似觀點回顧增強學習，看我們能否用增強學習做與監督學習同樣有趣的事，

吳恩達：聽起來你早于，大多數人前，發現深度監督學習的潛力，展望未來，你看到下一件事是什么，你對下一階段有什么樣的預測在深度增強學習中，

Pieter Abbeel：我認為深度增強學習有趣在于，某種程度上比監督學習有更多的問題，在監督學習中問題在于輸入，輸出，映射；在增強學習中是資料是從何而來的，就是探索問題本身，當你有資料之后，你怎么做信用賦值，你怎樣理解早期做什么，才能之后受益以及安全問題，當你有自主收集資料的系統后，在很多情況下其實很危險，想象一家自駕車公司說，我們只會用深度增強學習來運行車輛，聽著就像會有很多事故，在真正起作用之前，

吳恩達：你需要反面例子（negative examples），對吧，

Pieter Abbeel：是需要反面例子，希望也有正面的，我覺得深度增強學習還有很多挑戰，在解決特定問題時如何做成功，深邃的部分在于表達，增強學習本身還有很多問題，我個人覺得是深度學習的進步，一部分增強學習的謎團能被解開，就是表達的部分，如果有模式，我們可能表達為一個深度網路，并抓取模式，怎么分解模式仍然是增強學習中很大的挑戰，我認為大挑戰在于，如何讓系統在長時間線上保持推理能力（how to get systems to reason over long time horizons.），現今很多深度增強學習，都是短時間線上的，還有很多問題是，如果對五秒的反應不錯，對整個問題的反應都會不錯，五秒和一天的規模相差很大，或是讓機器人或軟體主體保持一輩子的功能，我認為這里面有很多挑戰，安全方面的挑戰是當效果已經很不錯時如何安全持續地學習，所以，再舉個例子，很多人對自主駕駛車（self-driving cars）很熟悉，讓它們比人開車更好，假設人在每三百萬英里，碰到一次很糟的事故，會需要很長時間才會有負面資料，如果和人一樣好的話，但你想要更好，那么資料的收集就變得很難，很難得到讓系統表現更好的資料，探索其中有許多牽連的挑戰，我最興奮看到的是，我們能不能往后一步，還是能學增強學習的演算法，增強是很復雜（So reinforcement is very complex），信用賦值（credit assignment）也是，探索（exploration）更是，就像對于深度學習中的監督學習，可以做到替代領域知識，可能也能有程式--增強學習的程式也能做到取代我們親自設計細節，

吳恩達：學習回報函式還是整個程式？（learning the reward function or learning the whole program?），

Pieter Abbeel：這就需要學習整個增強學習程式，可能是，想象一下，你有這么個程式，不管是什么，你給它一個問題，看多久才能學會，然后發現，嗯，花了挺久，讓另一個程式來修正原本這個，加完這一步，試試看，要是學的快多了，修正的就很好，然后從此想辦法繼續進步，

吳恩達：我明白了，奠定基礎，

Pieter Abbeel：這可能和可用的計算量有關，就像在內環中運行增強學習，現在，運行增強學習是最后一步，越多計算量越有可能運行的了，就像在內環的增強學習是更宏觀演算法的一部分，

吳恩達：從14歲起，你在AI作業有二十多年了，你怎么理解AI這段時間的進化，

Pieter Abbeel：我試著理解AI的時候很有趣，因為其實與我在斯坦福的碩士學位相符，其中有很多領袖我親自交流過的，比如John McCarthy，相比較2000年時，用的方法與眾不同，和大多數人在做的事不同，然后和Daphne Koller的交談，形成了我對AI最初的想法，她的AI課程，她的概率圖模型課（her probabilistic graphical models class），讓我真正產生興趣，隨機的變數如何應用于簡單的分布，再被分成子集變數（subsets variables），然后其他的結論，都會讓你知道好多，要是能讓它計算起來也容易，那就很具挑戰了，從那之后，我開始攻讀博士，你到斯坦福后，是個很棒的現實提醒，也就是，不該去檢驗你研究里的度量是否正確，而是去看一種關聯（connection），你在做的事情和影響你的東西之間有何關聯，你的研究實際改變了什么，而不是具體里面出現的數學，

吳恩達：對，很棒，我沒發現之前遺忘了這點，

Pieter Abbeel：是的，這是其中一件，除了大多數人在問的，哪一個Andrew給的意見，一直在影響你，是確保你能看到這種關聯性，

吳恩達：你已經并且會繼續在AI領域有很棒的職業前途，對一些在看視頻的人，要是他們想入門AI，你有什么意見，

Pieter Abbeel：我想現在是進入AI的大好時機（I think it’s a really good time to get into artificial intelligence），需求量是如此之高，作業機會如此之多，有大量研究課題，也有大量創業機會等等，所以我很肯定決定入行是很機智的決定，你們中的大多數都能夠自學，不管是不是在學校里，有好多好多網課，比如Andrew的機器學習課，也有，比如說，Andrej Karpathy的深度學習課，也有線上視頻，作為開始很棒，Berkeley也有增強學習的課程，所有課都在網上，都是很棒的入門方式，很重要的是，你自己要真正著手去做（make sure you try things yourself），不是只看看視頻，要親自試，可以用TensorFlow，Chainer，Theano，PyTorch等等，隨便你喜歡哪個，開始是很容易的，進展也會很快，

吳恩達：只要不斷練習，對不，實際操作并關注什么成功了，什么沒成功，

Pieter Abbeel：Mashable上周有篇文章，講一個英國16歲，Kaggle比賽中的領導，里面提到他跑去學習，在網上找到東西，自學了一切，從未上過任何正統課程，一個16歲的少年能在Kaggle上有這么強的競爭力，說明是真的可能，

吳恩達：我們生在好時代，對人們學習的好時代（We live in good times. If people want to learn），

Pieter Abbeel：完全正確，

吳恩達：還有個應該常被問到的問題是，要是有人想進入AI機器學習，深度學習的領域，他們該讀博還是去大公司作業，

Pieter Abbeel：很大程度上取決于你能得到的指導（I think a lot of it has to do with maybe how much mentoring you can get.），在博士學位里，基本肯定的，是教授的本職作業，也是你的導師，會來主動找你，竭盡他們所能去成就你，幫助你在任何領域，比如AI，得到成功，有很多用功的人，有時會有兩個導師，那是他們的本職作業，也是為什么他們當了教授，大多數教授都能幫助學生做更多事情，但不是說在公司里不是這樣，很多公司有很棒的導師并且很愛幫助教育和推進其他人等等，只不過是，可能不會有那樣的保障，不會像攻讀博士一樣，而博士的一大優點，就是你肯定能學到好多并且總有人能幫助你學習，

吳恩達：取決于公司和博士專案本身，

Pieter Abbeel：完全正確，但是我想，主要還是得自己能學很多東西（it is key that you can learn a lot on your own），要是自學的很快，再加上一個更有經驗的人，能加速程序，因為他們的職責就是幫助推進你的進步，

吳恩達：你是深度增強學習中很有名的領袖之一，那么是什么樣的東西，在深度增強學習中已經很成功了，

Pieter Abbeel：關注深度增強學習中的成功例子，非常非常引人入勝，比如說，通過像素學習玩Atari，處理像素也就是被處理的數字，被變成一個游戲中的行動，然后，舉個例子，我們在Berkeley做過的一些研究，造了會走路也有回饋的模仿型機器人，只是簡單的告訴它越往北走越好，對地面影響越小越好，它突然會選擇，走路或跑步，即使并沒有人告訴它什么是走和跑，或讓機器人學講給兒童的故事，并想法子組在一起，創造更多開放結局等等，

我認為有趣的是，它們能學習，從原始的感覺輸入到控制，比如發動機中的扭矩，但是是同時完成的，有趣在于你能用一個單一演算法，比如，推力是一瞬間的（thrust is impulsive），你可以學習，可以讓機器人學會跑，學會站立，可以有兩條腿的機器人，再換成四條腿的，只要用同樣的演算法，它都會跑，所以增強演算法不用改變，非常宏觀，Atari游戲也是如此，每個游戲里DQN都是同一個DQN，當它開始進入，還未曾實作的邊界后，它能為每一個任務從頭一點點學起，但要是能重復利用，之前學過的東西，更好了，那樣學下一個任務就更快了，這是目前未能實作的事情，本質上，它總是從頭學起，

吳恩達：你覺得多快，就能看到使用深度增強學習的機器人，出現在我們身邊，被廣泛應用在全世界，

Pieter Abbeel：我認為真實情況是，從監督學習開始，行為克隆，人類的作業，我覺得會有很多業務會建立起來，但總是有人類在幕后指揮作業，比如Facebook的資訊助手，像這樣的助手能被建起，但背后一定有人，做大量作業，機器學習能做人所做的事，并開始為人們提建議，人類會被提供，有限的幾個選擇，過一陣子，就能變得更好，可以給增強學習，一些實際目的，而不是讓人在幕后作業，是實際給它們目標去完成，比如，兩者中哪個能更快計劃好會議，或多快能定好機票，或是花了多長時間，滿意程度如何，不過可能會需要大量克隆人類行為的引導程式，去告訴它們怎么做，

吳恩達：聽起來行為克隆：是監督學習，去模仿人在做的事，之后逐漸增強學習會能思考的更長遠，這樣總結合適嗎？

Pieter Abbeel：我覺得是，單因為觀察增強學習，從頭開始，就很有意思，超級有趣，很少有比觀察增強學習機器人從啥都不會到發明創造更好玩的事了，不過非常耗時，而且不總是那么安全，

吳恩達：太謝謝你了，這個采訪太棒了，我很榮幸我們有這次聊天機會，

Pieter Abbeel：謝謝你邀請我，我非常感謝，

總結：（1）不管是選擇讀博還是進入大公司，主要還是得自己能學很多東西（it is key that you can learn a lot on your own），要是自學的很快，再加上一個更有經驗的人，能加速程序，因為他們的職責就是幫助推進你的進步，

（2）我想現在是進入AI的大好時機（I think it’s a really good time to get into artificial intelligence），需求量是如此之高，作業機會如此之多，有大量研究課題，也有大量創業機會等等，很重要的是，你自己要真正著手去做（make sure you try things yourself），不是只看看視頻，要親自試，可以用TensorFlow，Chainer，Theano，PyTorch等等，隨便你喜歡哪個，開始是很容易的，進展也會很快，

說明：記錄學習筆記，如果錯誤歡迎指正！轉載請聯系我，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/294111.html

標籤：AI

上一篇：Batch Normalization（批標準化）的原理和意義及對模型的重要影響

下一篇：通過anaconda下載 opencv的方法