來源:Coursera吳恩達深度學習課程

作為deeplearning.ai課程的一部分,Andrew希望除了教授技術理念之外,同時介紹一些深度學習的先驅給大家認識,在這個視頻中,Andrew也希望問問這些先驅們,能不能給一些作業上的建議,關于如何入門深度學習,如何做課題研究或者如何在深度學習領域找一份作業,作為這個采訪的開頭,很榮幸先展示Geoffrey Hinton的采訪視頻【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton,接下來,采訪 Pieter Abbeel,文章末尾有總結,

吳恩達:謝謝你,Pieter,能夠來到這,很多人都認為你是一位有名的機器學習、深度學習、機器人技術的研究者,我想讓更多人知道你的故事,你是怎么開始的呢,

Pieter Abbeel:這是個好問題,要是你問14歲的我,我的志向在什么,可能就不會是現在的答案,那時候我想當職業籃球運動員,我不認為我能做到,
吳恩達:機器學習僥幸做成了,籃球應該沒戲,
Pieter Abbeel:是的,沒戲,打籃球很好玩,但是變成職業不太行,在學校我最喜歡物理和數學(physics and math),所以之后學工程就比較自然,也就是實際應用物理和數學,之后,我本科畢業于電子工程后,我不太確定做啥,因為工程相關的一切都太有趣了,去懂得一個東西如何運作很有趣,建一個東西也是某種意義上,AI贏了,因為看起來它在某種程度能幫助所有學科,并且它看起來是一切東西的核心,你會思考一個機器怎么思考的,那可能是一切的核心,也就不用選某個特定的學科,
吳恩達:我一直在說AI是新的電力(AI is the new electricity),聽起來14歲時的你,已經有很超前的意識,過去幾年你在深度增強學習中貢獻很大,現在情況如何,為什么深度增強學習(deep reinforcement learning)突然變得重要?
Pieter Abbeel:在我研究它之前,我研究了很多增強學習,與你和Durant在斯坦福的時候,當然了,我們做了自主直升機飛行,后來去伯克利和我的學生們,做了個會疊衣服的機器人,可以說是用組合的學習方式來描述,做成一些不學習就無法做成的事,也結合了領域知識才能完成,這很有趣,因為你需要領域知識,想辦法學到很好玩,但同時每次想做成新的應用都會很耗時,需要領域知識(domain expertise)和機器學習知識(machine learning expertise),在2012年,通過Geoff Hinton多倫多小組對ImageNet的研究結果突破,AlexNet證明監督學習,突然之間大大減少了工程量,AlexNet中所用的工程量非常之小,讓我開始思考,我們該用類似觀點回顧增強學習,看我們能否用增強學習做與監督學習同樣有趣的事,
吳恩達:聽起來你早于,大多數人前,發現深度監督學習的潛力,展望未來,你看到下一件事是什么,你對下一階段有什么樣的預測在深度增強學習中,
Pieter Abbeel:我認為深度增強學習有趣在于,某種程度上比監督學習有更多的問題,在監督學習中問題在于輸入,輸出,映射;在增強學習中是資料是從何而來的,就是探索問題本身,當你有資料之后,你怎么做信用賦值,你怎樣理解早期做什么,才能之后受益以及安全問題,當你有自主收集資料的系統后,在很多情況下其實很危險,想象一家自駕車公司說,我們只會用深度增強學習來運行車輛,聽著就像會有很多事故,在真正起作用之前,
吳恩達:你需要反面例子(negative examples),對吧,
Pieter Abbeel:是需要反面例子,希望也有正面的,我覺得深度增強學習還有很多挑戰,在解決特定問題時如何做成功,深邃的部分在于表達,增強學習本身還有很多問題,我個人覺得是深度學習的進步,一部分增強學習的謎團能被解開,就是表達的部分,如果有模式,我們可能表達為一個深度網路,并抓取模式,怎么分解模式仍然是增強學習中很大的挑戰,我認為大挑戰在于,如何讓系統在長時間線上保持推理能力(how to get systems to reason over long time horizons.),現今很多深度增強學習,都是短時間線上的,還有很多問題是,如果對五秒的反應不錯,對整個問題的反應都會不錯,五秒和一天的規模相差很大,或是讓機器人或軟體主體保持一輩子的功能,我認為這里面有很多挑戰,安全方面的挑戰是當效果已經很不錯時如何安全持續地學習,所以,再舉個例子,很多人對自主駕駛車(self-driving cars)很熟悉,讓它們比人開車更好,假設人在每三百萬英里,碰到一次很糟的事故,會需要很長時間才會有負面資料,如果和人一樣好的話,但你想要更好,那么資料的收集就變得很難,很難得到讓系統表現更好的資料,探索其中有許多牽連的挑戰,我最興奮看到的是,我們能不能往后一步,還是能學增強學習的演算法,增強是很復雜(So reinforcement is very complex),信用賦值(credit assignment)也是,探索(exploration)更是,就像對于深度學習中的監督學習,可以做到替代領域知識,可能也能有程式--增強學習的程式也能做到取代我們親自設計細節,
吳恩達:學習回報函式還是整個程式?(learning the reward function or learning the whole program?),
Pieter Abbeel:這就需要學習整個增強學習程式,可能是,想象一下,你有這么個程式,不管是什么,你給它一個問題,看多久才能學會,然后發現,嗯,花了挺久,讓另一個程式來修正原本這個,加完這一步,試試看,要是學的快多了,修正的就很好,然后從此想辦法繼續進步,
吳恩達:我明白了,奠定基礎,
Pieter Abbeel:這可能和可用的計算量有關,就像在內環中運行增強學習,現在,運行增強學習是最后一步,越多計算量越有可能運行的了,就像在內環的增強學習是更宏觀演算法的一部分,
吳恩達:從14歲起,你在AI作業有二十多年了,你怎么理解AI這段時間的進化,
Pieter Abbeel:我試著理解AI的時候很有趣,因為其實與我在斯坦福的碩士學位相符,其中有很多領袖我親自交流過的,比如John McCarthy,相比較2000年時,用的方法與眾不同,和大多數人在做的事不同,然后和Daphne Koller的交談,形成了我對AI最初的想法,她的AI課程,她的概率圖模型課(her probabilistic graphical models class),讓我真正產生興趣,隨機的變數如何應用于簡單的分布,再被分成子集變數(subsets variables),然后其他的結論,都會讓你知道好多,要是能讓它計算起來也容易,那就很具挑戰了,從那之后,我開始攻讀博士,你到斯坦福后,是個很棒的現實提醒,也就是,不該去檢驗你研究里的度量是否正確,而是去看一種關聯(connection),你在做的事情和影響你的東西之間有何關聯,你的研究實際改變了什么,而不是具體里面出現的數學,
吳恩達:對,很棒,我沒發現之前遺忘了這點,
Pieter Abbeel:是的,這是其中一件,除了大多數人在問的,哪一個Andrew給的意見,一直在影響你,是確保你能看到這種關聯性,
吳恩達:你已經并且會繼續在AI領域有很棒的職業前途,對一些在看視頻的人,要是他們想入門AI,你有什么意見,
Pieter Abbeel:我想現在是進入AI的大好時機(I think it’s a really good time to get into artificial intelligence),需求量是如此之高,作業機會如此之多,有大量研究課題,也有大量創業機會等等,所以我很肯定決定入行是很機智的決定,你們中的大多數都能夠自學,不管是不是在學校里,有好多好多網課,比如Andrew的機器學習課,也有,比如說,Andrej Karpathy的深度學習課,也有線上視頻,作為開始很棒,Berkeley也有增強學習的課程,所有課都在網上,都是很棒的入門方式,很重要的是,你自己要真正著手去做(make sure you try things yourself),不是只看看視頻,要親自試,可以用TensorFlow,Chainer,Theano,PyTorch等等,隨便你喜歡哪個,開始是很容易的,進展也會很快,
吳恩達:只要不斷練習,對不,實際操作并關注什么成功了,什么沒成功,
Pieter Abbeel:Mashable上周有篇文章,講一個英國16歲,Kaggle比賽中的領導,里面提到他跑去學習,在網上找到東西,自學了一切,從未上過任何正統課程,一個16歲的少年能在Kaggle上有這么強的競爭力,說明是真的可能,
吳恩達:我們生在好時代,對人們學習的好時代(We live in good times. If people want to learn),
Pieter Abbeel:完全正確,
吳恩達:還有個應該常被問到的問題是,要是有人想進入AI機器學習,深度學習的領域,他們該讀博還是去大公司作業,
Pieter Abbeel:很大程度上取決于你能得到的指導(I think a lot of it has to do with maybe how much mentoring you can get.),在博士學位里,基本肯定的,是教授的本職作業,也是你的導師,會來主動找你,竭盡他們所能去成就你,幫助你在任何領域,比如AI,得到成功,有很多用功的人,有時會有兩個導師,那是他們的本職作業,也是為什么他們當了教授,大多數教授都能幫助學生做更多事情,但不是說在公司里不是這樣,很多公司有很棒的導師并且很愛幫助教育和推進其他人等等,只不過是,可能不會有那樣的保障,不會像攻讀博士一樣,而博士的一大優點,就是你肯定能學到好多并且總有人能幫助你學習,
吳恩達:取決于公司和博士專案本身,
Pieter Abbeel:完全正確,但是我想,主要還是得自己能學很多東西(it is key that you can learn a lot on your own),要是自學的很快,再加上一個更有經驗的人,能加速程序,因為他們的職責就是幫助推進你的進步,
吳恩達:你是深度增強學習中很有名的領袖之一,那么是什么樣的東西,在深度增強學習中已經很成功了,
Pieter Abbeel:關注深度增強學習中的成功例子,非常非常引人入勝,比如說,通過像素學習玩Atari,處理像素也就是被處理的數字,被變成一個游戲中的行動,然后,舉個例子,我們在Berkeley做過的一些研究,造了會走路也有回饋的模仿型機器人,只是簡單的告訴它越往北走越好,對地面影響越小越好,它突然會選擇,走路或跑步,即使并沒有人告訴它什么是走和跑,或讓機器人學講給兒童的故事,并想法子組在一起,創造更多開放結局等等,
我認為有趣的是,它們能學習,從原始的感覺輸入到控制,比如發動機中的扭矩,但是是同時完成的,有趣在于你能用一個單一演算法,比如,推力是一瞬間的(thrust is impulsive),你可以學習,可以讓機器人學會跑,學會站立,可以有兩條腿的機器人,再換成四條腿的,只要用同樣的演算法,它都會跑,所以增強演算法不用改變,非常宏觀,Atari游戲也是如此,每個游戲里DQN都是同一個DQN,當它開始進入,還未曾實作的邊界后,它能為每一個任務從頭一點點學起,但要是能重復利用,之前學過的東西,更好了,那樣學下一個任務就更快了,這是目前未能實作的事情,本質上,它總是從頭學起,
吳恩達:你覺得多快,就能看到使用深度增強學習的機器人,出現在我們身邊,被廣泛應用在全世界,
Pieter Abbeel:我認為真實情況是,從監督學習開始,行為克隆,人類的作業,我覺得會有很多業務會建立起來,但總是有人類在幕后指揮作業,比如Facebook的資訊助手,像這樣的助手能被建起,但背后一定有人,做大量作業,機器學習能做人所做的事,并開始為人們提建議,人類會被提供,有限的幾個選擇,過一陣子,就能變得更好,可以給增強學習,一些實際目的,而不是讓人在幕后作業,是實際給它們目標去完成,比如,兩者中哪個能更快計劃好會議,或多快能定好機票,或是花了多長時間,滿意程度如何,不過可能會需要大量克隆人類行為的引導程式,去告訴它們怎么做,
吳恩達:聽起來行為克隆:是監督學習,去模仿人在做的事,之后逐漸增強學習會能思考的更長遠,這樣總結合適嗎?
Pieter Abbeel:我覺得是,單因為觀察增強學習,從頭開始,就很有意思,超級有趣,很少有比觀察增強學習機器人從啥都不會到發明創造更好玩的事了,不過非常耗時,而且不總是那么安全,
吳恩達:太謝謝你了,這個采訪太棒了,我很榮幸我們有這次聊天機會,
Pieter Abbeel:謝謝你邀請我,我非常感謝,
總結:(1)不管是選擇讀博還是進入大公司,主要還是得自己能學很多東西(it is key that you can learn a lot on your own),要是自學的很快,再加上一個更有經驗的人,能加速程序,因為他們的職責就是幫助推進你的進步,
(2)我想現在是進入AI的大好時機(I think it’s a really good time to get into artificial intelligence),需求量是如此之高,作業機會如此之多,有大量研究課題,也有大量創業機會等等,很重要的是,你自己要真正著手去做(make sure you try things yourself),不是只看看視頻,要親自試,可以用TensorFlow,Chainer,Theano,PyTorch等等,隨便你喜歡哪個,開始是很容易的,進展也會很快,
說明:記錄學習筆記,如果錯誤歡迎指正!轉載請聯系我,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/294111.html
標籤:AI
