在Alphago與韓國圍棋選手李世石對戰獲勝三年過后,一些跡象逐漸顯現,張鈸院士認為到了一個合適的時點,并接受了此次的專訪,
深度學習目前人工智能最受關注的領域,但并不是人工智能研究的全部,張鈸認為盡管產業層面還有空間,但目前基于深度學習的人工智能在技術上已經觸及天花板,此前由這一技術路線帶來的“奇跡”在Alphago獲勝后未再出現,而且估計未來也很難繼續大量出現,技術改良很難徹底解決目前階段人工智能的根本性缺陷,而這些缺陷決定了其應用的空間被局限在特定的領域——大部分都集中在影像識別、語音識別兩方面,
同時,在張鈸看來,目前全世界的企業界和部分學界對于深度學習技術的判斷過于樂觀,人工智能迫切需要推動到新的階段,而這注定將會是一個漫長的程序,有賴于與數學、腦科學等結合實作底層理論的突破,
作為中國少有的經歷了兩個人工智能技術階段的研究者,張鈸在過去數年鮮少接受采訪,其中一個原因在于他對目前人工智能技術發展現狀的估計持有部分不同看法,在時機未到之時,張鈸謹慎的認為這些看法并不方便通過大眾媒體進行傳播,即使傳播也很難獲得認同,
一、“奇跡并沒有發生,按照我的估計,也不會繼續大量發生”
經濟觀察報:您是如何估計和評價目前人工智能發展的現狀?
張鈸:這一輪人工智能熱潮是本世紀初興起的,首先是出現在學術界,學術界過去對人工智能是冷遇的,但是多層神經網路的出現帶來了一些改變,神經網路的理論在上世紀50年代就有了,但是一直處于淺層的應用狀態,人們沒有想到多層會帶來什么新的變化,
真正引起大家注意的就是2012年斯坦福的實驗(注:2012年谷歌和斯坦福利用多層神經網路和大量資料進行影像識別的實驗),過去實驗的影像樣本數最多是“萬”這個級別,斯坦福用了1000萬,用多層神經網路來做,結果發現在人臉、人體、貓臉三個影像類別中,這個模型的識別率大概有7%-10%的提高,
這給大家非常大的震動,因為通常識別率要提高1%要做好多努力,現在只是把層數增加了,竟然發生兩大變化,一個是識別率提高這么多;第二個是能處理這么大資料,這兩個變化給大家非常大的鼓舞,何況在2012年之前,人工智能沒有解決過實際問題,
經濟觀察報:這種突破的原因是什么?
張鈸:現在分析下來是三個原因,大家也都非常清楚了,一個大資料、一個是計算能力、一個是演算法,認識到之后,一夜之間業內業外對深度學習都非常震動,然后就發生了三件歷史性的事件,
第一件事是2015年12月,微軟通過152層的深度網路,將影像識別錯誤率降至3.57%,低于人類的誤識率5.1%;第二件事,2016年微軟做的語音識別,其詞錯率5.9%,和專業速記員水平一樣;第三件事:Alphago打敗韓國圍棋選手李世石,
通過人工智能,利用深度學習、大資料這兩個工具,在一定條件下、一定領域內竟然能夠超過人類,這三件事情給大家極大的鼓舞,
特別是對于業外的人,都認為我只要掌握了大資料,利用深度學習說不定還能搞出奇跡來,于是大家做了很多很多預測,比如在多短時間內計算機會在什么事情上能超過人,
但實際上,在這個之后,奇跡并沒有發生,按照我的估計,今后也不會大量發生,準確一點說,今后或許會在個別領域取得進展,但是不會像之前預計的那樣全面開花,特別是中國市場樂觀的認為“中國市場大、資料多,運用又不受限制,所以將來奇跡一定會發生在中國”,
結果很多企業在做的時候發現,不是那么回事,從目前的情況來看效果最好的事情還是這兩件:影像識別、語音識別,我看了一下,中國人工智能領域20個獨角獸30個準獨角獸企業,近80%都跟影像識別或者語音識別有關系,
經濟觀察報:為什么會出現這樣的情況?或者說在這么長時間后,我們對人工智能目前能做什么有一個清晰的認識了嗎?
張鈸:人工智能在圍棋上戰勝人類后產生了這種恐慌,“大師才能做的事,人工智能居然能做,我的作業這么平凡,肯定會被機器所替代”,這里需要考慮一下它的局限性,我一直在各種各樣的會上談到不要過于樂觀,
人工智能能做的那三件事(語音識別、影像識別、圍棋)是因為它滿足了五個條件,就是說只要滿足了這五個條件,計算機就能做好,只要有任何一個或者多個條件不滿足,計算機做起來就困難了,
第一個是必須具備充足的資料,充足不僅僅是說數量大,還要多樣性,不能殘缺等,
第二個是確定性,
第三個是最重要的,需要完全的資訊,圍棋就是完全資訊博弈,牌類是不完全資訊博弈,圍棋雖然復雜,但本質上只需要計算速度快,不要靠什么智能,可是在日常生活中,我們所有的決策都是在不完全資訊下做的,
第四個是靜態,包括按確定性的規律演化,就是可預測性問題,在復雜路況下的自動駕駛就不滿足這一條;實際上它既不滿足確定性,也不滿足完全資訊,
第五個就是特定領域,如果領域太寬他做不了,單任務,即下棋的人工智能軟體就是下棋,做不了別的,
經濟觀察報:就是說在滿足這五個條件的前提下,目前的人工智能是勝任部分作業的?
張鈸:如果你的作業符合這五個條件,絕對會被計算機替代,符合這五個條件的作業特點很明顯,就是四個字“照章辦事”,不需要靈活性,比如出納員、收銀員,如果你的作業富有靈活性和創造性,計算機絕對不可能完全代替,當然部分代替是可能的,因為其中肯定也有一些簡單和重復性的內容,如果認識到這一條就會認識到人工智能仍處于發展階段的初期,不是像有些人估計的那樣“人工智能技術已經完全成熟,而進入發展應用的階段”,
二、“深度學習技術,從應用角度已經接近天花板了”
經濟觀察報:我們應該怎么去定義目前的深度學習技術路線,它是基于概率學的一個事物嗎?
張鈸:
現在的深度學習本質是基于概率統計
,什么叫做概率統計?沒有那么玄,深度學習是尋找那些重復出現的模式,因此重復多了就被認為是規律(真理),因此謊言重復一千遍就被認為真理,所以為什么大資料有時會做出非常荒唐的結果,因為不管對不對,只要重復多了它就會按照這個規律走,就是誰說多了就是誰,
我常常講我們現在還沒有進入人工智能的核心問題,其實人工智能的核心是知識表示、不確定性推理這些,因為人類智慧的源泉在哪?
在知識、經驗、推理能力,這是人類理性的根本,
現在形成的人工智能系統都非常脆弱容易受攻擊或者欺騙,需要大量的資料,而且不可解釋,存在非常嚴重的缺陷,這個缺陷是本質的,由其方法本身引起的,
經濟觀察報:就是說通過改良的方式無法徹底解決?比如我們再增加神經網路層數和復雜性或者再提升資料的量級,會解決它的缺陷嗎?
張鈸:
改良是不行的,深度學習的本質就是利用沒有加工處理過的資料用概率學習的“黑箱”處理方法來尋找它的規律,這個方法本身通常無法找到“有意義”的規律,它只能找到重復出現的模式,也就是說,你光靠資料,是無法達到真正的智能,
此外,深度學習只是目前人工智能技術的一部分,人工智能還有更大更寬的領域需要去研究,知識表示、不確定性處理、人機互動,等等一大片地方,不能說深度學習就是人工智能,深度學習只是人工智能的一部分,一直到去年人工智能大會交流的論文還是三分之一是機器學習方面,三分之二是其他方面,
經濟觀察報:學界在這上面還是有一個比較清晰的認識?
張鈸:
我可以這么說,全世界的學界大多數有清晰的認識;
全世界的企業界大多持過于樂觀的估計,
為什么出現這樣的情況呢?因為從事過早期人工智能研究的人,大多已經故去或者年老,已經沒有話語權,現在活躍在人工智能研究第一線的都是深度學習、大資料興起以后加入的,他們對人工智能的了解不夠全面,
經濟觀察報:如果說每一個技術路線都有一個“技術潛力”,那么在深度學習方面,我們已經把這個潛力用了多少?
張鈸:
科學研究是很難精確估計的,但是深度學習如果從應用角度,不去改變它,我覺得已經接近天花板了,就是說你要想再出現奇跡的可能性比較小了,
經濟觀察報:那基于此,目前商業公司在底層技術和產業應用上還是有很大的空間嗎?
張鈸:只要選好合適的應用場景,利用成熟的人工智能技術去做應用,還有較大的空間,
目前在學術界圍繞克服深度學習存在的問題,正展開深入的研究作業,希望企業界,特別是中小企業要密切注視研究作業的進展,及時地將新技術應用到自己的產品中,當然像谷歌、BAT這樣規模的企業,他們都會去從事相關的研究作業,他們會把研究、開發與應用結合起來,
經濟觀察報:有一種觀點認為我們強調的“白盒”(可理解性)它實際上是從人的思維來強調的,但是通過大資料、概率統計工具離散到連續的投射,它實際上是機器的思維,你不一定需要它給你一個解釋,只要正確的答案就可以了?
張鈸:
目前有兩種意見,一種觀點認為智能化的道路是多條的,不是只有一條路能通向智能,我們通過自然進化產生了自然智能,那么我們為什么不能通過機器產生機器智能?這個智能和自然智能不會是完全一樣的,條條大路通羅馬,我們通過自然進化獲得的智能也不見得是最佳的,這個觀點我贊成,機器智能與人類不相同,其實是有好處的,恰恰可以互補,發揮各自的長處,
但是從長遠來看,必須得走人類智能這條路,為什么?因為我們最終是要發展人機協同,人類和機器和諧共處的世界,我們不是說將來什么事情都讓機器去管去做,人類在一邊享受,我們要走人機共生這條路,這樣機器的智能就必須和人類一樣,不然沒法共處,機器做出來的事情,我們不能理解,我們的意圖機器也不知道,二者怎么能合作?
經濟觀察報:就是必須具有可解釋性?
張鈸:
是,就是可解釋性,你要它做決策,你不理解它,飛機就讓它開,誰敢坐這架飛機?所以目前的階段,車和飛機還是不能完全讓機器開的,為什么司機坐在上面我們放心?因為我們和他同命運,要撞死一塊撞死,機器和你可不是同一命運,它撞不死,你撞死了,
有的人非常脫離實際的去想這個問題,這是不對頭的,人類怎么會去那樣發展機器呢(注:指把人類的命運全部交給機器)?人類不會去那么發展的,有些人在那邊擔憂什么機器人統治人類,我說這最多只能算遠慮,
經濟觀察報:所以圖靈的論文中也說這種觀點“不值一駁”,
張鈸:
是,那是遠慮,我們目前還有很多近憂,發展人工智能必須要考慮安全問題,這已是現實問題,
你看語音合成,利用現有的技術可以做到以假亂真,和真人基本沒有差別,現在看來這種技術不能推廣應用,因為一旦推廣就全亂套了,只要搞一段用語音合成技術做成的假錄音,就可以讓任何一位名人身敗名裂,這些都是非常危險的技術,人工智能的治理已經提到日程上了,
三、“我們培養不出愛因斯坦、培養不出圖靈”
經濟觀察報:一種觀點認為中國有更多的資料和更多的工程師,這種規模能倒推帶來基礎研究層面的突破或者決定技術的路線?
張鈸:這里混淆了好多概念,科學、技術、工程,科技水平需要三個標準來衡量,一個是科研水平、一個是技術水平、一個是工程實踐能力,或者產業化能力,
我們中國什么情況?從工程角度來看,在一些領域我們“接近世界水平”;技術水平我用的詞是“較大差距”,因為不少東西還是外國會做我們不會做;科研究領域我用的詞是“很大差距”,科學研究就是原創,實際上,所有人工智能領域的原創成果都是美國人做出來的,人工智能領域圖靈獎得主共十一人,十個美國人,一個加拿大人,
經濟觀察報:資料顯示中國在人工智能領域的論文發表量和被參考次數都已經進入前列位置,這是否說明中國人工智能科學研究領域的突破?
張鈸:如果單從論文來看研究水平,基本反映在三個指標上:數量、平均參考率、單篇最高參考率,拿人工智能來講,中國研究者論文的數量和平均參考率都還不錯,但是單篇最高參考率和世界差距就很大,而這個指標恰恰是反映你的原創能力,
也就是說深度學習這個領域,我們的平均水平達到世界水平了,但是最高水平和世界差距還是很大的,不過還是要肯定的,我們應用上發展比較快,
經濟觀察報:清華在這方面有什么優勢嗎?
張鈸:在人工智能重要的會議雜志上,這十年期間論文數量、平均質量CMU(美國卡耐基梅隆大學)排第一,清華大學排第二,我們培養的人,在計算機這個領域,清華的本科、博士生都是世界一流的,
目前我們的跟蹤能力是比較強的,一旦有人起個頭,我們能迅速跟上去,但是很可惜,我們缺乏頂尖人物,也培養不出頂尖的人才,如愛因斯坦、圖靈等,
我個人認為原因之一,可能與中國的文化有點關系,我們的從眾心理很嚴重,比如在人工智能領域,深度學習很熱,發表的論文作者中幾乎70%是華人,但是其他非熱門領域,包括不確定性推理、知識表示等幾乎沒有華人作者,這就是從眾扎堆,不愿意去探索“無人區”,
當然也不要著急,科學研究本來就是富人干的事情,是富國干的事情,我們還是發展中國家,科學研究起點比較低,暫時落后是難免的,我們會迎頭趕上,
四、“低潮會發生,但不會像過去那樣”
經濟觀察報:如果說深度學習已進天花板,那么人工智能未來的前進方向將會在哪?
張鈸:最近我們準備提出一個新的概念,就是第三代人工智能的概念,人工智能實際上經歷過兩代,第一代就是符號推理,第二代就是目前的概率學習(或深度學習),我們認為現在正在進入人工智能的第三代,原因很明顯,第一代、第二代都有很大的局限性,
經濟觀察報:你所說的第三代人工智能技術是有明確的實作方向或者特點嗎?
張鈸:我們現在提出的是要建立可解釋、魯棒性(注:
可以理解為穩健性)的人工智能理論和方法,發展安全、可靠和可信的人工智能技術,
經濟觀察報:這樣的技術可能要等很久?
張鈸:是啊,很難預計,我們也很著急,
經濟觀察報:是不是還得回歸到數學等理論層面里再去找新的方法?
張鈸:這個目前我們有兩條路,一個是和數學結合,一個是和腦科學結合,你想想如果沒有新的數學工具,沒有來自于腦科學啟發下的新思路,哪來的新理論?另一方面是要把資料驅動和知識驅動結合起來,因為通過數學、腦科學上尋求突破是比較艱難的,前面這件事現在則完全能夠做,
經濟觀察報:這個結合是指之前幾十年人工智能的經驗統合到一塊?
張鈸:是的,至少有一個方向就是要把第一代和第二代結合,利用各自的優勢,但是這兩個結合很困難,因為他們在不同空間中操作,一個是向量空間,一個是符號空間,也需要有新的數學工具的加入,
經濟觀察報:看人工智能歷史,每一代技術之間有很長的間隔期,第三代人工智能技術也會這樣嗎?
張鈸:我認為會更長,因為需要攻堅,因為遇到的問題更困難,
經濟觀察報:會不會再過10年、20年,人工智能在學界或者公眾心中,又變成一個“隱學”,就像70、80年代那樣,大眾又不會再經常提起來這個詞?
張鈸:低潮會發生,但不會像過去那樣,原因在哪?因為有大資料、互聯網和強大的計算資源,這些都會支撐人工智能繼續走下去,盡管有的時候還只是表面上的繁榮,
附:
在2018 全球人工智能與機器人峰會上,清華大學人工智能研究院院長張鈸院士做題為“走向真正的人工智能”(Towards A Real Artifitial Intelligence)的大會報告,以下為報告全文,供大家學習交流,
張鈸院士:走向真正的人工智能
我今天要講的中心思想就是:我們現在離真正的人工智能還有一段很長的路,為了講清這個思想,我必須回答下面三個問題:
第一,什么叫做真正的人工智能?我們的目標是什么?
第二,為什么我們需要真正的人工智能?
第三,我們如何走向真正的人工智能?
我現在回答這三個問題,
首先我們如何評價目前人工智能取得的成果,我們的評價很簡單,針對這 5 件事:
第一是深藍打敗人類國際象棋冠軍;第二是 IBM 在電視知識競賽中打敗了美國的前兩個冠軍,這兩件事是一種型別,后面的三件事是另外一種型別;即 2015 年微軟在 ImageNet 上做圖象識別,它的誤識率略低于人類,還有百度、訊飛也都宣布在單句的中文語音識別上,它的誤識率也略低于人類,還有一個是大家非常熟悉的 AlphaGo 打敗了李世石,這 5 件事情都是機器在一定的范圍內超過了人類,我們如何來評價這 5 件事?
大家一致認為這 5 件事之所以成功,是由于前面三個因素,一是大資料,二是計算能力提高,第三是有非常好的人工智能演算法,這三個因素大家都討論得非常多了,沒必要我再來說,我現在要說的最后一個因素是被大家所忽略的,這個因素是說,這所有的成果必須建立在一個合適的應用場景下,這 5 件事雖然領域很不一樣,但是它們都滿足完全一樣的條件,或滿足下面的 5 個限制,首先你必須有豐富的資料或者豐富的知識,如果這兩件東西沒有,或者很少,你不用來談人工智能,因為你無法實作無米之炊,人工智能唯一的兩個資源,一個是資料,一個是知識,還有確定性資訊、完全資訊、靜態的、單任務和有限領域,這 5 個條件里面任何一個條件不滿足,現在的人工智能做起來就非常困難了,
大家想想這 5 個限制條件下的應用場景是什么樣的應用場景?就是照章辦事,不需要任何靈活性,這顯然不是智能的核心,
我們現在分析一下上述 5 個場景,下象棋是完全資訊博弈,資訊完全和確定,沒有問題,其次,它遵循著完全確定的游戲規則演化,我們把這種情況也叫做靜態,Watson 機器人也是這樣,Watson 是什么樣的對話問題呢?它為什么選擇知識競賽呢?我們知道知識競賽提的問題都沒有二義性,都是明確的,它的答案總是唯一性的,所以這樣的問答對機器人來講是非常容易的,它涉及的領域雖然比較寬,但也是有限的,包括大家覺得很玄乎的圍棋,也完全符合上面 5 個條件,所以對計算機來說也是很容易的,目前計算機打麻將就不行,因為牌類是不完全資訊博弈,所以比棋類要難,總之,我們對目前人工智能取得的成果要有一個正確的評價,
目前的人工智能技術在以下領域都可以找到它的應用,它們是交通、服務、教育、娛樂等等,但我要強調是這些領域里面只有滿足上述 5 個條件的事情,計算機做起來才會容易,如果不滿足這些條件,計算機就做起來就困難了,大家常常關心什么樣的作業會被機器所替代,我可以明確告訴大家,滿足這 5 個條件的作業,總有一天會被計算機取代,就是那些照章辦事,不需要任何靈活性的作業,比如說出納員、收銀員等等,在座的所有作業都不可能被計算機完全代替,但不排斥你的作業中有一部分會被計算機取代,老師、企業家等的作業不可能被計算機完全代替,
為什么有這 5 個限制?原因在于我們現在的人工智能是沒有理解的人工智能,
我們先看符號模型,理性行為的模型,舉 Watson 的例子,它是個對話系統,我們現在所有做的對話系統都跟這個差不多,但是 Watson 做得更好些,它里面有知識庫,有推理機制,沃森除了專家知識之外,還有大量互聯網上大眾的知識,還運用了多推理機制,請看,這就是 Watson 系統的體系結構,它里面有哪些知識呢?有很多,包括百科全書、有線新聞、文學作品等等,所有的知識用紙質來表示有 2 億頁,用存盤量表示達到了 4TB,它能回答什么問題呢?用它的例子來說明,第一個問題,1974 年 9 月 8 日誰被總統赦免?這對美國人來講很好回答,同樣對計算機來講也很好回答,你用這幾個關鍵字「1974 年 9 月 8 日」、「被總統赦免」,就能在文獻里頭查出來是誰,他就是尼克松,也就是說根據問題中的關鍵字,可以在已有的文獻里頭直接找到答案,這就是一般的網路檢索方法,
第二個問題,熒光粉受到電子撞擊以后,它的電磁能以什么方式釋放出來?我們用「熒光粉」、「電子撞擊」、「釋放電磁能」等關鍵詞,也可以找到答案:「光或者光子」,這種方法就是平時網路搜索的原理,應該說沒有什么智能,
回答下面的問題就需要「智能」了,跟智利陸地邊界最長的是哪個國家?跟智利有陸地邊界的國家可以檢索到,它們是阿根廷和玻利維亞,但是誰的邊境長?通常查不到,Watson 具備一定的推理能力,它從邊界間發生的事件、邊界的地理位置等等,經過分析推理以后就可以找出答案,它就是阿根廷,下一個問題也屬于這種性質,跟美國沒有外交關系的國家中哪個最靠北,跟美國沒有外交關系的國家有 4 個,只要檢索就行了,但是哪個國家最靠北,沒有直接答案,但可以從其它資訊中推匯出來,比如各個國家所處的緯度、氣候寒冷的程度等等分析出來,答案是北朝鮮,
智能體現在推理能力上,
但是很不幸,現在的對話系統推理能力都很差,Watson 系統好一些,但也很有限,換句話說,我們現在的對話系統離真正的智能還很遠,
我們通過索菲亞機器人就可以看出來,索菲亞的對話是面向開放領域,你可以隨便提問,問題就暴露出來了,大家在電視上看到索菲亞侃侃而談,問什么問題都能答得很好,這里面有玄機,如果你的問題是預先提出來的,因為里頭有答案,因此回答得非常好,在電視上給大家演示的都是這種情況,
如果我們臨時提問題,問題就出來了,這是一個中國記者給索菲亞提的 4 個問題,它只答對了一個,「你幾歲了」,這個問題很簡單,它答不上來,它的回答是「你好,你看起來不錯」,答非所問,因為它不理解你所問的問題,只有第二個問題它是有準備的,里面有答案,所以答得很好,「你的老板是誰」,這個肯定它有準備,第三個問題,「你能回答多少問題呢」?它說「請繼續」,沒聽懂!,再問第四個問題,「你希望我問你什么問題呢」?它說「你經常在北京做戶外活動嗎」?這就告訴我們說,現代的問答系統基本上沒有理解,只有少數有少量的理解,像 Watson 這樣算是比較好的,
為什么會這樣?也就是說我們現在的人工智能基本方法有缺陷,我們必須走向具有理解的 AI,這才是真正的人工智能,我這里提出的概念跟強人工智能有什么區別?首先我們說它在這點上是相同的,我們都試圖去準確地描述人類的智能行為,希望人工智能跟人類的智能相近,這也是強人工智能的一個目標,但是強人工智能只是從概念上提出來,并沒有從方法上提出怎么解決,大家知道強人工智能提出了一個最主要的概念,就是通用人工智能,怎么個通用法?它沒有回答,我們現在提出來的有理解的人工智能是可操作的,不只是概念,這是我們跟強人工智能的區別,
人機對話的時候,機器為什么不能理解人們提的問題,我們看一個例子就知道了,我們在知識庫里把「特朗普是美國總統」這個事實,用「特朗普-總統-美國」這三元組存在計算機里面,如果你提的問題是「誰是美國總統」?機器馬上回答出來:「特朗普」,但是你如果問其它有關的問題,如「特朗普是一個人嗎」?「特朗普是一個美國人嗎」?「美國有沒有總統」?它都回答不了,它太傻了,任何一個小學生,你只要告訴他特朗普是美國總統,后面這幾個問題他們絕對回答得出來,機器為什么回答不了后面的三個問題呢?就是這個系統太笨了,沒有常識,也沒有常識推理,既然特朗普是美國的總統,美國當然有總統,但是它連這一點常識的推理能力都沒有,所以要解決這個問題,必須在系統中加上常識庫、常識推理,沒有做到這一步,人機對話系統中機器不可能具有理解能力,但是大家知道,建立常識庫是一項「AI 的曼哈頓工程」,大家想想常識庫多么不好建,怎么告訴計算機,什么叫吃飯,怎么告訴計算機,什么叫睡覺,什么叫做睡不著覺,什么叫做夢,這些對人工智能來說都非常難,美國在 1984 年就搞了這樣一個常識庫的工程,做到現在還沒完全做出來,可見,要走向真正的人工智能,有理解的人工智能,是一條很漫長的路,
這里介紹一點我們現在做的作業,加入常識以后,對話的性能會不會有所改善,
我們的基本做法是建立一個常識圖譜,用這個圖譜幫助理解提出的「問題」,同時利用常識圖譜幫助產生合適的答案,
下面就涉及到具體怎么做了,我不詳細說了,我就說結果,結果是有了常識以后,性能有了顯著的改善,對話的質量提高了,這篇文章已經發表,有興趣可以去閱讀,
另外是準符號模型,深度學習、神經網路主要用來模擬感性行為,感性行為是一般很難采用符號模型,因為感性(感覺)沒法精確描述,比如「馬」,怎么告訴計算機什么叫做馬?你說馬有四條腿,什么叫做腿?你說細長的叫做腿,什么叫細?什么叫做長?沒法告訴機器,因此不能用符號模型,目前用的辦法就是我們現在說的神經網路或者準符號模型,也就是用人類同樣的辦法,學習、訓練,我不告訴機器什么叫做馬,只是給不同的馬的圖片給它看,進行訓練,訓練完以后,然后再用沒見過的馬的圖片給它看,說對了,就是識別正確了,說不對就是識別不正確,如果 90% 是對的,就說明它的識別率是 90%,后來從淺層的神經網路又發展到多層的神經網路,從淺層發展到多層有兩個本質性的變化,一個本質性的變化就是輸入,深層網路一般不用人工選擇的特征,用原始資料就行,所以深度學習的應用門檻降低了,你不要有專業知識,把原始資料輸進去就行了,第二個是它的性能提高很多,所以現在深度學習用得很多,原因就在這個地方,
通過資料驅動建立的系統能不能算是有智能呢?必須打一個很大的問號,就是說你做出來的人臉識別系統甚至識別率會比人還高,但是我們還不能說它有智能,為什么呢?這種通過資料驅動做出來的系統,它的性能跟人類差別非常大,魯棒性很差,很容易受干擾,會發生重大的錯誤,需要大量的訓練樣本,我們剛才已經說過,給定一個影像庫我們可以做到機器的識別率比人還要高,也就是說它可以識別各種各樣的物體,但是這樣的系統,我如果用這個噪聲輸給它,我可以讓它識別成為知更鳥,我用另外的噪聲輸給它,可以讓它識別成為獵豹,換句話講,這樣的系統只是一個機械的分類器,根本不是感知系統,也就是說它盡管把各種各樣動物分得很清楚,但是它不認識這個動物,它盡管可以把獵豹跟知更鳥分開,但是它本質上不認識知更鳥和獵豹,它只到達了感覺的水平,并沒有達到感知的水平,它只是「感」,沒有上升到「知」,我們的結論是,只依靠深度學習很難到達真正的智能,這是很嚴峻的結論,因為如果有這樣的問題,在決策系統里頭是不能用這樣的系統,因為它會犯大錯,我在很多場合講過,人類的最大的優點是「小錯不斷、大錯不犯」,機器最大的缺點是「小錯不犯,一犯就犯大錯」,這在決策系統里頭是不允許的,這就顯示人跟機器的截然不同,人非常聰明,所以他做什么事都很靈活,這就使得他很容易犯各種各樣的小錯,但是他很理性,很難發生大錯,計算機很笨,但是很認真,小錯誤絕對不會犯,但是它一犯就是天大的錯誤,剛才把那個把噪聲看成知更鳥,這不是大錯嗎?你把敵人的大炮看成一匹馬,不是大錯嗎?但是人類不會發生這種錯誤,人類只會把騾看成驢,但是計算機的識別系統會把驢看成一塊石頭,原因在哪兒?原因還是 AI 的理解能力問題,
我們看這個自動駕駛,過去講得很多,而且講得很樂觀,我們看看問題在什么地方,我們現在是這樣做,我們通過資料驅動的學習方法,學習不同場景下的圖象分割,并判別是車輛還是行人、道路等,然后建立三維模型,在三維模型上規劃行駛路徑,現在用硬體已經可以做到實時,請問大家,這樣能不能解決問題?如果路況比較簡單,行人、車輛很少,勉強可以用,復雜的路況就用不了,什么原因?非常簡單,好多人總結出這個經驗,行人或者司機都會有意無意破壞交通規則,包括外國人也一樣,中國人更嚴重一點,這就使得資料驅動方法失效,比如說我們可以用資料驅動方法來了解各種各樣行人的行為,我們可以通過大量進行訓練,都訓練完以后,如果出現新的情況呢?計算機能理解這是人從底下鉆過來,很危險嗎?所以你不可能把所有情況都訓練到,自動駕駛不可能對付突發事件,如果這個突發事件它沒見過,它就解決不了,怎么來解決這個問題呢?實際上就是要解決從「Without」到「With」理解的問題,人工智能現在有兩種基本方法,一種是用符號模型來模擬理性行為,符號模型可以表達資訊的內容,所以它是在一個語意的符號空間里頭,但是非常不幸,這個離散的符號表示,數學工具很難用,很多數學工具用不上去,所以它發展很慢,在模擬感性行為的時候,我們用的是特征空間的向量,向量就是數,可以把所有的數學工具都用上,優化的工具、概率統計的工具全部用上,所以資料驅動方法這幾年發展非常快,再難的問題,下圍棋非常難吧,計算機也可以「算」出來,但是它有一個非常大的缺陷,它是在特征空間里,缺乏語意,我們用資料去訓練一個模型,所謂「黑箱學習法」,加上你的資料質量不高,很難學出有用的東西,什么叫概率統計?重復多了就是真理,如果資料質量差,充滿了「謊言」,謊言重復多了,就變成真理了,
我們現在想出的解決辦法是這樣的,就是把這兩個空間投射到一個空間去,這個空間叫做語意的向量空間,
也就是說我們把符號變成向量,同時把特征空間的向量變成語意空間的向量,怎么做?一是通過 Embedding(嵌入)把符號變成向量,盡量保持語意不變,可惜現在的方法都會引起語意的丟失,我們只能在投射的程序中讓語意丟失得少,第二方面做的作業比較少,就是 Raising(提升),把特征空間提升到語意空間去,這主要靠學科交叉,靠跟神經科學的結合,只有這些問題解決以后,我們才能夠建立一個統一的理論,因為過去的感知和認知是不同的處理方法,大家說不到一塊,如果我們能夠投射到同一空間去,我們就可以建立一個統一的理論框架,這是我們的目標,在語意空間處理就可以解決理解問題,但是這項作業是非常艱巨的,
介紹一項我們現在做的作業,人工神經網路為什么不能得到語意資訊呢?人腦的神經網路為什么可以呢?差別就在這里,我們現在用的人工神經網路太簡單了,我們正想辦法把腦神經網路的許多結構與功能加進去,我們這里只用了「稀疏發電」這一性質,就可以看出一些效果,人臉、大象或者鳥的輪廓,神經網路可以把它提取出來,
還有一個辦法就是把資料驅動跟知識驅動結合起來,
剛才講了,人的智能沒法通過單純的大資料學習把它學出來,那怎么辦?很簡單,加上知識,讓它有推理的能力,做決策的能力,這樣就能解決突發事件,我們現在做的作業就是把這些結合起來,這是我們的基本思路,知識也好,資料也好,都投射到同一空間,然后都用同樣的數學方法進行處理,這方面我們已經做了不少作業,
最后做一個總結,我們從這個坐標看人工智能,橫軸代表領域的寬窄,從單領域到多領域、到開放領域,縱軸代表資訊的確定性與完全性,從完全到不完全、從確定到不確定,在左下角代表最容易的,就是剛才講的符合 5 個條件的,現在人工智能在這部分解決得非常好,我們用白色來表示它,AlphaGo 在這里,深藍在這里,工業機器人在這里,現在我們正在向灰色地區去走,打牌,資訊不完全,現在打德州撲克,一人對一人,計算機能戰勝人類,多人對弈,計算機還不行,這是灰色地帶,我們還可以做,為什么可以做?盡管打牌是不確定的,但是它在概率意義下是確定的,你拿的這副牌的概率,可以算出來,同花的概率是多少,排成順的概率是多少,既然概率能算出來,最終人類肯定會被計算機打敗,Watson 在右邊,它的領域比較寬,但是它是確定性的,所以是在灰色的區域,往右上方去就比較難了,自動駕駛、服務機器人、大資料分析,它是一個大框,有的簡單,有的困難,就自動駕駛來講,專用道、行車很少,路況簡單等,在白色或者灰色區,如果路況復雜就到了黃色區域,黃色區現在計算機還解決不好,最遠的在哪兒呢?右上角,圖靈測驗,大家對圖靈測驗有很多誤解,其實圖靈測驗是開領域問答,很難!索菲亞做得怎么樣?很糟糕,自然語言理解也在這里,復雜環境下的決策在偏左一點的地方,這也是很難的,所以我們人工智能現在是從左下角往右上角走,我們現在處在出發點附近,有的人想把它用一些名詞來區分人工智能的不同發展階段,有專家問我,你的看法怎么樣?我建議不要用新詞,用新詞往往說不清,很麻煩,有的人說現在是弱人工智能,以后是強人工智能,也有人說現在叫增強智能(Augmented Intelligence)也是 AI……概念太多說不清,還是簡單一點,「我們正在通往真正 AI 的路上」,現在走得并不遠,在出發點附近,人工智能永遠在路上,大家要有思想準備,這就是人工智能的魅力,
大家為什么這么重視人工智能?因為我們永遠在路上,這就吸引我們去解決這些問題,這些問題一旦解決了,人類的社會進步、人類的生活就會發生本質上的改變,
最后我用中文寫最后一段作為總結,可惜我翻譯不了,
周穆王西巡狩,路遇匠人名偃師,翌日偃師謁見王,偕來一個假人,「趨步俯仰,信人也」,「領其顱,則歌合律;捧其手,則舞應節,千變萬化,惟意所適,王以為實人也,與盛姫內御并觀之,技將終,倡者瞬其目而招王之左右侍妾,王大怒,要殺這個偃師,偃師大懾,立剖其倡者以示王,皆傅會革、木、膠、漆、白 、黑、丹、青之所為,穆王始悅,詔貳車載之以歸,
這是 3000 年前我們古人對機器人的想象,看看現在的人工智能做得怎么樣呢?索菲亞是我們現在達到的水平,可是她不會唱歌、不會跳舞,只會說英文,周王也聽不懂,肯定沒有印象,現在我們假設索菲亞「瞬其目而招王之左右侍妾」,向周王的姨太太們送去秋波,投訓如何呢?我認為沒反應,因為索菲亞是女的,他用不著吃醋,但是我們假設索菲亞「瞬其目而招王」,向大王送去秋波,投訓大悅,立即神魂顛倒,墜入愛河?我認為不會,因為索菲亞根本不像人,它最近才剛剛安上手腳,走路都不利索,怎么行呢?所以我的結論是,「索菲亞通不過穆王的測驗,當然它更通不過圖靈測驗」,
我們的結論是什么?
人工智能剛剛起步,離真正的 AI 還很遙遠,
大家共同努力吧,我們任重道遠,