曠視科學傢詳解AlphaGo Zero的偉大與局限
10 月19 日凌晨,DeepMind 在《Nature》發佈最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學習,3 天訓練後就以100 比0 擊敗瞭上一版本的AlphaGo,21 攪拌機天達到AlphaGo Master 水平。AlphaGo Zero 的勝利引起瞭業內和網友們的廣泛關註,但是機器已經真的進化到可以自我學習瞭嗎?日前,專註報道AI的量子位對曠視科技Face++首席科學傢孫劍博士做瞭專訪,詳盡解讀瞭AlphaGo Zero的技術創新和應用局限。
“人類太多餘瞭。”——面對無師自通碾壓一切前輩的AlphaGo Zero,柯潔說出瞭這樣一句話。
如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:
今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮0:3敗給瞭DeepMind的人工智能程序AlphaGo,當時的版本叫做Master,就是今年年初在網上60:0挑落中日韓高手的那個神秘AI。
AlphaGo Zero驟然出現,可以說是在柯潔快要被人類對手和迷妹們治愈的傷口上,撒瞭一大把胡椒粉。
被震動的不止柯潔,在DeepMind的Nature論文公佈之後,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經地探討“未來是終結者還是黑客帝國”。
於是,不少認真讀瞭論文的人工智能“圈內人”紛紛站出來,為這次技術進展“去魅”。
AlphaGo Zero無師自通?
首當其沖的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經驗真的一點用都沒有嗎?
在這一版本的AlphaGo中,雖說人類的知識和經驗沒多大作用,但也不至於“多餘”。
在Zero下棋的過程中,並沒有從人類的對局經驗和數據中進行學習,但這個算法依然需要人類向它灌輸圍棋的規則:哪些地方可以落子、怎樣才算獲勝等等。
剩下的,就由AI自己來搞定瞭。
對於這個話題,鮮有人比曠視科技首席科學傢孫劍更有發言權瞭,因為AlphaGo Zero裡面最核心使用的技術ResNet,正是孫劍在微軟亞洲研究院時期的發明。
△ 曠視科技Face++首席科學傢孫劍博士
孫劍也在接受量子位等媒體采訪的過程中,對AlphaGo Zero的“無師自通”作出瞭評價,他認為這個說法“對,也不對”,並且表示“偉大與局限並存”。
究竟對不對,還是取決於怎樣定義無師自通,從哪個角度來看。
和之前三版AlphaGo相比,這一版去掉瞭人類教授棋譜的過程,在訓練過程最開始的時候,AI落子完全是隨機的,AlphaGo團隊的負責人David Silver透露,它一開始甚至會把開局第一手下在1-1。在和自己對弈的過程中,算法才逐漸掌握瞭勝利的秘訣。
從這個角度來看,Zero的確可以說是第一次做到瞭無師自通,也正是出於這個原因,DeepMind這篇Nature論文才能引起這麼多圈內人關註。
但要說它是“無監督學習”,就有點“不對微電腦定量充填機”。孫劍說:“如果仔細看這個系統,它還是有監督的。”它的監督不是來自棋譜,而是圍棋規則所決定的最後誰輸誰贏這個信號。
“從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規則所帶來的監督信號,它是一種非常弱監督的增強學習,它不是完全的無師自通。”
孫劍還進一步強調:“但是同時這種無師自通在很多AI落地上也存在一些局限,因為嚴格意義上講,圍棋規則和判定棋局輸贏也是一種監督信號,所以有人說人類無用、或者說機器可以自己產生認知,都是對AlphaGo Zero錯誤理解。”
離全面碾壓人類有多遠?
Zero發佈之後,媒體關切地詢問“這個算法以後會用在哪些其他領域”,網友認真地擔心“這個AI會不會在各個領域全面碾壓人類”。
對於Zero算法的未來發展,DeepMind聯合創始人哈薩比斯介紹說,AlphaGo團隊的成員都已經轉移到其他團隊中,正在嘗試將這項技術用到其他領域,“最終,我們想用這樣的算法突破,來解決真實世界中各種各樣緊迫的問題。”
DeepMind期待Zero解決的,是“其他結構性問題”,他們在博客中特別列舉出幾項:蛋白質折疊、降低能耗、尋找革命性的新材料。
哈薩比斯說AlphaGo自動填充機可以看做一個在復雜數據中進行搜索的機器,除瞭博客中提到幾項,新藥發現、量子化學、粒子物理學也是AlphaGo可能大展拳腳的領域。
不過,究竟哪些領域可以擴展、哪些領域不行呢?
孫劍說要解釋AlphaGo算法能擴展到哪些領域,需要先瞭解它現在所解決的問題——圍棋——具有哪些特性。
首先,它沒有噪聲,是能夠完美重現的算法;
其次,圍棋中的信息是完全可觀測的,不像在麻將、撲克裡,對手的信息觀測不到;
最後也是最重要的一點,是圍棋對局可以用計算機迅速模擬,很快地輸出輸贏信號。
基於對圍棋這個領域特性的理解,提到用AlphaGo算法來發現新藥,孫劍是持懷疑態度的。
他說,發現新藥和下圍棋之間有一個非常顯著的區別,就是“輸贏信號”能不能很快輸出:“新藥品很多內部的結構需要通過搜索,搜索完以後制成藥,再到真正怎麼去檢驗這個藥有效,這個閉環非常代價昂貴,非常慢,你很難像下圍棋這麼簡單做出來。”
不過,如果找到快速驗證新藥是否有效的方法,這項技術就能很好地用在新藥開發上瞭。而用AlphaGo算法用來幫數據中心節能,孫劍就認為非常說得通,因為它和圍棋的特性很一致,能快速輸出結果反饋,也就是AlphaGo算法依賴的弱監督信號。
當然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領域內可以做得非常好,但其實並沒有“全面碾壓人類”的潛力。
去魅歸去魅,對於AlphaGo Zero的算法,科研人員紛紛贊不絕口。
大道至簡的算法
在評價Zero的算法時,創新工場AI工程院副院長王詠剛用瞭“大道至簡”四個字。
簡單,是不少人工智能“圈內人”讀完論文後對Zero的評價。剛剛宣佈將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說,這篇論文“沒有提出任何新的方法和模型”,但是徹底地實現瞭一個簡單有效的想法。
為什麼“簡單”這件事如此被學術圈津津樂道?孫劍的解釋是“我們做研究追求極簡,去除復雜”,而Zero的算法基本就是在前代基礎上從各方面去簡化。
他說,這種簡化,一方面體現在把原來的策略網絡和價值網絡合並成一個網絡,簡化瞭搜索過程;另一方面體現在用深度殘差網絡(ResNet)來對輸入進行簡化,以前需要人工設計棋盤的輸入,體現“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的信息,而現在是“把黑白子二值的圖直接送進來,相當於可以理解成對著棋盤拍照片,把照片送給神經網絡,讓神經網絡看著棋盤照片做決策”。孫劍認為,擬合搜索和ResNet,正是Zero算法中的兩個核心技術。
其中擬合搜索所解決的問題,主要是定制化,它可以對棋盤上的每一次落子都進行量化,比如會對最終獲勝幾率做多大貢獻,但是這其實並不是近期才產生的一種理論,而是在很早之前就存在的一種基礎算法理論。
而另一核心技術是最深可達80層的ResNet。總的來說,神經網絡越深,函數映射能力就越強、越有效率,越有可能有效預測一個復雜的映射。
下圍棋時要用到的,就是一個非常復雜的映射,神經網絡需要輸出每個可能位置落子時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常復雜的輸出,需要很深的網絡來解決。
人類棋手下棋,落子很多時候靠直覺,而這背後實際上有一個非常復雜的函數,Zero就用深層ResNet,擬合出瞭這樣的函數。
ResNet特點就是利用殘差學習,讓非常深的網絡可以很好地學習,2015年,孫劍帶領的團隊就用ResNet把深度神經網絡的層數從十幾二十層,推到瞭152層。
也正是憑借這樣的創新,孫劍團隊拿下瞭ImageNet和MSCOCO圖像識別大賽各項目的冠軍。到2016年,他們又推出瞭第一個上千層的網絡,獲得瞭CVPR最佳論文獎。
而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero算法中的核心組件之一。
這位曠視科技Face++首席科學傢表示很開心為推動整個AI進步“做瞭一點微小的貢獻”,同時也很欽佩DeepMind團隊追求極致的精神。孫劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更註重技術在產業中的實用性,進一步推動整個AI產業的進步。
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表