AlphaGo

AlphaGo

圍棋人工智能程序
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序,由谷歌旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發,這個程序利用“價值網絡”去計算局面,用“策略網絡”去選擇下子。“AlphaGo”程序利用“價值網絡”去計算局面,用“策略網絡”去選擇下子。訓練這些深度神經網絡的,是對人類專業棋局的監督學習以及讓它和自己對弈的增強學習。
    中文名:阿爾法圍棋 外文名:AlphaGo 别名: 開發商:DeepMind 設計者:戴密斯·哈薩比斯、大衛·席爾瓦等 重大事件:圍棋人機大戰 主要成績:戰勝人類圍棋頂尖高手

舊版原理

深度學習

阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序。其主要工作原理是“深度學習”。“深度學習”是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再産生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合适的矩陣數量,多層組織鍊接一起,形成神經網絡“大腦”進行精準複雜的處理,就像人們識别物體标注圖片一樣。n

阿爾法圍棋用到了很多新技術,如神經網絡、深度學習、蒙特卡洛樹搜索法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟件的開發者田淵棟在網上發表分析文章說,阿爾法圍棋系統主要由幾個部分組成:一、策略網絡(Policy Network),給定當前局面,預測并采樣下一步的走棋;二、快速走子(Fast rollout),目标和策略網絡一樣,但在适當犧牲走棋質量的條件下,速度要比策略網絡快1000倍;三、價值網絡(Value Network),給定當前局面,估計是白勝概率大還是黑勝概率大;四、蒙特卡洛樹搜索(Monte Carlo Tree Search),把以上這三個部分連起來,形成一個完整的系統。

兩個大腦

阿爾法圍棋(AlphaGo)是通過兩個不同神經網絡“大腦”合作來改進下棋。這些“大腦”是多層神經網絡,跟那些Google圖片搜索引擎識别圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13個完全連接的神經網絡層産生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

第一大腦:落子選擇器(Move Picker)

阿爾法圍棋(AlphaGo)的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)”,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

第二大腦:棋局評估器(Position Evaluator)

阿爾法圍棋(AlphaGo)的第二個大腦相對于落子選擇器是回答另一個問題,它不是去猜測具體下一步,而是在給定棋子位置情況下,預測每一個棋手赢棋的概率。這“局面評估器”就是“價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對于閱讀速度提高很有幫助。通過分析歸類潛在的未來局面的“好”與“壞”,阿爾法圍棋能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀。

這些網絡通過反複訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的随機性元素,所以人們是不可能精确知道網絡是如何“思考”的,但更多的訓練後能讓它進化到更好。

操作過程

阿爾法圍棋(AlphaGo)為了應對圍棋的複雜性,結合了監督學習和強化學習的優勢。它通過訓練形成一個策略網絡(policy network),将棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。然後,訓練出一個價值網絡(value network)對自我對弈進行預測,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的标準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而阿爾法圍棋将這兩種網絡整合進基于概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。新版的阿爾法圍棋産生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往複。n

在獲取棋局信息後,阿爾法圍棋會根據策略網絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模拟過程中被系統最頻繁考察的位置将成為阿爾法圍棋的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,阿爾法圍棋的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。n

2017年1月,谷歌Deep Mind公司CEO哈薩比斯在德國慕尼黑DLD(數字、生活、設計)創新大會上宣布推出真正2.0版本的阿爾法圍棋。其特點是擯棄了人類棋譜,隻靠深度學習的方式成長起來挑戰圍棋的極限。

新版原理

自學成才

AlphaGo此前的版本,結合了數百萬人類圍棋專家的棋譜,以及強化學習的監督學習進行了自我訓練。n

AlphaGoZero的能力則在這個基礎上有了質的提升。最大的區别是,它不再需要人類數據。也就是說,它一開始就沒有接觸過人類棋譜。研發團隊隻是讓它自由随意地在棋盤上下棋,然後進行自我博弈。n

“這些技術細節強于此前版本的原因是,我們不再受到人類知識的限制,它可以向圍棋領域裡最高的選手——AlphaGo自身學習。”AlphaGo團隊負責人大衛?席爾瓦(Dave Sliver)說。n

據大衛·席爾瓦介紹,AlphaGoZero使用新的強化學習方法,讓自己變成了老師。系統一開始甚至并不知道什麼是圍棋,隻是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。n

随着自我博弈的增加,神經網絡逐漸調整,提升預測下一步的能力,最終赢得比賽。更為厲害的是,随着訓練的深入,DeepMind團隊發現,AlphaGoZero還獨立發現了遊戲規則,并走出了新策略,為圍棋這項古老遊戲帶來了新的見解。

一個大腦

AlphaGoZero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了“策略網絡”來選擇下一步棋的走法,以及使用“價值網絡”來預測每一步棋後的赢家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。

神經網絡

AlphaGoZero并不使用快速、随機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中赢得比賽。相反,新版本依靠地是其高質量的神經網絡來評估下棋的局勢。

舊版戰績

對戰機器

研究者讓“阿爾法圍棋”和其他的圍棋人工智能機器人進行了較量,在總計495局中隻輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智能機器人,勝率分别是77%、86%和99%。n

2017年5月26日,中國烏鎮圍棋峰會舉行人機配對賽。對戰雙方為古力/阿爾法圍棋組合和連笑/阿爾法圍棋組合。最終連笑/阿爾法圍棋組合逆轉獲得勝利。

對戰人類

2016年1月27日,國際頂尖期刊《自然》封面文章報道,谷歌研究者開發的名為“阿爾法圍棋”(AlphaGo)的人工智能機器人,在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智能領域,實現了一次史無前例的突破。計算機程序能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。2016年3月9日到15日,阿爾法圍棋程序挑戰世界圍棋冠軍李世石的圍棋人機大戰五番棋在韓國首爾舉行。比賽采用中國圍棋規則,最終阿爾法圍棋以4比1的總比分取得了勝利。n

2016年12月29日晚起到2017年1月4日晚,阿爾法圍棋在弈城圍棋網和野狐圍棋網以“Master”為注冊名,依次對戰數十位人類頂尖圍棋高手,取得60勝0負的輝煌戰績。n

2017年5月23日到27日,在中國烏鎮圍棋峰會上,阿爾法圍棋以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日,阿爾法圍棋還戰勝了由陳耀烨、唐韋星、周睿羊、時越、芈昱廷五位世界冠軍組成的圍棋團隊。

新版戰績

經過短短3天的自我訓練,AlphaGo Zero就強勢打敗了此前戰勝李世石的舊版AlphaGo,戰績是100:0的。經過40天的自我訓練,AlphaGo Zero又打敗了AlphaGo Master版本。“Master”曾擊敗過世界頂尖的圍棋選手,甚至包括世界排名第一的柯潔。

版本介紹

據公布的題為《在沒有人類知識條件下掌握圍棋遊戲》的論文介紹,開發公司将“阿爾法狗”的發展分為四個階段,也就是四個版本,第一個版本即戰勝樊麾時的人工智能,第二個版本是2016年戰勝李世石的“狗”,第三個是在圍棋對弈平台名為“Master”(大師)的版本,其在與人類頂尖棋手的較量中取得60勝0負的驕人戰績,而最新版的人工智能開始學習圍棋3天後便以100:0橫掃了第二版本的“舊狗”,學習40天後又戰勝了在人類高手看來不可企及的第三個版本“大師”。

設計團隊

戴密斯·哈薩比斯(Demis Hassabis),人工智能企業家,DeepMind Technologies公司創始人,人稱“阿爾法圍棋之父”。4歲開始下國際象棋,8歲自學編程,13歲獲得國際象棋大師稱号。17歲進入劍橋大學攻讀計算機科學專業。在大學裡,他開始學習圍棋。2005年進入倫敦大學學院攻讀神經科學博士,選擇大腦中的海馬體作為研究對象。兩年後,他證明了5位因為海馬體受傷而患上健忘症的病人,在暢想未來時也會面臨障礙,并憑這項研究入選《科學》雜志的“年度突破獎”。2011年創辦DeepMind Technologies公司,以“解決智能”為公司的終極目标。n

大衛·席爾瓦(David Silver),劍橋大學計算機科學學士、碩士,加拿大阿爾伯塔大學計算機科學博士,倫敦大學學院講師,Google DeepMind研究員,阿爾法圍棋主要設計者之一。n

除上述人員之外,阿爾法圍棋設計團隊核心人員還有黃士傑(Aja Huang)、施恩·萊格(Shane Legg)和穆斯塔法·蘇萊曼(Mustafa Suleyman)等。n

2017年10月18日,DeepMind團隊在世界頂級科學雜志——《自然》發表論文,公布了最強版AlphaGo,代号AlphaGo Zero。它的獨門秘籍,是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天内,成為頂級高手。

發展方向

“阿爾法圍棋”(AlphaGo)能否代表智能計算發展方向還有争議,但比較一緻的觀點是,它象征着計算機技術已進入人工智能的新信息技術時代(新IT時代),其特征就是大數據、大計算、大決策,三位一體。它的智慧正在接近人類。n

谷歌Deep mind首席執行官(CEO)戴密斯·哈薩比斯宣布“要将阿爾法圍棋(AlphaGo)和醫療、機器人等進行結合”。因為它是人工智能,會自己學習,隻要給它資料就可以移植。n

據韓國《朝鮮日報》報道,為實現該計劃,哈薩比斯2016年初在英國的初創公司“巴比倫”投資了2500萬美元。巴比倫正在開發醫生或患者說出症狀後,在互聯網上搜索醫療信息、尋找診斷和處方的人工智能APP(應用程序)。如果阿爾法圍棋(AlphaGo)和“巴比倫”結合,診斷的準确度将得到劃時代性提高。n

在柯潔與阿爾法圍棋的圍棋人機大戰三番棋結束後,阿爾法圍棋團隊宣布阿爾法圍棋将不再參加圍棋比賽。阿爾法圍棋将進一步探索醫療領域,利用人工智能技術攻克現實現代醫學中存在的種種難題。在醫療資源的現狀下,人工智能的深度學習已經展現出了潛力,可以為醫生提供輔助工具。n

谷歌公司研發“阿爾法狗”,隻是為了對付人類棋手嗎?實際上,這從來不是“阿爾法狗”的目的,開發公司隻是通過圍棋來試探它的功力,而研發這一人工智能的最終目的是為了推動社會變革、改變人類命運。n

“阿爾法狗”之父哈薩比斯表示:“如果我們通過人工智能可以在蛋白質折疊或設計新材料等問題上取得進展,那麼它就有潛力推動人們理解生命,并以積極的方式影響我們的生活。”據悉,目前他們正積極與英國醫療機構和電力能源部門合作,以此提高看病效率和能源效率。

社會評論

中國圍棋職業九段棋手聶衛平:Master(即阿爾法圍棋升級版)技術全面,從來不犯錯,這一點是其最大的優勢,人類要打敗它的話,必須在前半盤領先,然後中盤和官子階段也不容出錯,這樣固然很難,但客觀上也促進了人類棋手在圍棋技術上的提高。n

世界排名第一的圍棋世界冠軍柯潔:在我看來它(指阿爾法圍棋)就是圍棋上帝,能夠打敗一切。n

複旦大學計算機科學技術學院教授、博士生導師危輝:人機大戰對于人工智能的發展意義很有限。解決了圍棋問題,并不代表類似技術可以解決其他問題,自然語言理解、圖像理解、推理、決策等問題依然存在,人工智能的進步被誇大了。n

AlphaGo對圍棋界帶來的影響,甚至波及到其他項目。五子棋棋手吳侃表示,有時候感覺對AlphaGo的評價過于高了,人類也不需要把其奉為神明,但不可否認,AlphaGo的出現給圍棋界帶來了巨大的震動。n

有關于“阿爾法狗”的最新論文公布,得知詳情後柯潔感慨道:一個純粹自我學習的AlphaGo是最強的,“對于AlphaGo的自我進步來講,人類太多餘了”。n

唐韋星也發表微博表示:“看了之後不知道說什麼,它(AlphaGo)确實不需要我們的知識,之前版本用了好幾年,被這個才學了40天的打敗似乎就是我們拖後腿了。”

其他

“阿爾法圍棋”再揭秘

2017年1月6号60勝,人工智能最新的圍棋戰績定格在了這一數字上,唯一一盤和棋還是因為網絡斷線。新版“阿爾法圍棋”,以Master這個賬号,在網站上橫掃中韓等國頂級棋手。

本有風聲傳出轉型到醫療等領域的這個圍棋人工智能技術,此次殺了個“回馬槍”,再次讓人們感到了人工智能迅猛的來勢。

不怕電腦記性好,就怕電腦愛學習——“阿爾法圍棋”的秘密

“阿爾法圍棋”大勝,意味着人工智能進步速度前所未有。在去年3月的那場“人機大戰”中,“阿爾法圍棋”以4:1戰勝李世石,畢竟還是輸了一盤,而今年它橫掃人類衆多圍棋高手而無敗績,這進步速度讓人驚歎。

不過探其究竟,到底是人工智能自身進步速度可畏,還是背後的科學家令人生畏?答案耐人尋味。

畢竟,圍棋這種源自中國的古老遊戲難度之高毋庸置疑:361個交叉點可讓棋盤上變幻無窮,千古不同局。相比之下國際象棋和中國象棋變化較少,曾很大程度上依賴“窮舉法”攻占這兩個領域的傳統人工智能難以“故技重施”。許多專家原以為,計算機戰勝圍棋職業棋手還需要很多年,沒想到現在人類棋手就已無法獲得一勝。

“阿爾法圍棋”用到了很多新技術,如神經網絡、深度學習、蒙特卡洛樹搜索法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟件的開發者田淵棟曾在網上發表分析文章說:“‘阿爾法圍棋’這個系統主要由幾個部分組成:一,走棋網絡,給定當前局面,預測/采樣下一步的走棋;二,快速走子,目标和一一樣,但在适當犧牲走棋質量的條件下,速度要比一快1000倍;三,估值網絡,給定當前局面,估計是白勝還是黑勝;四,蒙特卡洛樹搜索,把以上這3個部分連起來,形成一個完整的系統。”

不怕電腦記性好,就怕電腦愛學習。學會自主學習的“阿爾法圍棋”,掌握全球各種對局,去年和李世石對戰前就已經和自己對弈3000萬盤。前幾天在網上與各路高手的對戰,也是為了通過更多的學習來檢測新版本,現在它所呈現出的能力,到了不斷碾壓人類智商,乃至讓人歎為觀止的地步。

與人工智能“對弈”,人類面對的是一堵牆

“阿爾法圍棋”的人機大戰,引發人們對人工智能時代浮想聯翩。當今世界,人類已依賴機器的計算與“算計”。從購物網站的精準推送到電視劇的劇情設計,再到無人駕駛汽車中的識别技術,優化計算在生活中無處不在,人工智能也可謂無處不在。事實上,“阿爾法圍棋”所應用的技術,尤其是“深度學習”,已被應用在包括圖像識别、文本翻譯、音頻/文本處理、臉部識别、強化學習以及機器人等領域。人工智能的水平恰恰折射出人類自身的科技發展能力,人類在前進,人工智能也在前進。

各大科技企業都在加大對人工智能的投入。谷歌首席執行官皮柴去年10月表示,過去10年,谷歌一直在建立“移動優先”的世界,在接下來10年中,谷歌将轉向建立“人工智能優先”的世界;微軟宣布組建5000人規模的工程和研發團隊,專注人工智能;百度宣布成立獨立風險投資公司,為人工智能等下一代科技創新項目提供支持……

在科技類公司一股腦地向人工智能狂奔時,人工智能背後的人類自己,是否會提前思考一下未來呢?

電腦能夠戰勝人腦,與其不受情緒影響的計算風格有關。“阿爾法圍棋”最初因戰勝歐洲圍棋冠軍樊麾而成名,對于與“阿爾法圍棋”下棋的感受,樊麾曾這樣描述:“我在采訪時把它形容為一堵牆,這個牆的概念是什麼呢?就是它不動,你對它施展的任何壓力它都會反彈給你,你對它施加的所有力量,你對它所有的辱罵也好,對它所有的微笑也好,最後全反饋到你自己身上,這是我對‘阿爾法圍棋’的感覺。”

這是不是意味着在未來人工智能的發展中,人類面對的是一堵牆?而人類一直未擺脫對人腦與電腦雙方優劣的關注:機器會比人聰明嗎?聰明的機器是否會控制人類?機器到底挑戰的是一個人,還是整個人類?更深一層的追問是,人類衆多最優秀圍棋手被沒血沒肉的機器打敗了,向來自傲于自身智慧的最高級靈長類動物是否會對自己“萬物之靈”的地位産生懷疑?如果連所有頂級高手都輸了圍棋,下一次人類還将輸掉什麼?

種種喧嚣,正是人類内心的寫照。當年卡斯帕羅夫與“深藍”的決戰中,常被“深藍”一些出其不意的招數弄得心煩意亂。對抗之中,人們開始感受到前所未有的壓力。其實放松一點看,這種壓力何嘗不是“左手對右手的壓力”?

那次比賽,人工智能顯現了自己“不會學習、隻會推理”局限性。現在,人工智能已成為涉及計算機、心理學、系統論、博弈論、哲學等領域的交叉學科。應該認識到,對待人工智能的發展,未來絕不是靠“掉線”就能阻止它獲勝這麼簡單。

輔助還是颠覆,人工智能帶來的追問

許多人在擔心,人工智能在充分發展後是否會對整個人類産生威脅?著名科學家霍金就曾提出過這方面的擔憂。如果有朝一日人工智能掌握了各種重要基礎設施和武器系統,稍有不慎就可能讓人類面臨風險。

而科幻作家劉慈欣相對樂觀。“人工智能發展的未來有多種可能,最好的前景是人與機器的融合,但目前看來這面臨着巨大的技術障礙,比如目前對人類大腦的科學研究還處于很初級的階段,如果不能深入了解大腦的機制,就無法實現真正的人機融合。”

科學家一直希望以最簡單的辦法,保證以機器人為代表的人工智能不會給人類帶來任何威脅。人們最熟悉的,莫過于科幻作家阿西莫夫設計的“機器人三定律”,即每一個機器人在出廠時就注入三個定律以防它們失控:機器人不能傷害人類、它們必須服從于人類、它們必須保護自己。後來還加入了“第零定律”:機器人不得傷害人類整體,不得因不作為使人類整體受到傷害。

美國機器智能研究院專門研究人工智能的安全發展,該機構奠基人尤德科夫斯基提出了“友好人工智能”的概念,認為“友善”從設計伊始就應當被注入機器的智能系統中,即便機器智能不斷演化,友善永遠是它對待人類的态度。

在這個概念的基礎上誕生了“社會機器人”領域,研究人員希望設計出能融入社會、能愛、能融入人類家庭的機器人。未來學家認為,随着人工智能領域越來越多的投資來自民用商業部門,“友好人工智能”有巨大的商業發展前景。

人與人工智能融合,也許是未來之路

“如果不能戰勝它,就讓它成為自己的一部分。”讓超越人類能力的機器成為人類“外挂”,是很現實的選擇。

“肌肉與機器融合”,這個概念,由美國麻省理工學院計算機科學與人工智能實驗室前任負責人、著名掃地機器人公司iRobot的首席技術官布魯克斯提出。他預計到2100年,日常生活中将到處是智能機器人,“但我們和機器人不是分開的,我們将是部分機器人,并且和機器人是連接的”。

美國卡内基梅隆大學機器人學院著名學者莫拉維克認為,人類最終可能變成自己創造的機器人本身,人類可能通過手術用晶體管取代大腦的每一個神經元,完全抛棄血肉軀體,最終成為将個性特質編碼儲存的計算機軟件程序,身體的存在成為超級計算機中的電子流動,這種技術或在22世紀成為人類的一種選擇。

對于獨立的能自我思考的人工智能,科學家目前還沒有充分考慮過。美國理論物理學家、超弦理論奠基人加來道雄表示,人工智能的重點目前還在由人或程序遙控的機器上,“沒有人,它們就是一堆無用的垃圾”。

事實上,人類對人工智能的研究和測試,是一項極富挑戰性的工作,不論是它的複雜性和學科交叉性,還是它那些帶有根本性的思考和創新,都是人類對自身的不斷認識和挑戰。

相關詞條

相關搜索

其它詞條