阿爾法圍棋:圍棋機器人-中文百科頻道

舊版原理

深度學習

阿爾法圍棋（AlphaGo）是一款圍棋人工智能程序。其主要工作原理是“深度學習”。“深度學習”是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入，通過非線性激活方法取權重，再産生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣，通過合适的矩陣數量，多層組織鍊接一起，形成神經網絡“大腦”進行精準複雜的處理，就像人們識别物體标注圖片一樣。

阿爾法圍棋用到了很多新技術，如神經網絡、深度學習、蒙特卡洛樹搜索法等，使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟件的開發者田淵棟在網上發表分析文章說，阿爾法圍棋系統主要由幾個部分組成：一、策略網絡（Policy Network），給定當前局面，預測并采樣下一步的走棋；二、快速走子（Fast rollout），目标和策略網絡一樣，但在适當犧牲走棋質量的條件下，速度要比策略網絡快1000倍；三、價值網絡（Value Network），給定當前局面，估計是白勝概率大還是黑勝概率大；四、蒙特卡洛樹搜索（Monte Carlo Tree Search），把以上這四個部分連起來，形成一個完整的系統。

兩個大腦

阿爾法圍棋（AlphaGo）是通過兩個不同神經網絡“大腦”合作來改進下棋。這些“大腦”是多層神經網絡，跟那些Google圖片搜索引擎識别圖片在結構上是相似的。它們從多層啟發式二維過濾器開始，去處理圍棋棋盤的定位，就像圖片分類器網絡處理圖片一樣。經過過濾，13個完全連接的神經網絡層産生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

第一大腦：落子選擇器（Move Picker）

阿爾法圍棋（AlphaGo）的第一個神經網絡大腦是“監督學習的策略網絡（Policy Network）” ，觀察棋盤布局企圖找到最佳的下一步。事實上，它預測每一個合法下一步的最佳概率，那麼最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

第二大腦：棋局評估器（Position Evaluator）

阿爾法圍棋（AlphaGo）的第二個大腦相對于落子選擇器是回答另一個問題，它不是去猜測具體下一步，而是在給定棋子位置情況下，預測每一個棋手赢棋的概率。這“局面評估器”就是“價值網絡（Value Network）”，通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的，但對于閱讀速度提高很有幫助。通過分析歸類潛在的未來局面的“好”與“壞”，阿爾法圍棋能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行，那麼AI就跳過閱讀。

這些網絡通過反複訓練來檢查結果，再去校對調整參數，去讓下次執行更好。這個處理器有大量的随機性元素，所以人們是不可能精确知道網絡是如何“思考”的，但更多的訓練後能讓它進化到更好。

操作過程

阿爾法圍棋（AlphaGo）為了應對圍棋的複雜性，結合了監督學習和強化學習的優勢。它通過訓練形成一個策略網絡（policy network），将棋盤上的局勢作為輸入信息，并對所有可行的落子位置生成一個概率分布。然後，訓練出一個價值網絡（value network）對自我對弈進行預測，以 -1（對手的絕對勝利）到1（AlphaGo的絕對勝利）的标準，預測所有可行落子位置的結果。這兩個網絡自身都十分強大，而阿爾法圍棋将這兩種網絡整合進基于概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。新版的阿爾法圍棋産生大量自我對弈棋局，為下一代版本提供了訓練數據，此過程循環往複。

在獲取棋局信息後，阿爾法圍棋會根據策略網絡（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，模拟過程中被系統最頻繁考察的位置将成為阿爾法圍棋的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，阿爾法圍棋的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。

2017年1月，谷歌DeepMind公司CEO哈薩比斯在德國慕尼黑DLD（數字、生活、設計）創新大會上宣布推出真正2.0版本的阿爾法圍棋。其特點是擯棄了人類棋譜，隻靠深度學習的方式成長起來挑戰圍棋的極限。

新版原理

自學成才

阿爾法圍棋（AlphaGo）此前的版本，結合了數百萬人類圍棋專家的棋譜，以及強化學習進行了自我訓練。

AlphaGoZero的能力則在這個基礎上有了質的提升。最大的區别是，它不再需要人類數據。也就是說，它一開始就沒有接觸過人類棋譜。研發團隊隻是讓它自由随意地在棋盤上下棋，然後進行自我博弈。

據阿爾法圍棋團隊負責人大衛·席爾瓦（Dave Sliver）介紹，AlphaGoZero使用新的強化學習方法，讓自己變成了老師。系統一開始甚至并不知道什麼是圍棋，隻是從單一神經網絡開始，通過神經網絡強大的搜索算法，進行了自我對弈。随着自我博弈的增加，神經網絡逐漸調整，提升預測下一步的能力，最終赢得比賽。更為厲害的是，随着訓練的深入，阿爾法圍棋團隊發現，AlphaGoZero還獨立發現了遊戲規則，并走出了新策略，為圍棋這項古老遊戲帶來了新的見解。

一個大腦

AlphaGoZero僅用了單一的神經網絡。在此前的版本中，AlphaGo用到了“策略網絡”來選擇下一步棋的走法，以及使用“價值網絡”來預測每一步棋後的赢家。而在新的版本中，這兩個神經網絡合二為一，從而讓它能得到更高效的訓練和評估。

神經網絡

AlphaGoZero并不使用快速、随機的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，來預測哪個玩家會從當前的局面中赢得比賽。相反，新版本依靠地是其高質量的神經網絡來評估下棋的局勢。

舊版戰績

對戰機器

研究者讓“阿爾法圍棋”和其他的圍棋人工智能機器人進行了較量，在總計495局中隻輸了一局，勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智能機器人，勝率分别是77%、86%和99%。

2017年5月26日，中國烏鎮圍棋峰會舉行人機配對賽。對戰雙方為古力/阿爾法圍棋組合和連笑/阿爾法圍棋組合。最終連笑/阿爾法圍棋組合逆轉獲得勝利。

對戰人類

2016年1月27日，國際頂尖期刊《自然》封面文章報道，谷歌研究者開發的名為“阿爾法圍棋”（AlphaGo）的人工智能機器人，在沒有任何讓子的情況下，以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智能領域，實現了一次史無前例的突破。計算機程序能在不讓子的情況下，在完整的圍棋競技中擊敗專業選手，這是第一次。

2016年3月9日到15日，阿爾法圍棋程序挑戰世界圍棋冠軍李世石的圍棋人機大戰五番棋在韓國首爾舉行。比賽采用中國圍棋規則，最終阿爾法圍棋以4比1的總比分取得了勝利。

2016年12月29日晚起到2017年1月4日晚，阿爾法圍棋在弈城圍棋網和野狐圍棋網以“Master”為注冊名，依次對戰數十位人類頂尖圍棋高手，取得60勝0負的輝煌戰績。

2017年5月23日到27日，在中國烏鎮圍棋峰會上，阿爾法圍棋以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日，阿爾法圍棋還戰勝了由陳耀烨、唐韋星、周睿羊、時越、芈昱廷五位世界冠軍組成的圍棋團隊。

新版戰績

經過短短3天的自我訓練，AlphaGo Zero就強勢打敗了此前戰勝李世石的舊版AlphaGo，戰績是100:0的。經過40天的自我訓練，AlphaGo Zero又打敗了AlphaGo Master版本。“Master”曾擊敗過世界頂尖的圍棋選手，甚至包括世界排名第一的柯潔。

版本介紹

據公布的題為《在沒有人類知識條件下掌握圍棋遊戲》的論文介紹，開發公司将“阿爾法圍棋”的發展分為四個階段，也就是四個版本，第一個版本即戰勝樊麾時的人工智能，第二個版本是2016年戰勝李世石的阿爾法圍棋，第三個是在圍棋對弈平台名為“Master”（大師）的版本，其在與人類頂尖棋手的較量中取得60勝0負的驕人戰績，而最新版的人工智能開始學習圍棋3天後便以100:0橫掃了第二版本的阿爾法圍棋，學習40天後又戰勝了在人類高手看來不可企及的第三個版本“大師”。

設計團隊

戴密斯·哈薩比斯（Demis Hassabis），人工智能企業家，DeepMind Technologies公司創始人，人稱“阿爾法圍棋之父”。4歲開始下國際象棋，8歲自學編程，13歲獲得國際象棋大師稱号。17歲進入劍橋大學攻讀計算機科學專業。在大學裡，他開始學習圍棋。2005年進入倫敦大學學院攻讀神經科學博士，選擇大腦中的海馬體作為研究對象。兩年後，他證明了5位因為海馬體受傷而患上健忘症的病人，在暢想未來時也會面臨障礙，并憑這項研究入選《科學》雜志的“年度突破獎”。2011年創辦DeepMind Technologies公司，以“解決智能”為公司的終極目标。

大衛·席爾瓦（David Silver），劍橋大學計算機科學學士、碩士，加拿大阿爾伯塔大學計算機科學博士，倫敦大學學院講師，Google DeepMind研究員，阿爾法圍棋主要設計者之一。

除上述人員之外，阿爾法圍棋設計團隊核心人員還有黃士傑（Aja Huang）、施恩·萊格（Shane Legg）和穆斯塔法·蘇萊曼（Mustafa Suleyman）等。

發展方向

“阿爾法圍棋”（AlphaGo）能否代表智能計算發展方向還有争議，但比較一緻的觀點是，它象征着計算機技術已進入人工智能的新信息技術時代（新IT時代），其特征就是大數據、大計算、大決策，三位一體。它的智慧正在接近人類。

谷歌Deep mind首席執行官（CEO）戴密斯·哈薩比斯宣布“要将阿爾法圍棋（AlphaGo）和醫療、機器人等進行結合”。因為它是人工智能，會自己學習，隻要給它資料就可以移植。

據韓國《朝鮮日報》報道，為實現該計劃，哈薩比斯2016年初在英國的初創公司“巴比倫”投資了2500萬美元。巴比倫正在開發醫生或患者說出症狀後，在互聯網上搜索醫療信息、尋找診斷和處方的人工智能APP（應用程序）。如果阿爾法圍棋（AlphaGo）和“巴比倫”結合，診斷的準确度将得到劃時代性提高。

在柯潔與阿爾法圍棋的圍棋人機大戰三番棋結束後，阿爾法圍棋團隊宣布阿爾法圍棋将不再參加圍棋比賽。阿爾法圍棋将進一步探索醫療領域，利用人工智能技術攻克現實現代醫學中存在的種種難題。在醫療資源的現狀下，人工智能的深度學習已經展現出了潛力，可以為醫生提供輔助工具。實際上，對付人類棋手從來不是“阿爾法圍棋”的目的，開發公司隻是通過圍棋來試探它的功力，而研發這一人工智能的最終目的是為了推動社會變革、改變人類命運。據悉，他們正積極與英國醫療機構和電力能源部門合作，以此提高看病效率和能源效率。