J.S.エコハのブログ: グーグル傘下開発のAlphaGo、AI、深層学習、強化学習

2016年3月13日日曜日

グーグル傘下開発のAlphaGo、AI、深層学習、強化学習

「韓国人プロ棋士、人工知能ソフトに３タテの屈辱　米グーグル傘下開発「アルファ碁」に負け越し確定」ということで、グーグル傘下開発のAlphaGoに関する情報が流れてきたので自分用にまとめ。

日経「AIは人知を超えるか」。FTの記事の翻訳で書いたのは米西海岸マネージング・エディターのリチャード。ウォーターズ。「（チェスの世界王者カスパロフを破った）ディープブルーは、知能の基盤と考えられているアルゴリズムによる勝利というより、むしろ強力なハードウェアの勝利だった」

「コンピューターのチェスプログラムは、何年も厳密な演算を用い、先々可能な手をすべて予期し、実行可能な最善の一手を計算することで進歩してきた」

「ディープブルーの勝利は広く知られたものの、AIの現実社会での利用促進にはほとんどつながらなかった。ディープブルーは狭いチェス盤上では奇跡を起こせたが、実世界の乱雑で「構造化されていない」性質の現象には通用しなかった」

「チェスと異なり、囲碁は可能な手の数が多すぎて、コンピューターが計算し切れない。その結果、機械が採用できる唯一のアプローチは、パターン認識を利用して対局がどう進展しているか「理解」し、次に戦略を練り上げ、臨機応変にその戦略を適応させることだ。だからシステムはいわゆる「深層学習（ディープラーニング）」－AIにおける最も驚くべき最近の進歩の背後にある技術－を頼りにしなければならない。パターンと「意味」を模索して膨大なデータを分析すべく、人工の神経ネットワークを駆使するわけだ」

「ディープマインドは、システムに教えるために２つの囲碁プログラムを戦わせ、技術が反復・適応するのを助ける「強化学習」として知られるテクニックを活用した。対局では、これら２台のコンピューターは、単独ではどちらも学ばなかった戦略を編み出した」

「グーグルがAI研究を進める狙いは、中核のインターネット事業の全面刷新だ。既存の検索エンジンを通して関連情報を提示するだけでなく、利用者のニーズを理解、予見し、助言を提示するのだ。この技術は、ヘルスケアなどの新市場でも適用できるだろう」

Wikiより。「AlphaGoは、ディープニューラルネットワークを用いて実装された「value network」と「policy network」によって動くモンテカルロ木探索（英語版）を用いる。AlphaGoは当初、棋譜に記録された熟練した棋士の手と合致するよう試みることで人間のプレーヤーを模倣するように訓練され、次に、ある程度の能力に達すると、強化学習を用いて自分自身と多数の対戦を行うことでさらに訓練された」

「自分自身と多数の対戦を行う」。自分自身と戦う自分とは何かという哲学的な問いを思い浮かべた。

Research Blog:AlphaGo: Mastering the ancient game of Go with Machine Learning

BBC News - Google achieves AI 'breakthrough' by beating Go champion

Google AlphaGo AI clean sweeps European Go champion

The Sadness and Beauty of Watching Google’s AI Play Go

これが"Nature"に載った論文ですね。

"Mastering the game of Go with deep neural networks and tree search" Hassabis et al.(2016)