2016年3月、Google傘下のAIスタートアップ企業・DeepMindが開発した囲碁プレイAI『AlphaGo』が人間のトッププロ囲碁棋士に勝利したことで、AIが一気に世界の注目を集めるようになった。

【画像】「ダイヤのつるはし」を作成するまでの手順 普段何気なくプレイしていると気がつかないが、実は結構な工程が必要なことがよくわかる

 『AlphaGo』以降も、最新AI技術の有効性を実証するために数々のゲームプレイAIが開発されており、現在も進化を続けている。本稿ではこうした近年のゲームプレイAIの発展を振り返ることで、「AI技術」と「ゲーム」の深い関係を明らかにしたい。

■囲碁用に誕生したAIがYouTubeの通信量削減に活躍 『AlphaGo』の誕生

 ゲームがAI研究のテーマになるのは、それが明確なルールによって定義された知的活動だからである。ルールが明確なのでゲームプレイの内容を情報処理の形式に変換しやすいうえに、開発したAIをゲームの勝敗によってわかりやすく評価できる。

 歴史ある対戦型ボードゲームであるチェスや将棋をプレイするAIの研究はAI史の早い段階から取り組まれており、こうした研究から人間のトッププレイヤーを凌駕するAIが誕生している。囲碁プレイAIも同様に取り組まれていたが、考えられる打ち手の膨大さゆえに「人間を凌駕するAIの開発はむずかしい」とAI研究者たちは考えていた。

 しかし、以上のような想定を打ち破ったのが『AlphaGo』である。同AIは第3次AIブームによって注目されるようになった「ディープラーニング深層学習)」を活用することで、2016年3月、トッププロ囲碁棋士のイ・セドルに勝利した。

 『AlphaGo』を開発したDeepMindは、このAIをさらに進化させていった。『AlphaGo』は大量の棋譜を学習することで棋力を上げていたのだが、2017年10月に発表された『AlphaGo Zero』は学習データを必要とせずに『AlphaGo』を凌駕した。『AlphaGo Zero』は自分自身と対戦するセルフプレイによって、棋力を上げたのだ。さらに2018年12月に発表された『AlphaZero』は、セルフプレイによってチェス・将棋・囲碁の各世界チャンピオンプログラムに勝利するという高い汎用性を実現した。

〈出典:DeepMind「AlphaGo」特集記事 https://www.deepmind.com/research/highlighted-research/alphago

 2020年12月に発表された『MuZero』に至っては、チェス・将棋・囲碁に加えて、ブロック崩しをはじめとする多数のレトロゲームでも当時のゲームプレイAIにおけるトップスコアを記録した。驚くべき点としては、このAIはゲーム環境に適応するように学習するので、ゲームのルールが未知な状態(AIにルールをあらかじめ学習させていない状態)からでもプレイを上達させられたことだ。
〈出典:MuZero: Mastering Go, chess, shogi and Atari without rules https://www.deepmind.com/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules〉

 なお『MuZero』は現在、YouTubeの通信量削減に応用されている。通信データ最適化を1種のゲームとして見立てたうえで、この「最適化ゲーム」を『MuZero』によって解決しているのだ。

〈出典:Working together with YouTube https://www.deepmind.com/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules〉

■「友情破壊ゲーム」で人間を凌駕 AIが導き出した“最適の戦略”とは

 『AlphaGo』とその後継モデルがプレイしたゲームは、基本的にプレイに必要な情報のすべてがプレイヤーに与えられることから「完全情報ゲーム」に分類される。対してポーカーなどのようにプレイに関わる情報の一部(とくに対戦者の状態)が与えられないゲームは、「不完全情報ゲーム」と呼ばれる。

 不完全情報ゲームに分類されるボードゲームのひとつとして、外交シミュレーションゲーム『ディプロマシー』が知られている。このゲームは第一次世界大戦前のヨーロッパを舞台として、7名のプレイヤーがヨーロッパ制覇を目指してそれぞれ1ヵ国を担当するというものだ。プレイ中はプレイヤー間で言葉による「交渉」が認められているのだが、こうした交渉においては相手の真意がわからず、結成した同盟が裏切られることもある。裏切りさえも勝利のための手段となり得ることから、同ゲームは「友情破壊ゲーム」の異名がある。

 Metaは2022年11月、『ディプロマシー』をプレイするAI『CICERO(キケロ)』(※1)を発表した。このAIは同ゲームをオンラインでプレイできるウェブサイトwebDiplomacy.netから収集した4万以上のプレイログを学習したことで、人間プレイヤーと交渉できる文章生成能力を獲得した。

【※1……CICERO(キケロ)という命名は、古代ローマの政治家にして文筆家・哲学者でもあったマルクス・トゥッリウス・キケロ(Marcus Tullius Cicero)に由来すると考えられる】

 Metaの研究チームは、『CICERO』の実力を調べるためにオンラインで『ディプロマシー』をプレイできるwebDiplomacy.netで40回にわたり人間のプレイヤーと対戦させた。その結果、40回の平均勝率は25.8%であり、参加した人間プレイヤーの平均である12.4%の2倍以上という好成績を収めたのだった。
〈出典:CICERO: An AI agent that negotiates, persuades, and cooperates with people https://www.deepmind.com/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules〉
〈参考論文:Human-level play in the game of Diplomacy by combining language models with strategic reasoning https://noambrown.github.io/downloads/diplomacy_science_all.pdf〉

 『MuZero』のDeepMindも2022年12月に『ディプロマシー』のプレイAIに関する研究を発表した。もっとも、この研究はヒューマンライクに同ゲームをプレイするAIの開発ではなく、AIにゲームをシミュレーションさせることで“最適な戦略”を探求することを目的としていた。

 この研究によって、過去の対戦履歴にもとづいて「裏切ることによって得られる利益」がそれによって被る被害を上回ると判断できた場合にのみ裏切る、という戦略が“最強”であることがわかった。もっとも、この戦略でプレイした場合でも裏切る確率は1%未満になるということも判明した。つまり、この結果からすると『ディプロマシー』のプレイにおいては基本的に「誠実であること」が勝利につながると言えよう。
〈出典:AI for the board game Diplomacy https://www.deepmind.com/blog/ai-for-the-board-game-diplomacy〉

■『マイクラ』でダイヤを採取するAIが登場 オープンワールドへの進出

 以上に解説したゲームプレイAIがプレイする囲碁や『ディプロマシー』は、そのプレイ過程が複雑であっても、プレイ中に一望できる閉じられたフィールドで展開される。こうしたなか、ビデオゲームが発達した現在では、プレイヤーの視野をはるかに超えたフィールドが舞台となるゲームがある。とくに「オープンワールド」に分類されるゲームは、広大なフィールドをプレイヤーが自由にプレイできることを特徴としている。

 近年のゲームプレイAI研究のテーマとして、オープンワールドなゲームのひとつである『Minecraft』が挙げられている。このゲームが研究テーマとして好まれるのは、ボードゲームに比べて「物理的な現実に近い世界」を再現している一方で、グラフィックが高精細ではないので描画に大きな計算リソースを必要としないからである。

 『ChatGPT』を開発するOpenAIは2022年6月、『Minecraft』のプレイAIに関する研究成果を発表した。このAIは、プレイ中のマウスキーボードの操作をデータとして記録した7万時間におよぶ同ゲームのプレイ動画を学習したことで誕生した。AIのプレイレベルを調べるために、OpenAIの研究チームは「ダイヤモンドのつるはしを作る」という課題を与えた。この課題を達成するためには「鉄のつるはしを作る」といった多数の事前課題をクリアしなければならないのだが、見事に成功したのだった。
〈出典:Learning to play Minecraft with Video PreTraining https://www.deepmind.com/blog/ai-for-the-board-game-diplomac y〉

 2023年1月には、DeepMindとカナダトロント大学の研究チームがゲームプレイAI『DreamerV3』を発表した。同AIは多数のレトロゲームでハイスコアを達成したうえに、『Minecraft』のプレイにおいても「ダイヤモンドの採取」(※2)という困難な課題を達成した。驚くべきことに、同AIによるダイヤモンド採取では事前の学習が不要であったそうだ。

【※2……『Minecraft』でダイヤモンドを採取するには、各種道具を作ったり、地下や洞窟を探検して鉱石ブロックを発見する必要があり、複数の作業工程を必要とするため知識のある人間がプレイしたときですら難易度は少し高め】

 同AIがさまざまなゲームで好成績を上げたのは、“世界モデル”と呼ばれるアイデアを利用したからである。ちなみに、このアイデアはMetaのAI部門チーフサイエンティストであるヤン・ルカン氏が提唱したことで注目されるようになった。
〈出典:Mastering Diverse Domains through World Models https://danijar.com/project/dreamerv3/〉
〈参考記事:Yann LeCun on a vision to make AI systems learn and reason like animals and humans https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/〉

■大規模言語モデルをゲームプレイに応用

 最近のゲームプレイAI研究で注目されているのは、『ChatGPT』で活用されている大規模言語モデルのゲームへの応用である。ChatGPTは内部的に「GPT-3.5」あるいは「GPT-4」と呼ばれる、OpenAIが開発した言語モデルを使って文章を生成している。こうした言語モデルは、AIの出力性能をつかさどるパラメータの数が膨大であることから「大規模言語モデル」と言われる。

 『ChatGPT』がゲームプレイに応用できる可能性を示した研究として有名なのが、アメリカ・スタンフォード大学らの研究チームが2023年4月に発表したシミュレーション事例がある。この事例では25名のノンプレイヤーキャラクター(人間が操作しないプレイヤー、以下「NPC」と略記)が住むゲーム内の村を用意したうえで、それぞれのNPCに性格と行動傾向を設定したうえで『ChatGPT』を使って会話できるようにした。するとNPCどうしが交流を始め、あるNPCがバレンタインパーティの開催を呼びかけると、ほかの5人のNPCがパーティに参加したのだった。この事例は、会話がおこなえるNPCだけでゲームの世界を形成できることを示している。
〈出典:Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442〉

 2023年5月にはNVIDIAらの研究チームが、『GPT-4』を活用した『Minecraft』プレイAI『Voyagerボイジャー:「航海者」を意味する英単語)』を発表した。もともとは質問に対して回答を生成する『GPT-4』が『Minecraft』をプレイできるようになったのは、ゲームフィールドと『GPT-4』が文章を介して関係できるような仕組みを構築したからである。『Voyager』の性能を調べるために「ダイヤモンドのつるはし」を作る課題を与えたところ、従来の『Minecraft』プレイAIよりも早くつるはしの作成に成功した。
〈出典:Voyager: An Open-Ended Embodied Agent with Large Language Models https://arxiv.org/abs/2304.03442〉

 そして2023年9月、Microsoft Researchらの研究チームは、「大規模言語モデル駆動型ゲームエンジン」とでも呼べるゲーム環境『MindAgent』を発表した。この環境は『Voyager』同様に『GPT-4』とゲームステージが文章を介して関係できるようになっているのだが、複数のNPCを制御できる点で大きな違いがある。研究チームは同環境の性能を検証するために、『Minecraft』において人間プレイヤーが2人のNPCに対して料理を作るように指示するデモプレイ動画を制作した。この動画では、言葉によって人間プレイヤーとAI駆動型NPCが協力プレイできる可能性を示している。

〈出典:MindAgent: Emerging Gaming Interaction https://arxiv.org/abs/2304.03442〉

 以上のように『AlphaGo』から『MindAgent』までの歩みを振り返ると、ゲームプレイAIがよりヒューマンライクになっていると言えよう。そして、大規模言語モデルのゲームへの応用がさらに進化すれば、さまざまなゲームで人間プレイヤーと同じように言葉を理解して協力プレイするAIプレイヤーが誕生するかもしれない。

(文=吉本幸記)

『Generative Agents: Interactive Simulacra of Human Behavior』より