Diversifying AI: Towards Creative Chess with AlphaZero

要約

近年、人工知能 (AI) システムは、さまざまな計算タスクにおいて人間の知能を超えています。
ただし、AI システムも人間と同様に、間違いを犯し、盲点があり、幻覚があり、新しい状況に一般化するのに苦労します。
この研究では、AI が計算合理性の限界に追い込まれたときに、創造的な意思決定メカニズムから恩恵を受けることができるかどうかを調査します。
特に、グループとしてより多くのアイデアを生成し、最適なものを選択することで、多様な AI システムのチームが困難なタスクにおいて単一の AI を上回るパフォーマンスを発揮できるかどうかを調査します。
私たちはこの問題をチェスのゲーム、いわゆる AI のショウジョウバエで研究します。
私たちは AlphaZero (AZ) をベースに構築し、AZ_db と呼ぶ潜在条件付きアーキテクチャを介してエージェントのリーグを表すように拡張します。
私たちは AZ_db をトレーニングして、行動多様性手法を使用して幅広いアイデアを生成し、サブ加法計画で最も有望なものを選択します。
私たちの実験では、AZ_db が多様な方法でチェスをプレイし、グループとしてより多くのパズルを解き、より均質なチームよりも優れたパフォーマンスを発揮することを示唆しています。
特に、AZ_db は、難しいペンローズの位置を含む、AZ の 2 倍の数の難しいパズルを解決します。
さまざまなオープニングからチェスをプレイすると、AZ_db のプレイヤーがさまざまなオープニングに特化しており、サブアディティブ プランニングを使用してオープニングごとにプレイヤーを選択すると、AZ よりも 50 Elo 改善されることがわかります。
私たちの調査結果は、人間のチームと同様に、AI エージェントのチームにも多様性のボーナスが現れ、計算が難しい問題を解決する上で多様性が貴重な資産であることを示唆しています。

要約(オリジナル)

In recent years, Artificial Intelligence (AI) systems have surpassed human intelligence in a variety of computational tasks. However, AI systems, like humans, make mistakes, have blind spots, hallucinate, and struggle to generalize to new situations. This work explores whether AI can benefit from creative decision-making mechanisms when pushed to the limits of its computational rationality. In particular, we investigate whether a team of diverse AI systems can outperform a single AI in challenging tasks by generating more ideas as a group and then selecting the best ones. We study this question in the game of chess, the so-called drosophila of AI. We build on AlphaZero (AZ) and extend it to represent a league of agents via a latent-conditioned architecture, which we call AZ_db. We train AZ_db to generate a wider range of ideas using behavioral diversity techniques and select the most promising ones with sub-additive planning. Our experiments suggest that AZ_db plays chess in diverse ways, solves more puzzles as a group and outperforms a more homogeneous team. Notably, AZ_db solves twice as many challenging puzzles as AZ, including the challenging Penrose positions. When playing chess from different openings, we notice that players in AZ_db specialize in different openings, and that selecting a player for each opening using sub-additive planning results in a 50 Elo improvement over AZ. Our findings suggest that diversity bonuses emerge in teams of AI agents, just as they do in teams of humans and that diversity is a valuable asset in solving computationally hard problems.

arxiv情報

著者 Tom Zahavy,Vivek Veeriah,Shaobo Hou,Kevin Waugh,Matthew Lai,Edouard Leurent,Nenad Tomasev,Lisa Schut,Demis Hassabis,Satinder Singh
発行日 2024-07-31 13:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク