Maia-2: A Unified Model for Human-AI Alignment in Chess

要約

人工知能 (AI) システムが人間の能力を超え、人間の行動を正確にモデル化する領域が増えています。
これにより、より関連性の高い AI パートナーと人間の意思決定に対するより深い洞察を通じて、これらの分野でアルゴリズムに基づいた教育の可能性が導入されます。
ただし、この目標を達成するには、さまざまなスキル レベルで人間の行動を一貫してモデル化することが重要です。
Chess は、AI 研究の極めて重要なテストベッドとしての豊かな歴史、AlphaZero のような成熟した超人 AI システム、そしてチェスのレーティング システムによるスキルの正確な測定を備えており、この種の人間と AI の連携に関する研究を実施するための理想的なモデル システムです。
チェスにおける人間の意思決定をモデル化するこれまでの研究では、完全に独立したモデルを使用して、さまざまなスキル レベルで人間のスタイルを捉えていました。これは、人間の向上の全領域に適応する能力に一貫性が欠けており、AI パートナーとしての有効性が最終的に制限されていることを意味します。
教育ツール。
この研究では、チェスにおける人間と AI の調整のための統一モデリング アプローチを提案します。これは、さまざまなスキル レベルにわたって人間のスタイルを一貫して捉え、人々がどのように上達するかを直接捉えます。
人間の学習の複雑で非線形な性質を認識し、プレイヤーの強みをエンコードされたチェスの局面と動的に統合するスキル認識型の注意メカニズムを導入し、プレイヤーのスキルの進化に私たちのモデルが敏感になることを可能にします。
私たちの実験結果は、この統一フレームワークが、さまざまな専門知識レベルにわたって AI と人間のプレーヤーの間の連携を大幅に強化し、人間の意思決定と AI 誘導型教育ツールについてのより深い洞察への道を開くことを示しています。

要約(オリジナル)

There are an increasing number of domains in which artificial intelligence (AI) systems both surpass human ability and accurately model human behavior. This introduces the possibility of algorithmically-informed teaching in these domains through more relatable AI partners and deeper insights into human decision-making. Critical to achieving this goal, however, is coherently modeling human behavior at various skill levels. Chess is an ideal model system for conducting research into this kind of human-AI alignment, with its rich history as a pivotal testbed for AI research, mature superhuman AI systems like AlphaZero, and precise measurements of skill via chess rating systems. Previous work in modeling human decision-making in chess uses completely independent models to capture human style at different skill levels, meaning they lack coherence in their ability to adapt to the full spectrum of human improvement and are ultimately limited in their effectiveness as AI partners and teaching tools. In this work, we propose a unified modeling approach for human-AI alignment in chess that coherently captures human style across different skill levels and directly captures how people improve. Recognizing the complex, non-linear nature of human learning, we introduce a skill-aware attention mechanism to dynamically integrate players’ strengths with encoded chess positions, enabling our model to be sensitive to evolving player skill. Our experimental results demonstrate that this unified framework significantly enhances the alignment between AI and human players across a diverse range of expertise levels, paving the way for deeper insights into human decision-making and AI-guided teaching tools.

arxiv情報

著者 Zhenwei Tang,Difan Jiao,Reid McIlroy-Young,Jon Kleinberg,Siddhartha Sen,Ashton Anderson
発行日 2024-09-30 17:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク