要約
支援ゲームは、AIアシスタントのトレーニングのための人間のフィードバック(RLHF)からの強化学習の有望な代替手段です。
アシスタンスゲームは、アシスタントとユーザーの間の相互作用を2プレイヤーゲームとして共有する目標を観察できない2人のゲームとして明示的にモデル化することにより、欺ceptiveな行動のインセンティブなど、RLHFの重要な欠点を解決します。
その可能性にもかかわらず、アシスタンスゲームは簡単な設定でのみ調査されています。
不確実性の下で扱いにくい意思決定の問題を解決することと、人間のユーザーの行動を正確にモデル化する必要があるため、より複雑な環境にそれらをスケーリングすることは困難です。
支援ゲームを解決するための最初のスケーラブルなアプローチを提示し、10ドル以上の目標を達成した新しい、挑戦的なMinecraftベースの支援ゲームに適用します。
私たちのアプローチであるAssistanceZeroは、人間の行動と報酬を予測するニューラルネットワークでAlphazeroを拡張し、不確実性の下で計画できるようにします。
AssistanceZeroは、Minecraftベースの支援ゲームでモデルのないRLアルゴリズムと模倣学習を上回ることを示しています。
人間の研究では、私たちの支援訓練を受けたアシスタントは、参加者がMinecraftの構築タスクを完了するために取るアクションの数を大幅に削減します。
私たちの結果は、アシスタンスゲームが複雑な環境で効果的なAIアシスタントをトレーニングするための扱いやすいフレームワークであることを示唆しています。
当社のコードとモデルは、https://github.com/cassidylaidlaw/minecraft-building-assistanceゲームで入手できます。
要約(オリジナル)
Assistance games are a promising alternative to reinforcement learning from human feedback (RLHF) for training AI assistants. Assistance games resolve key drawbacks of RLHF, such as incentives for deceptive behavior, by explicitly modeling the interaction between assistant and user as a two-player game where the assistant cannot observe their shared goal. Despite their potential, assistance games have only been explored in simple settings. Scaling them to more complex environments is difficult because it requires both solving intractable decision-making problems under uncertainty and accurately modeling human users’ behavior. We present the first scalable approach to solving assistance games and apply it to a new, challenging Minecraft-based assistance game with over $10^{400}$ possible goals. Our approach, AssistanceZero, extends AlphaZero with a neural network that predicts human actions and rewards, enabling it to plan under uncertainty. We show that AssistanceZero outperforms model-free RL algorithms and imitation learning in the Minecraft-based assistance game. In a human study, our AssistanceZero-trained assistant significantly reduces the number of actions participants take to complete building tasks in Minecraft. Our results suggest that assistance games are a tractable framework for training effective AI assistants in complex environments. Our code and models are available at https://github.com/cassidylaidlaw/minecraft-building-assistance-game.
arxiv情報
著者 | Cassidy Laidlaw,Eli Bronstein,Timothy Guo,Dylan Feng,Lukas Berglund,Justin Svegliato,Stuart Russell,Anca Dragan |
発行日 | 2025-04-09 17:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google