Collaborative AI Teaming in Unknown Environments via Active Goal Deduction

要約

人工知能 (AI) の進歩に伴い、AI が他のエージェントと緊密に連携する必要があるシナリオが増えていますが、その目標や戦略が事前に分かっていない可能性があります。
しかし、協調エージェントを訓練するための既存のアプローチは、多くの場合、定義された既知の報酬シグナルを必要とし、潜在的な目的/報酬を持つことが多い未知のエージェントとチームを組むという問題に対処できません。
この課題に応えて、私たちは未知のエージェント フレームワークとのチーム化を提案します。これは、アクティブな目標推定にカーネル密度ベイジアン逆学習手法を活用し、事前トレーニング済みの目標条件付きポリシーを利用して、ゼロショット ポリシーの適応を可能にします。
私たちのフレームワークにおける公平な報酬推定値は、未知のエージェントと最適なチームを組むのに十分であることを証明します。
さらに、異なる行動/報酬を持つ多様な未知のエージェントを使用して、再設計されたマルチエージェント粒子と StarCraft II マイクロマネジメント環境のフレームワークを評価します。
実証結果は、私たちのフレームワークが、幅広い協力シナリオにおける AI と未知のエージェントのチーミング パフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

With the advancements of artificial intelligence (AI), we’re seeing more scenarios that require AI to work closely with other agents, whose goals and strategies might not be known beforehand. However, existing approaches for training collaborative agents often require defined and known reward signals and cannot address the problem of teaming with unknown agents that often have latent objectives/rewards. In response to this challenge, we propose teaming with unknown agents framework, which leverages kernel density Bayesian inverse learning method for active goal deduction and utilizes pre-trained, goal-conditioned policies to enable zero-shot policy adaptation. We prove that unbiased reward estimates in our framework are sufficient for optimal teaming with unknown agents. We further evaluate the framework of redesigned multi-agent particle and StarCraft II micromanagement environments with diverse unknown agents of different behaviors/rewards. Empirical results demonstrate that our framework significantly advances the teaming performance of AI and unknown agents in a wide range of collaborative scenarios.

arxiv情報

著者 Zuyuan Zhang,Hanhan Zhou,Mahdi Imani,Taeyoung Lee,Tian Lan
発行日 2024-03-22 16:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク