Efficient Human-AI Coordination via Preparatory Language-based Convention

要約

人間とシームレスに連携できるインテリジェントエージェントを開発することは、汎用人工知能の実現に向けた重要なステップです。
人間と AI を調整するための既存の方法は通常、さまざまなポリシーのセット、または実際の人間のデータから適合させた人間モデルと調整するようにエージェントをトレーニングします。
しかし、人間の行動の非常に多様なスタイルは、能力に制約のある AI システムにとって障害となり、現実世界のシナリオでは高品質の人間データが容易に利用できない可能性があります。
この研究では、人間は調整に先立ってコミュニケーションを行って個々の役割や行動を規定する約束事を確立し、調整が秩序正しく進むことを観察しました。
この観察に基づいて、人間と AI の両方を効果的に導くアクション プラン (または同等の規約) を開発するために大規模言語モデル (LLM) を採用することを提案します。
タスクの要件、人間の好み、エージェントの数、その他の関連情報を LLM に入力することで、関係者全員のタスクと責任の明確な理解を促進する包括的な規約を生成できます。
さらに、我々は、規則の定式化問題を、連続して使用される複数の新しいセッションと人間のフィードバックを伴う部分問題に分解すると、より効率的な調整規則が得られることを実証します。
人間の代理モデルを利用して Overcooked-AI 環境で実施された実験評価では、既存の学習ベースのアプローチと比較して、提案された方法の優れたパフォーマンスが強調されています。
実際の人間と調整する場合、私たちの方法は人間の好みとより良く一致し、最新技術と比較して平均 15% のパフォーマンス向上を達成します。

要約(オリジナル)

Developing intelligent agents capable of seamless coordination with humans is a critical step towards achieving artificial general intelligence. Existing methods for human-AI coordination typically train an agent to coordinate with a diverse set of policies or with human models fitted from real human data. However, the massively diverse styles of human behavior present obstacles for AI systems with constrained capacity, while high quality human data may not be readily available in real-world scenarios. In this study, we observe that prior to coordination, humans engage in communication to establish conventions that specify individual roles and actions, making their coordination proceed in an orderly manner. Building upon this observation, we propose employing the large language model (LLM) to develop an action plan (or equivalently, a convention) that effectively guides both human and AI. By inputting task requirements, human preferences, the number of agents, and other pertinent information into the LLM, it can generate a comprehensive convention that facilitates a clear understanding of tasks and responsibilities for all parties involved. Furthermore, we demonstrate that decomposing the convention formulation problem into sub-problems with multiple new sessions being sequentially employed and human feedback, will yield a more efficient coordination convention. Experimental evaluations conducted in the Overcooked-AI environment, utilizing a human proxy model, highlight the superior performance of our proposed method compared to existing learning-based approaches. When coordinating with real humans, our method achieves better alignment with human preferences and an average performance improvement of 15% compared to the state-of-the-art.

arxiv情報

著者 Cong Guan,Lichao Zhang,Chunpeng Fan,Yichen Li,Feng Chen,Lihe Li,Yunjia Tian,Lei Yuan,Yang Yu
発行日 2023-11-01 10:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク