要約
言語モデル (LM) の最近の進歩により、LM エージェントの開発に対する関心が高まっています。
完全自律型エージェントは多くのシナリオで優れた性能を発揮しますが、人間の潜在的な好み、ドメインの専門知識、または制御の必要性により、多くのユースケースでは本質的に人間との協働が必要になります。
人間とエージェントのコラボレーションの研究を促進するために、エージェント、人間、およびタスク環境間の非同期の三者間の対話を可能にする一般的なフレームワークであるコラボレーティブ ジム (Co-Gym) を紹介します。
私たちは、シミュレーション条件と現実世界の条件の両方で 3 つの代表的なタスクを備えた Co-Gym をインスタンス化し、コラボレーションの結果とプロセスの両方を評価する評価フレームワークを提案します。
私たちの調査結果によると、実際のユーザーによる評価では、協力型エージェントは提供されたケース内のタスク パフォーマンスにおいて完全自律型エージェントを常に上回っており、旅行計画で 86%、表形式分析で 74%、関連作業で 66% の勝率を達成しています。
しかし、私たちの研究では、協調エージェントの開発における重大な課題も浮き彫りにしており、コミュニケーション能力、状況認識、自律性と人間の制御のバランスなど、インテリジェンスの核となる側面の進歩が必要とされています。
要約(オリジナル)
Recent advancements in language models (LMs) have sparked growing interest in developing LM agents. While fully autonomous agents could excel in many scenarios, numerous use cases inherently require them to collaborate with humans due to humans’ latent preferences, domain expertise, or need for control. To facilitate the study of human-agent collaboration, we present Collaborative Gym (Co-Gym), a general framework enabling asynchronous, tripartite interaction among agents, humans, and task environments. We instantiate Co-Gym with three representative tasks in both simulated and real-world conditions, and propose an evaluation framework that assesses both the collaboration outcomes and processes. Our findings reveal that collaborative agents consistently outperform their fully autonomous counterparts in task performance within those delivered cases, achieving win rates of 86% in Travel Planning, 74% in Tabular Analysis, and 66% in Related Work when evaluated by real users. However, our study also highlights significant challenges in developing collaborative agents, requiring advancements in core aspects of intelligence — communication capabilities, situational awareness, and balancing autonomy and human control.
arxiv情報
著者 | Yijia Shao,Vinay Samuel,Yucheng Jiang,John Yang,Diyi Yang |
発行日 | 2025-01-16 07:01:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google