Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration


言語モデル (LM) の最近の進歩により、LM エージェントの開発に対する関心が高まっています。
人間とエージェントのコラボレーションの研究を促進するために、エージェント、人間、およびタスク環境間の非同期の三者間の対話を可能にする一般的なフレームワークであるコラボレーティブ ジム (Co-Gym) を紹介します。
私たちは、シミュレーション条件と現実世界の条件の両方で 3 つの代表的なタスクを備えた Co-Gym をインスタンス化し、コラボレーションの結果とプロセスの両方を評価する評価フレームワークを提案します。
私たちの調査結果によると、実際のユーザーによる評価では、協力型エージェントは提供されたケース内のタスク パフォーマンスにおいて完全自律型エージェントを常に上回っており、旅行計画で 86%、表形式分析で 74%、関連作業で 66% の勝率を達成しています。


Recent advancements in language models (LMs) have sparked growing interest in developing LM agents. While fully autonomous agents could excel in many scenarios, numerous use cases inherently require them to collaborate with humans due to humans’ latent preferences, domain expertise, or need for control. To facilitate the study of human-agent collaboration, we present Collaborative Gym (Co-Gym), a general framework enabling asynchronous, tripartite interaction among agents, humans, and task environments. We instantiate Co-Gym with three representative tasks in both simulated and real-world conditions, and propose an evaluation framework that assesses both the collaboration outcomes and processes. Our findings reveal that collaborative agents consistently outperform their fully autonomous counterparts in task performance within those delivered cases, achieving win rates of 86% in Travel Planning, 74% in Tabular Analysis, and 66% in Related Work when evaluated by real users. However, our study also highlights significant challenges in developing collaborative agents, requiring advancements in core aspects of intelligence — communication capabilities, situational awareness, and balancing autonomy and human control.


著者 Yijia Shao,Vinay Samuel,Yucheng Jiang,John Yang,Diyi Yang
発行日 2025-01-16 07:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク