要約
大規模な言語モデル(LLMS)の最近の進歩により、インテリジェントなエージェントがリアクティブな応答から積極的なサポートへの推進されています。
有望なことに、既存のプロアクティブエージェントは、直接LLM推論を備えた囲まれた環境(デスクトップUIなど)からの観測にのみ依存するか、ルールベースのプロアクティブ通知を採用し、ユーザーの意図とプロアクティブサービスの制限された機能につながります。
この論文では、LLMエージェントのプロアクティブな機能を強化するための広範な感覚コンテキストを組み込んだ最初のコンテキスト対応プロアクティブエージェントであるContextAgentを紹介します。
ContextAgentは、最初に、ユーザーの意図を理解するために、ウェアラブル(ビデオやオーディオなど)の大規模な感覚認識から多次元コンテキストを抽出します。
ContextAgentは、歴史的データから感覚コンテキストとペルソナのコンテキストを活用して、積極的なサービスの必要性を予測します。
積極的な支援が必要な場合、ContextAgentはさらに、ユーザーを控えめに支援するために必要なツールを自動的に呼び出します。
この新しいタスクを評価するために、コンテキストを認識しているプロアクティブLLMエージェントを評価するための最初のベンチマークであるContextAgentBenchをキュレートし、毎日9つのシナリオと20のツールにわたって1,000のサンプルをカバーします。
ContextAgentBenchでの実験は、コンテキストアジェントが、それぞれプロアクティブな予測とツール呼び出しで最大8.5%および6.0%高い精度を達成することにより、ベースラインを上回ることを示しています。
私たちの研究が、より高度で人間中心の積極的なAIアシスタントの開発を促すことを願っています。
要約(オリジナル)
Recent advances in Large Language Models (LLMs) have propelled intelligent agents from reactive responses to proactive support. While promising, existing proactive agents either rely exclusively on observations from enclosed environments (e.g., desktop UIs) with direct LLM inference or employ rule-based proactive notifications, leading to suboptimal user intent understanding and limited functionality for proactive service. In this paper, we introduce ContextAgent, the first context-aware proactive agent that incorporates extensive sensory contexts to enhance the proactive capabilities of LLM agents. ContextAgent first extracts multi-dimensional contexts from massive sensory perceptions on wearables (e.g., video and audio) to understand user intentions. ContextAgent then leverages the sensory contexts and the persona contexts from historical data to predict the necessity for proactive services. When proactive assistance is needed, ContextAgent further automatically calls the necessary tools to assist users unobtrusively. To evaluate this new task, we curate ContextAgentBench, the first benchmark for evaluating context-aware proactive LLM agents, covering 1,000 samples across nine daily scenarios and twenty tools. Experiments on ContextAgentBench show that ContextAgent outperforms baselines by achieving up to 8.5% and 6.0% higher accuracy in proactive predictions and tool calling, respectively. We hope our research can inspire the development of more advanced, human-centric, proactive AI assistants.
arxiv情報
著者 | Bufang Yang,Lilin Xu,Liekang Zeng,Kaiwei Liu,Siyang Jiang,Wenrui Lu,Hongkai Chen,Xiaofan Jiang,Guoliang Xing,Zhenyu Yan |
発行日 | 2025-05-20 17:55:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google