要約
ChatGPT のようなラージ言語モデル (LLM) の出現により、現実世界の複雑なタスクに対処できる LLM ベースのエージェントの開発が促進されました。
ただし、これらのエージェントは、エラーの伝播や適応性の制限などの方法論的な制約により、タスクの実行中に苦労することがよくあります。
この問題に対処するために、動的タスク分解とエージェント生成 (TDAG) に基づくマルチエージェント フレームワークを提案します。
このフレームワークは、複雑なタスクをより小さなサブタスクに動的に分解し、それぞれを特別に生成されたサブエージェントに割り当てることで、多様で予測不可能な現実世界のタスクへの適応性を高めます。
同時に、既存のベンチマークには、複雑な複数ステップのタスクの段階的な進捗を評価するのに必要な粒度が欠けていることがよくあります。
これに応えて、旅行計画のコンテキストで ItineraryBench を導入します。これは、きめ細かい評価システムを備えた、相互に接続され、徐々に複雑になるタスクを特徴としています。
ItineraryBench は、さまざまな複雑さのタスクにわたって、記憶、計画、およびツールの使用におけるエージェントの能力を評価するように設計されています。
私たちの実験結果では、TDAG が確立されたベースラインを大幅に上回り、複雑なタスク シナリオにおける優れた適応性とコンテキスト認識を示していることが明らかになりました。
要約(オリジナル)
The emergence of Large Language Models (LLMs) like ChatGPT has inspired the development of LLM-based agents capable of addressing complex, real-world tasks. However, these agents often struggle during task execution due to methodological constraints, such as error propagation and limited adaptability. To address this issue, we propose a multi-agent framework based on dynamic Task Decomposition and Agent Generation (TDAG). This framework dynamically decomposes complex tasks into smaller subtasks and assigns each to a specifically generated subagent, thereby enhancing adaptability in diverse and unpredictable real-world tasks. Simultaneously, existing benchmarks often lack the granularity needed to evaluate incremental progress in complex, multi-step tasks. In response, we introduce ItineraryBench in the context of travel planning, featuring interconnected, progressively complex tasks with a fine-grained evaluation system. ItineraryBench is designed to assess agents’ abilities in memory, planning, and tool usage across tasks of varying complexity. Our experimental results reveal that TDAG significantly outperforms established baselines, showcasing its superior adaptability and context awareness in complex task scenarios.
arxiv情報
著者 | Yaoxiang Wang,Zhiyong Wu,Junfeng Yao,Jinsong Su |
発行日 | 2024-02-15 18:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google