要約
大規模な言語モデル(LLMS)の最近の進歩により、複雑なタスクを計画するためのエージェントとしての使用が可能になりました。
既存の方法は通常、LLMパフォーマンスを向上させるために思考アクション – 観測(TAO)プロセスに依存していますが、これらのアプローチは、LLMSの複雑なタスクに関する限られた知識によって制約されることがよくあります。
検索されたジェネレーション(RAG)は、取得された情報の地上生成に外部データベースを活用することにより、新しい機会を提供します。
このホワイトペーパーでは、タスク計画にRAGを適用する際の2つの重要な課題(拡大性と移転性)を特定します。
これらの課題に対処するために、マルチエージェントメタ補強学習フレームワーク内の新しいソリューションであるInstructragを提案します。
Instructragには、過去の命令パス(正しいアクションのシーケンス)を整理するためのグラフ、拡大性のためのグラフカバレッジを拡張するための補強学習を備えたRL-Agent、および転送可能性のためのタスク一般化を改善するML-Agentが含まれます。
2つのエージェントは、全体的な計画パフォーマンスを最適化するためにエンドツーエンドのトレーニングを受けています。
4つの広く使用されているタスク計画データセットの実験は、インストラクトラグがパフォーマンスを大幅に向上させ、新しいタスクに効率的に適応することを示しています。
要約(オリジナル)
Recent advancements in large language models (LLMs) have enabled their use as agents for planning complex tasks. Existing methods typically rely on a thought-action-observation (TAO) process to enhance LLM performance, but these approaches are often constrained by the LLMs’ limited knowledge of complex tasks. Retrieval-augmented generation (RAG) offers new opportunities by leveraging external databases to ground generation in retrieved information. In this paper, we identify two key challenges (enlargability and transferability) in applying RAG to task planning. We propose InstructRAG, a novel solution within a multi-agent meta-reinforcement learning framework, to address these challenges. InstructRAG includes a graph to organize past instruction paths (sequences of correct actions), an RL-Agent with Reinforcement Learning to expand graph coverage for enlargability, and an ML-Agent with Meta-Learning to improve task generalization for transferability. The two agents are trained end-to-end to optimize overall planning performance. Our experiments on four widely used task planning datasets demonstrate that InstructRAG significantly enhances performance and adapts efficiently to new tasks, achieving up to a 19.2% improvement over the best existing approach.
arxiv情報
著者 | Zheng Wang,Shu Xian Teo,Jun Jie Chew,Wei Shi |
発行日 | 2025-04-17 15:41:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google