要約
LLM、メモリ、ツール、専門家との対話を活用して、ユーザーとの複雑な会話タスクを実行するように設計された AGILE (環境から対話し学習するエージェント) という名前の LLM エージェントの新しいフレームワークを紹介します。
エージェントの能力には、会話だけでなく、振り返り、ツールの活用、専門家への相談なども含まれます。
このような LLM エージェントの構築を強化学習問題として定式化し、LLM がポリシー モデルとして機能します。
アクションのラベル付きデータと PPO アルゴリズムを使用して LLM を微調整します。
私たちは質問応答に焦点を当てており、オンライン ショッピングでの難しい質問で構成された ProductQA と呼ばれるエージェント向けのデータセットをリリースしています。
ProductQA および MedMCQA に関する広範な実験により、PPO でトレーニングされた 13B および 7B LLM に基づく AGILE エージェントが GPT-4 エージェントを上回るパフォーマンスを発揮できることが示されています。
私たちのアブレーション研究は、エージェントの強力なパフォーマンスを達成するために、記憶、ツール、コンサルテーション、リフレクション、強化学習が不可欠であることを強調しています。
要約(オリジナル)
We introduce a novel framework of LLM agents named AGILE (AGent that Interacts and Learns from Environments) designed to perform complex conversational tasks with users, leveraging LLMs, memory, tools, and interactions with experts. The agent’s abilities include not only conversation but also reflection, utilization of tools, and consultation with experts. We formulate the construction of such an LLM agent as a reinforcement learning problem, in which the LLM serves as the policy model. We fine-tune the LLM using labeled data of actions and the PPO algorithm. We focus on question answering and release a dataset for agents called ProductQA, comprising challenging questions in online shopping. Our extensive experiments on ProductQA and MedMCQA show that AGILE agents based on 13B and 7B LLMs trained with PPO can outperform GPT-4 agents. Our ablation study highlights the indispensability of memory, tools, consultation, reflection, and reinforcement learning in achieving the agent’s strong performance.
arxiv情報
著者 | Peiyuan Feng,Yichen He,Guanhua Huang,Yuan Lin,Hanchong Zhang,Yuchen Zhang,Hang Li |
発行日 | 2024-05-23 16:17:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google