要約
さまざまなタスクで優れたパフォーマンスを発揮するオープン大規模言語モデル (LLM) により、LLM の開発が大幅に進歩しました。
ただし、現実世界で複雑なタスクに取り組むエージェントとして機能する場合、ChatGPT や GPT-4 などの商用モデルよりもはるかに劣ります。
これらのエージェント タスクでは、計画、記憶、ツールの使用を担当する中央コントローラーとして LLM が採用されており、満足のいくパフォーマンスを達成するには、きめ細かいプロンプト方法と堅牢な LLM の両方が必要です。
特定のエージェントのタスクを完了するために多くのプロンプト方法が提案されていますが、LLM の一般的な能力を損なうことなく、LLM 自体のエージェント能力を向上させることに焦点を当てた研究は不足しています。
この研究では、一般的な LLM 機能を維持しながら、LLM のエージェント機能を強化するためのシンプルで一般的な方法である AgentTuning を紹介します。
高品質のインタラクション軌跡を含む軽量の命令チューニング データセットである AgentInstruct を構築します。
当社では、AgentInstruct と一般ドメインのオープンソース命令を組み合わせたハイブリッド命令チューニング戦略を採用しています。
AgentTuning は Llama 2 シリーズの命令チューニングに使用され、その結果 AgentLM が作成されます。
私たちの評価では、AgentTuning が一般的な能力を損なうことなく LLM のエージェント機能を有効にすることが示されています。
AgentLM-70B は、目に見えないエージェント タスクにおいて GPT-3.5-turbo に匹敵し、汎用化されたエージェント機能を実証します。
https://github.com/THUDM/AgentTuning で AgentInstruct および AgentLM-7B、13B、および 70B モデルをオープンソース化し、エージェント タスク用の商用 LLM に代わるオープンで強力な代替手段を提供します。
要約(オリジナル)
Open large language models (LLMs) with great performance in various tasks have significantly advanced the development of LLMs. However, they are far inferior to commercial models such as ChatGPT and GPT-4 when acting as agents to tackle complex tasks in the real world. These agent tasks employ LLMs as the central controller responsible for planning, memorization, and tool utilization, necessitating both fine-grained prompting methods and robust LLMs to achieve satisfactory performance. Though many prompting methods have been proposed to complete particular agent tasks, there is lack of research focusing on improving the agent capabilities of LLMs themselves without compromising their general abilities. In this work, we present AgentTuning, a simple and general method to enhance the agent abilities of LLMs while maintaining their general LLM capabilities. We construct AgentInstruct, a lightweight instruction-tuning dataset containing high-quality interaction trajectories. We employ a hybrid instruction-tuning strategy by combining AgentInstruct with open-source instructions from general domains. AgentTuning is used to instruction-tune the Llama 2 series, resulting in AgentLM. Our evaluations show that AgentTuning enables LLMs’ agent capabilities without compromising general abilities. The AgentLM-70B is comparable to GPT-3.5-turbo on unseen agent tasks, demonstrating generalized agent capabilities. We open source the AgentInstruct and AgentLM-7B, 13B, and 70B models at https://github.com/THUDM/AgentTuning , serving open and powerful alternatives to commercial LLMs for agent tasks.
arxiv情報
著者 | Aohan Zeng,Mingdao Liu,Rui Lu,Bowen Wang,Xiao Liu,Yuxiao Dong,Jie Tang |
発行日 | 2023-10-19 15:19:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google