Offline Training of Language Model Agents with Functions as Learnable Weights

要約

近年、研究者や実務家は、強力な大規模言語モデル(Large Language Model: LLM)をエージェントとして再構築し、特殊化された関数の使用により複雑なタスクの自動化を可能にしている。LLMエージェントの開発を促進するために、我々はLLMの重みを変更することなくLLMエージェントを訓練する新しいパラダイムを提示する。これは、LLMを修正することが困難であったり、修正にアクセスできない場合に特に有効である。人間は、固定的な道具のセットに合わせて生物学的構造を変えるのではなく、実世界のタスクに適応するために絶えず道具を鍛錬していることに着想を得て、我々は、LLMの重みを修正する代わりに、下流のタスクをより良く解決するためにエージェントの機能を徐々に鍛錬することを提案する。関数を学習可能な「エージェントパラメータ」として扱い、人工知能におけるモデルトレーニングの基本的な考え方を活用することで、我々は、エージェントの関数を更新するためにLLMを採用するAgentOptimizerを開発し、トレーニングプロセスを合理化するために、ロールバックと早期停止の2つの戦略を持つエージェントトレーニングアルゴリズムを考案する。広範な実験により、エージェント訓練パラダイムが、様々な下流タスクにおいて代表的なLLMエージェントの性能を大幅に改善できることを示す。また、学習曲線や領域移行性などの側面に関するエージェントトレーニングの動作についても研究する。

要約(オリジナル)

Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent’s functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters’ and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents’ functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability.

arxiv情報

著者 Shaokun Zhang,Jieyu Zhang,Jiale Liu,Linxin Song,Chi Wang,Ranjay Krishna,Qingyun Wu
発行日 2024-05-03 06:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク