要約
逐次的な意思決定タスクのための大規模言語モデル(Large Language Model: LLM)エージェントを改善するための多くの方法は、プロンプトのチューニング、文脈内の事例のキュレーション、あるいはカスタマイズされた観察・行動空間など、タスクに特化した知識工学に依存している。これらのアプローチを用いると、知識工学の質や投資量に応じてエージェントの性能が向上する。その代わりに、我々は、LLMエージェントが、同様のタスクで成功した自身の経験から文脈内で学習することにより、そのパフォーマンスを自動的に向上させる方法を研究する。タスクに特化した知識工学に依存するのではなく、自己生成例のデータベースの構築と改良に焦点を当てる。その結果、3つのベンチマークにおいて、訓練タスクの成功軌跡を素朴に蓄積するだけでも、テストの成績が向上することが実証された:ALFWorld(73%から89%)、Wordcraft(55%から64%)、InterCode-SQL(75%から79%)である。(2)文脈内の例としての経験的有用性に基づいて個々の軌跡を保持する模範レベルの選択。これらの拡張により、性能がさらに向上し、ALFWorldで91%を達成した–タスク固有のコンポーネントやプロンプトを採用した、より複雑なアプローチに匹敵する。我々の結果は、軌跡データベースの自動構築が、労働集約的な知識工学に代わる説得力のある選択肢を提供することを示している。
要約(オリジナル)
Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering–such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)–matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld–matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.
arxiv情報
| 著者 | Vishnu Sarukkai,Zhiqiang Xie,Kayvon Fatahalian |
| 発行日 | 2025-05-02 16:44:02+00:00 |
| arxivサイト | arxiv_id(pdf) |