要約
シーケンシャルな意思決定タスクの大規模言語モデル(LLM)エージェントを改善するための多くの方法は、タスク固有のナレッジエンジニアリングに依存しています。
これらのアプローチを使用して、エージェントのパフォーマンスは、投資された知識エンジニアリングの品質または量とともに向上します。
代わりに、LLMエージェントが、同様のタスクでの成功した体験からコンテキスト内で学習することにより、パフォーマンスを自動的に改善する方法を調査します。
タスク固有の知識エンジニアリングに依存するのではなく、自己生成の例のデータベースの構築と改良に焦点を当てています。
トレーニングタスク全体で成功した軌道を素朴に蓄積しても、3つのベンチマークのテストパフォーマンスを高めることができます:Alfworld(73%から89%)、Wordcraft(55%から64%)、およびIntercode-SQL(75%から79%) – パフォーマンスに合わせて、最初のエージェントが2つの試行ごとに3つの試行を許可する場合に達成します。
次に、2つの拡張機能を紹介します。(1)人口ベースのトレーニングを通じてデータベースレベルの選択を介して、パフォーマンスの高い例のコレクションを特定し、(2)経験的ユーティリティに基づいて個々の軌跡を保持する模範レベルの選択。
これらの拡張機能はパフォーマンスをさらに向上させ、Alfworldで91%を達成します。これは、タスク固有のコンポーネントとプロンプトを使用するより複雑なアプローチを一致させます。
我々の結果は、自動軌跡データベース構造が労働集約型の知識エンジニアリングの魅力的な代替品を提供することを示しています。
要約(オリジナル)
Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering–such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)–matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld–matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.
arxiv情報
著者 | Vishnu Sarukkai,Zhiqiang Xie,Kayvon Fatahalian |
発行日 | 2025-05-01 00:48:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google