Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents

要約

大規模言語モデル (LLM) は、検索エンジンなどのツールを通じて環境と対話するエージェントとして機能することに成功しています。
ただし、LLM はトレーニングや調整中にツールを使用するのではなく、言語生成用に最適化されているため、エージェントとしての有効性が制限されます。
この問題を解決するために、これまでの研究ではまず LLM と環境の間の相互作用の軌跡を収集し、タスクを正常に完了した軌跡のみを使用して小規模なモデルを微調整していました。そのため、微調整データが不足し、その取得が困難でコストがかかりました。
失敗した軌跡を破棄すると、データとリソースが大幅に浪費され、微調整中に可能な最適化パスが制限されます。
この論文では、失敗した軌跡は貴重な洞察を提供し、LLM は適切な品質管理と微調整戦略を通じてこれらの軌跡から学ぶことができると主張します。
トレーニング中に成功した軌道を生成するかどうかをモデルに伝えるプレフィックスまたはサフィックスを追加するだけで、数学的推論、マルチホップ質問応答、および戦略的質問応答タスクでモデルのパフォーマンスが大幅に向上します。
推論結果をさらに分析し、私たちの方法が貴重な情報と失敗した軌跡のエラーとの間のより良いトレードオフを提供することを発見しました。
私たちの知る限り、私たちはネガティブな軌道の価値とエージェント調整シナリオにおけるその応用を初めて実証しました。
私たちの調査結果は、より優れたエージェント調整方法と低リソースのデータ使用技術を開発するための指針を提供します。

要約(オリジナル)

Large language models (LLMs) have achieved success in acting as agents, which interact with environments through tools such as search engines. However, LLMs are optimized for language generation instead of tool use during training or alignment, limiting their effectiveness as agents. To resolve this problem, previous work has first collected interaction trajectories between LLMs and environments, using only trajectories that successfully finished the task to fine-tune smaller models, making fine-tuning data scarce and acquiring it both difficult and costly. Discarding failed trajectories also leads to significant wastage of data and resources and limits the possible optimization paths during fine-tuning. In this paper, we argue that unsuccessful trajectories offer valuable insights, and LLMs can learn from these trajectories through appropriate quality control and fine-tuning strategies. By simply adding a prefix or suffix that tells the model whether to generate a successful trajectory during training, we improve model performance by a large margin on mathematical reasoning, multi-hop question answering, and strategic question answering tasks. We further analyze the inference results and find that our method provides a better trade-off between valuable information and errors in unsuccessful trajectories. To our knowledge, we are the first to demonstrate the value of negative trajectories and their application in agent-tunning scenarios. Our findings offer guidance for developing better agent-tuning methods and low-resource data usage techniques.

arxiv情報

著者 Renxi Wang,Haonan Li,Xudong Han,Yixuan Zhang,Timothy Baldwin
発行日 2024-04-16 11:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク