要約
最近の取り組みでは、外部ツールや環境を使用して言語モデル (LM) を拡張し、推論して行動できる言語エージェントの開発につながりました。
ただし、これらのエージェントのほとんどは、既製の LM を使用した数発のプロンプト技術に依存しています。
この論文では、言語エージェントを取得するために LM を微調整するという見落とされている方向性について調査し、議論します。
Google 検索 API による質問応答 (QA) のセットアップを使用して、さまざまなベース LM、プロンプト方法、データの微調整、QA タスクを調査し、バックボーン LM を微調整した後、言語エージェントが一貫して改善されていることを発見しました。
たとえば、GPT-4 によって生成された 500 のエージェント軌跡を使用して Llama2-7B を微調整すると、HotpotQA のパフォーマンスが 77% 向上します。
さらに、複数のタスクとプロンプト方法からの軌跡を使用して LM を微調整する新しいアプローチである FireAct を提案し、より多様な微調整データを取得することでエージェントをさらに改善できることを示します。
スケーリング効果、堅牢性、一般化、効率、コストに関する他の発見とともに、私たちの研究は、エージェント向けに LM を微調整することの包括的な利点を確立し、一連の実験計画、洞察、および言語エージェントの微調整に対する未解決の質問を提供します。
チューニング。
要約(オリジナル)
Recent efforts have augmented language models (LMs) with external tools or environments, leading to the development of language agents that can reason and act. However, most of these agents rely on few-shot prompting techniques with off-the-shelf LMs. In this paper, we investigate and argue for the overlooked direction of fine-tuning LMs to obtain language agents. Using a setup of question answering (QA) with a Google search API, we explore a variety of base LMs, prompting methods, fine-tuning data, and QA tasks, and find language agents are consistently improved after fine-tuning their backbone LMs. For example, fine-tuning Llama2-7B with 500 agent trajectories generated by GPT-4 leads to a 77% HotpotQA performance increase. Furthermore, we propose FireAct, a novel approach to fine-tuning LMs with trajectories from multiple tasks and prompting methods, and show having more diverse fine-tuning data can further improve agents. Along with other findings regarding scaling effects, robustness, generalization, efficiency and cost, our work establishes comprehensive benefits of fine-tuning LMs for agents, and provides an initial set of experimental designs, insights, as well as open questions toward language agent fine-tuning.
arxiv情報
| 著者 | Baian Chen,Chang Shu,Ehsan Shareghi,Nigel Collier,Karthik Narasimhan,Shunyu Yao |
| 発行日 | 2023-10-09 17:58:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google