要約
大規模言語モデル (LLM) が最新の情報を取得し、外部環境で結果として生じるアクションを実行するには、ツールが不可欠です。
ツール拡張 LLM に関する既存の研究は、主にツールの広範な適用範囲と新しいツールの追加の柔軟性に焦点を当てています。
しかし、驚くほど十分に研究されていない重要な側面は、単に LLM がトレーニングされたツールをどれだけ正確に使用するかということです。
GPT-4 やツールの使用に合わせて特別に微調整されたオープンソース LLM を含む既存の LLM は、実際に信頼できる使用とは程遠い、30% ~ 60% の範囲の正解率しか達成できないことがわかりました。
我々は、ツール拡張LLMのための生物学的にインスピレーションを得た方法、シミュレーショントライアンドエラー(STE)を提案します。これは、生物学的システムにおけるツール使用行動を成功させるための3つの重要なメカニズム、トライアンドエラー、想像力、記憶を調整します。
具体的には、STE は LLM の「想像力」を活用して、ツールを使用するためのもっともらしいシナリオをシミュレートします。その後、LLM はツールと対話して、その実行フィードバックから学習します。
短期記憶と長期記憶の両方が、それぞれ探索の深さと幅を向上させるために使用されます。
ToolBench での包括的な実験では、STE がコンテキスト内学習と微調整設定の両方で LLM のツール学習を大幅に改善し、Mistral-Instruct-7B のパフォーマンスが 46.7% 向上し、GPT-4 を上回るパフォーマンスを実現できることが示されています。
また、シンプルなエクスペリエンス再生戦略によるツールの効果的な継続学習も示します。
要約(オリジナル)
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM’s ‘imagination’ to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
arxiv情報
著者 | Boshi Wang,Hao Fang,Jason Eisner,Benjamin Van Durme,Yu Su |
発行日 | 2024-03-07 18:50:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google