Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models

要約

ツール拡張大規模言語モデル (LLM) は、最新の知識にアクセスし、幻覚の問題を軽減する際に広く注目を集めています。
現在、高度なクローズドソース LLM (ChatGPT など) は、プロンプトとコンテキスト内学習技術を通じて、驚くべきツール使用能力を実証しています。
ツール操作におけるオープンソース LLM (LLaMA など) の機能を強化するために、現在の取り組みは、テンプレート駆動型またはトークントリガー型のツールの使用に焦点を当てています。
ただし、前者は、ツールの対話が制限されているため、多様なユーザーのクエリに対処するための LLM の柔軟性を妨げます。一方、後者は、ツールの使用状況の学習がタスクおよびツール固有のデータセットに基づいているため、新しいツールを使用する際の汎用性を制限します。
これらの懸念を軽減するために、このホワイトペーパーでは、意思決定を認識し、一般化可能なツール使用フレームワーク (DEER) を提案します。
具体的には、まず、自動生成パイプラインを介して複数の意思決定分岐を含むツール使用サンプルを構築し、それによって多様なシナリオの下で LLM の意思決定に対する認識を刺激します。
一方、我々は、目に見えないツールに対するLLMの一般化可能性を高めるための新しいツールサンプリング戦略を提案します。
広範な実験により、私たちが提案した DEER が効果的であり、さまざまなデータセットにわたってベースラインを大幅に上回ることが実証されました。

要約(オリジナル)

Tool-augmented large language models (LLMs) are attracting widespread attention when accessing up-to-date knowledge and alleviating hallucination issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated surprising tool-usage capabilities through prompting and in-context learning techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in manipulating tools, current efforts focus on either template-driven or token-triggered tool-usage. However, the former hampers LLMs’ flexibility to address diverse user’s queries due to constrained tool interactions, while the latter limits the generalizability when engaging with new tools, since tool-usage learning is based on task- and tool-specific datasets. To alleviate these concerns, in this paper, we propose a decision-aware and generalizable tool-usage framework (DEER). Specifically, we first construct the tool-usage samples with multiple decision branches via an automatic generation pipeline, thereby inspiring the decision-making awareness of LLMs under diverse scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the generalizability of LLMs over unseen tools. Extensive experiments demonstrate that our proposed DEER is effective and significantly outperforms baselines across various datasets.

arxiv情報

著者 Anchun Gui,Jian Li,Yong Dai,Nan Du,Han Xiao
発行日 2024-08-28 14:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク