TOOLVERIFIER: Generalization to New Tools via Self-Verification

要約

ツールの使用方法を言語モデルに教えることは、一般的なアシスタントの構築に向けた重要なマイルストーンですが、未解決の問題のままです。
微調整による特定のツールの使用方法の学習に関しては大きな進歩が見られますが、言語モデルは、わずか数回のデモン​​ストレーションから新しいツールを確実に使用する方法を学習するのに依然として苦労しています。
この研究では、(1) ツールの選択中に対照的な質問を自分で行うことによって、近い候補者を区別する自己検証方法を導入します。
(2) パラメータの生成。
私たちはこの目標のために、Llama-2 70B を使用して高品質の自己生成合成データを構築し、これを一般に公開する予定です。
17 個の未確認ツールで構成される ToolBench ベンチマークの 4 つのタスクに関する広範な実験により、候補ツール間の区別が微妙なシナリオであっても、数回のショットのベースラインと比較して平均 22% の改善が実証されました。

要約(オリジナル)

Teaching language models to use tools is an important milestone towards building general assistants, but remains an open problem. While there has been significant progress on learning to use specific tools via fine-tuning, language models still struggle with learning how to robustly use new tools from only a few demonstrations. In this work we introduce a self-verification method which distinguishes between close candidates by self-asking contrastive questions during (1) tool selection; and (2) parameter generation. We construct synthetic, high-quality, self-generated data for this goal using Llama-2 70B, which we intend to release publicly. Extensive experiments on 4 tasks from the ToolBench benchmark, consisting of 17 unseen tools, demonstrate an average improvement of 22% over few-shot baselines, even in scenarios where the distinctions between candidate tools are finely nuanced.

arxiv情報

著者 Dheeraj Mekala,Jason Weston,Jack Lanchantin,Roberta Raileanu,Maria Lomeli,Jingbo Shang,Jane Dwivedi-Yu
発行日 2024-03-13 16:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク