Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

要約

現在、大規模言語モデル (LLM) は、ツールの使用法のいくつかのデモンストレーションを提供することによって、新しいツールの使用方法を教えられています。
残念ながら、デモンストレーションを入手するのは難しく、間違ったデモンストレーションを選択すると、望ましくない偏った使用が生じる可能性があります。
デモがすぐに利用できるというまれなシナリオであっても、どれだけの数を提供するかを決定するための原則に基づいた選択プロトコルはありません。
タスクが複雑になるにつれて、選択検索は組み合わせ的に増大し、常に扱いにくくなります。
私たちの取り組みは、デモンストレーションに代わるツールのドキュメントを提供します。
私たちは、デモンストレーションではなく、ツールのドキュメント、つまり個々のツールの使用方法の説明を使用することを推奨します。
私たちは、視覚と言語の両方のモダリティにわたる 6 つのタスクに関する 3 つの主要な経験的発見を通じて、私たちの主張を実証します。
まず、既存のベンチマークでは、ツールのドキュメントのみを含むゼロショット プロンプトは、ツールの適切な使用を引き出すのに十分であり、少数ショット プロンプトと同等のパフォーマンスを達成します。
次に、数百の利用可能なツール API を含む新たに収集された現実的なツール使用データセットで、ツールのドキュメントの方がデモンストレーションよりもはるかに価値があり、ゼロショットのドキュメントはドキュメントなしの数ショットよりも大幅に優れていることを示します。
3 番目に、リリースされたばかりの未公開の最先端モデルをツールとして使用して画像生成とビデオ追跡に取り組むことで、ツールのドキュメント化の利点を強調します。
最後に、ツールのドキュメントを使用して新しいアプリケーションを自動的に有効にする可能性を強調します。GroundingDino、Stable Diffusion、XMem、および SAM のドキュメントのみを使用することで、LLM はリリースされたばかりの Grounded-SAM の機能を再発明でき、
Anything モデルを追跡します。

要約(オリジナル)

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool’s usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.

arxiv情報

著者 Cheng-Yu Hsieh,Si-An Chen,Chun-Liang Li,Yasuhisa Fujii,Alexander Ratner,Chen-Yu Lee,Ranjay Krishna,Tomas Pfister
発行日 2023-08-01 17:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク