A Comprehensive Evaluation of Tool-Assisted Generation Strategies

要約

成長している研究分野では、ツール (検索エンジン、計算機など) を使用して言語モデルを強化し、言語モデルの欠点 (欠落または誤った知識、誤った論理推論など) を克服する研究が行われています。
さまざまな少数ショットツール使用戦略が提案されています。
ただし、さまざまな戦略間、またはこれらの戦略とツールを活用しない強力なベースラインとの間で体系的かつ公平に比較​​することはできません。
私たちは広範な実証分析を実施し、(1) さまざまなデータセット、サンプルの難易度、およびモデルにわたって、ツールを使用しない強力なベースラインがツール支援戦略に匹敵することを発見しました。これは、コンテキスト内のデモンストレーションでツールを効果的に使用することが困難な未解決の課題であることを示唆しています。
問題;
(2) 知識検索タスクの場合、ツールを使用して誤った出力を「洗練」する戦略は、関連情報を「事前」または「生成中」に取得する戦略よりも優れています。
(3) ツール支援戦略は、機能するために必要なトークンの数が高価であり、桁違いの追加コストが発生し、パフォーマンスの大幅な向上にはつながりません。
全体として、私たちの調査結果は、少数ショットツールの統合が依然として未解決の課題であることを示唆しており、将来の戦略の「利点」と「コスト」を正確に評価するための包括的な評価の必要性を強調しています。

要約(オリジナル)

A growing area of research investigates augmenting language models with tools (e.g., search engines, calculators) to overcome their shortcomings (e.g., missing or incorrect knowledge, incorrect logical inferences). Various few-shot tool-usage strategies have been proposed. However, there is no systematic and fair comparison across different strategies, or between these strategies and strong baselines that do not leverage tools. We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work — incurring additional costs by orders of magnitude — which does not translate into significant improvement in performance. Overall, our findings suggest that few-shot tool integration is still an open challenge, emphasizing the need for comprehensive evaluations of future strategies to accurately assess their *benefits* and *costs*.

arxiv情報

著者 Alon Jacovi,Avi Caciularu,Jonathan Herzig,Roee Aharoni,Bernd Bohnet,Mor Geva
発行日 2023-12-28 15:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク