Benchmarking Failures in Tool-Augmented Language Models

要約

ツールの統合により、バニラテキスト生成を超えて言語モデル(LMS)の機能が多用途のシナリオに拡張されました。
ただし、ツールの高級言語モデル(タルム)は、多くの場合、「完全な」情報アクセスとツールの可用性を想定していますが、これは現実の世界では保持されない可能性があります。
Talmsの欠陥を体系的に研究するために、2つの主要な障害を特徴とするFail-Talmsベンチマークを紹介します。
Fail-Talmsには、単一およびマルチツールの使用を含む21のカテゴリにわたって906ツールを使用した1,749の例が含まれています。
最高のパフォーマンスの独自およびオープンソースモデルを評価し、不足しているツールや情報を認識するためのClaudeの苦労を除くすべての現在のモデルを見つけます。
さらに、障害の可能性のある緩和を研究するために、Ask-and-Help(AAH)メソッドと名付けられたリアルタイムの人間の相互作用を可能にし、不足している情報を提供するか、非機能ツールを置き換えます。
AAHは、クエリが不足している場合、モデルがタスクをより正確に解決するのに役立ちますが、複雑なツールが壊れたときに最小限の利益をもたらします。

要約(オリジナル)

The integration of tools has extended the capabilities of language models (LMs) beyond vanilla text generation to versatile scenarios. However, tool-augmented language models (TaLMs) often assume ‘perfect’ information access and tool availability, which may not hold in the real world. To systematically study TaLMs’ imperfections, we introduce the FAIL-TALMS benchmark, featuring two major failures: under-specified user queries and non-available tools. FAIL-TALMS contains 1,749 examples using 906 tools across 21 categories, including single- and multi-tool usage. We evaluate top-performing proprietary and open-source models, and find all current models except for Claude struggle to recognize missing tools or information. Further, to study possible mitigation of the failures, we enable real-time human interaction, named the Ask-and-Help (AAH) method, to provide missing information or replace non-functional tools. While AAH can help models solve tasks more correctly when queries are under-specified, it brings minimal benefit when complex tools are broken.

arxiv情報

著者 Eduardo Treviño,Hugo Contant,James Ngai,Graham Neubig,Zora Zhiruo Wang
発行日 2025-03-18 13:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク