ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

要約

ツール拡張された大規模言語モデル (LLM) は、現実世界のアプリケーションに急速に統合されています。
ベンチマークが不足しているため、コミュニティは依然としてこれらのモデル内の幻覚の問題を完全に理解する必要があります。
この課題に対処するために、包括的な診断ベンチマークである ToolBH を導入します。
具体的には、深さと幅という 2 つの観点から LLM の幻覚を評価します。
深さの観点から、(1) 可溶性の検出、(2) ソリューションの計画、(3) 不足しているツールの分析を含む、マルチレベルの診断プロセスを提案します。
範囲を広げるために、ツールセットの特性に基づいて 3 つのシナリオ (必要なツールが不足している、潜在的なツール、および機能が制限されたツール) を検討します。
さらに、7 つのタスクを開発し、複数回の手動アノテーションを通じて 700 の評価サンプルを収集しました。
結果は、ToolBH ベンチマークによってもたらされる重大な課題を示しています。
現在の高度なモデルである Gemini-1.5-Pro と GPT-4o は、100 点満点中、それぞれ 45.3 と 37.0 の合計スコアしか達成していません。このベンチマークでは、モデル パラメーターが大きいほどパフォーマンスが向上することは保証されません。
トレーニング データと対応戦略も、ツールで強化された LLM シナリオで重要な役割を果たします。
私たちの診断分析では、モデルエラーの主な理由はタスクの解決可能性の評価にあることが示されています。
さらに、オープンウェイト モデルは冗長な応答によるパフォーマンスの低下に悩まされますが、独自のモデルはより長い推論で優れています。

要約(オリジナル)

Tool-augmented large language models (LLMs) are rapidly being integrated into real-world applications. Due to the lack of benchmarks, the community still needs to fully understand the hallucination issues within these models. To address this challenge, we introduce a comprehensive diagnostic benchmark, ToolBH. Specifically, we assess the LLM’s hallucinations through two perspectives: depth and breadth. In terms of depth, we propose a multi-level diagnostic process, including (1) solvability detection, (2) solution planning, and (3) missing-tool analysis. For breadth, we consider three scenarios based on the characteristics of the toolset: missing necessary tools, potential tools, and limited functionality tools. Furthermore, we developed seven tasks and collected 700 evaluation samples through multiple rounds of manual annotation. The results show the significant challenges presented by the ToolBH benchmark. The current advanced models Gemini-1.5-Pro and GPT-4o only achieve a total score of 45.3 and 37.0, respectively, on a scale of 100. In this benchmark, larger model parameters do not guarantee better performance; the training data and response strategies also play a crucial role in tool-enhanced LLM scenarios. Our diagnostic analysis indicates that the primary reason for model errors lies in assessing task solvability. Additionally, open-weight models suffer from performance drops with verbose replies, whereas proprietary models excel with longer reasoning.

arxiv情報

著者 Yuxiang Zhang,Jing Chen,Junjie Wang,Yaxin Liu,Cheng Yang,Chufan Shi,Xinyu Zhu,Zihao Lin,Hanwen Wan,Yujiu Yang,Tetsuya Sakai,Tian Feng,Hayato Yamana
発行日 2024-06-28 16:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク