Reducing Tool Hallucination via Reliability Alignment

要約

大規模言語モデル (LLM) は、言語生成を超えて機能を拡張し、ツール呼び出しを通じて外部システムと対話し、現実世界のアプリケーションに強力な可能性を提供します。
ただし、モデルがツールを不適切に選択または誤用したときに発生するツール幻覚という現象は、タスク実行の欠陥や運用コストの増加につながる可能性がある重大な課題を提示しています。
この論文では、信頼性の高いツール呼び出しの概念を調査し、ツールの幻覚に対処する必要性を強調しています。
私たちは、道具の幻覚を、道具選択の幻覚と道具の使用の幻覚という 2 つの主なタイプに体系的に分類します。
これらの問題を軽減するために、ツールの関連性と使用状況を正確に評価するモデルの機能を強化する、信頼性を重視した調整フレームワークを提案します。
一連の評価指標を提案し、StableToolBench で評価することで、ツールの幻覚を軽減し、LLM ツール呼び出しのシステム全体の信頼性を向上させるフレームワークの有効性をさらに実証します。

要約(オリジナル)

Large Language Models (LLMs) have extended their capabilities beyond language generation to interact with external systems through tool calling, offering powerful potential for real-world applications. However, the phenomenon of tool hallucinations, which occur when models improperly select or misuse tools, presents critical challenges that can lead to flawed task execution and increased operational costs. This paper investigates the concept of reliable tool calling and highlights the necessity of addressing tool hallucinations. We systematically categorize tool hallucinations into two main types: tool selection hallucination and tool usage hallucination. To mitigate these issues, we propose a reliability-focused alignment framework that enhances the model’s ability to accurately assess tool relevance and usage. By proposing a suite of evaluation metrics and evaluating on StableToolBench, we further demonstrate the effectiveness of our framework in mitigating tool hallucination and improving the overall system reliability of LLM tool calling.

arxiv情報

著者 Hongshen Xu,Su Zhu,Zihan Wang,Hang Zheng,Da Ma,Ruisheng Cao,Shuai Fan,Lu Chen,Kai Yu
発行日 2024-12-05 13:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク