要約
大規模言語モデル (LLM) は幻覚を起こしやすく、入力、外部事実に忠実でない、または内部的に矛盾した信頼性の低い出力を生成します。
この研究では、実稼働環境における事後幻覚検出に関するいくつかの課題に取り組みます。
幻覚検出のパイプラインには次のことが含まれます。まず、生成された回答が幻覚である可能性を表す信頼度スコアを生成します。
2 番目に、入力と候補応答の属性に基づいてスコアを調整します。
最後に、校正されたスコアをしきい値処理することによって検出を実行します。
私たちは、質問回答、事実確認、要約タスクを含む、さまざまなデータセットに対するさまざまな最先端のスコアリング方法をベンチマークします。
当社では、パフォーマンスの包括的な評価を保証するために、多様な LLM を採用しています。
リスクを意識した下流の意思決定を確実にするためには、個々のスコアリング方法を調整することが重要であることを示します。
すべての状況で最高のパフォーマンスを発揮する個々のスコアは存在しないという調査結果に基づいて、さまざまなスコアを組み合わせてすべてのデータセットにわたって最高のパフォーマンスを達成するマルチスコアリング フレームワークを提案します。
さらに、コスト効率の高いマルチスコアリングを導入します。これは、計算オーバーヘッドを大幅に削減しながら、より高価な検出方法と同等、またはそれを上回るパフォーマンスを実現します。
要約(オリジナル)
Large language models (LLMs) can be prone to hallucinations – generating unreliable outputs that are unfaithful to their inputs, external facts or internally inconsistent. In this work, we address several challenges for post-hoc hallucination detection in production settings. Our pipeline for hallucination detection entails: first, producing a confidence score representing the likelihood that a generated answer is a hallucination; second, calibrating the score conditional on attributes of the inputs and candidate response; finally, performing detection by thresholding the calibrated score. We benchmark a variety of state-of-the-art scoring methods on different datasets, encompassing question answering, fact checking, and summarization tasks. We employ diverse LLMs to ensure a comprehensive assessment of performance. We show that calibrating individual scoring methods is critical for ensuring risk-aware downstream decision making. Based on findings that no individual score performs best in all situations, we propose a multi-scoring framework, which combines different scores and achieves top performance across all datasets. We further introduce cost-effective multi-scoring, which can match or even outperform more expensive detection methods, while significantly reducing computational overhead.
arxiv情報
著者 | Simon Valentin,Jinmiao Fu,Gianluca Detommaso,Shaoyuan Xu,Giovanni Zappella,Bryan Wang |
発行日 | 2024-07-31 08:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google