Robust Hallucination Detection in LLMs via Adaptive Token Selection

要約

大規模な言語モデル(LLMS)の幻覚は、より広範な展開を妨げる重大な安全上の懸念をもたらします。
幻覚検出に関する最近の研究では、LLMSの内部表現には真実性のヒントが含まれており、これは検出器トレーニングのために利用できることが実証されています。
ただし、これらの検出器の性能は、所定のトークンの内部表現に大きく依存しており、さまざまな長さと幻覚エンティティのまばらな分布を持つ自由形式の世代で作業する際にかなり変動します。
これに対処するために、ハミを提案します。ハミは、幻覚を最も示している重要なトークンの適応選択と学習を通じて幻覚の堅牢な検出を可能にする新しいアプローチを提案します。
幻覚検出タスクの革新的な定式化により、シーケンス内のトークンレベルの表現を介した複数のインスタンス(HAMI)学習としての革新的な定式化により、この堅牢性を達成し、それにより、多様な形式の生成シーケンスでのトークン選択と幻覚検出の共同最適化を促進します。
4つの幻覚ベンチマークでの包括的な実験結果は、ハミが既存の最先端のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

Hallucinations in large language models (LLMs) pose significant safety concerns that impede their broader deployment. Recent research in hallucination detection has demonstrated that LLMs’ internal representations contain truthfulness hints, which can be harnessed for detector training. However, the performance of these detectors is heavily dependent on the internal representations of predetermined tokens, fluctuating considerably when working on free-form generations with varying lengths and sparse distributions of hallucinated entities. To address this, we propose HaMI, a novel approach that enables robust detection of hallucinations through adaptive selection and learning of critical tokens that are most indicative of hallucinations. We achieve this robustness by an innovative formulation of the Hallucination detection task as Multiple Instance (HaMI) learning over token-level representations within a sequence, thereby facilitating a joint optimisation of token selection and hallucination detection on generation sequences of diverse forms. Comprehensive experimental results on four hallucination benchmarks show that HaMI significantly outperforms existing state-of-the-art approaches.

arxiv情報

著者 Mengjia Niu,Hamed Haddadi,Guansong Pang
発行日 2025-04-10 15:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク