MedHal: An Evaluation Dataset for Medical Hallucination Detection

要約

Medhalは、モデルが医療テキストの幻覚を検出できるかどうかを評価するために特別に設計された新しい大規模なデータセットです。
現在の幻覚検出方法は、医学のような特殊なドメインに適用されると、悲惨な結果をもたらす可能性がある場合に大きな制限に直面しています。
既存の医療データセットは小さすぎて、数百のサンプルしか含まれていないか、質問の回答や自然言語の推論などの単一のタスクに焦点を当てています。
Medhalは、これらのギャップに次のことで対処します。(1)多様な医療テキストソースとタスクを組み込む。
(2)医療幻覚検出モデルのトレーニングに適したかなりの量の注釈付きサンプルを提供する。
(3)モデル学習を導くための事実上の矛盾の説明を含む。
ベースラインの医療幻覚検出モデルをトレーニングおよび評価することにより、Medhalの有用性を実証し、汎用の幻覚検出アプローチに対する改善を示しています。
このリソースにより、医療テキスト生成システムのより効率的な評価が可能になり、費用のかかる専門家のレビューへの依存を減らし、医療AIの研究の開発を潜在的に加速させることができます。

要約(オリジナル)

We present MedHal, a novel large-scale dataset specifically designed to evaluate if models can detect hallucinations in medical texts. Current hallucination detection methods face significant limitations when applied to specialized domains like medicine, where they can have disastrous consequences. Existing medical datasets are either too small, containing only a few hundred samples, or focus on a single task like Question Answering or Natural Language Inference. MedHal addresses these gaps by: (1) incorporating diverse medical text sources and tasks; (2) providing a substantial volume of annotated samples suitable for training medical hallucination detection models; and (3) including explanations for factual inconsistencies to guide model learning. We demonstrate MedHal’s utility by training and evaluating a baseline medical hallucination detection model, showing improvements over general-purpose hallucination detection approaches. This resource enables more efficient evaluation of medical text generation systems while reducing reliance on costly expert review, potentially accelerating the development of medical AI research.

arxiv情報

著者 Gaya Mehenni,Amal Zouaq
発行日 2025-04-11 14:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク