DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine

要約

特に生物医学分野における長文テキスト生成における幻覚を評価するために設計されたベンチマーク データセットおよび自動評価システムである DAHL を紹介します。
私たちのベンチマーク データセットは、生物医学研究論文から細心の注意を払って厳選されており、29 のカテゴリにわたる 8,573 の質問で構成されています。
DAHL は、応答を単一の情報を表す原子単位に分解することで、事実に矛盾する幻覚を大規模言語モデル (LLM) で評価します。
これらの回答の精度を平均して DAHL スコアが生成され、複数選択のタスクに依存する以前の方法と比較して、幻覚をより詳細に評価できます。
私たちは 8 つの異なるモデルを使って実験を行い、大きなモデルほど幻覚が少ない傾向があることを発見しました。
ただし、モデル サイズが 70 ~ 80 億パラメータを超えると、それ以上スケーリングしても事実の精度が大幅に向上することはありません。
DAHL スコアは、人間が注釈を付けた嗜好ラベルに代わる効率的な代替手段としての可能性を秘めており、他の特殊な領域にも拡張できます。
データセットとコードを一般に公開します。

要約(オリジナル)

We introduce DAHL, a benchmark dataset and automated evaluation system designed to assess hallucination in long-form text generation, specifically within the biomedical domain. Our benchmark dataset, meticulously curated from biomedical research papers, consists of 8,573 questions across 29 categories. DAHL evaluates fact-conflicting hallucinations in Large Language Models (LLMs) by deconstructing responses into atomic units, each representing a single piece of information. The accuracy of these responses is averaged to produce the DAHL Score, offering a more in-depth evaluation of hallucinations compared to previous methods that rely on multiple-choice tasks. We conduct experiments with 8 different models, finding that larger models tend to hallucinate less; however, beyond a model size of 7 to 8 billion parameters, further scaling does not significantly improve factual accuracy. The DAHL Score holds potential as an efficient alternative to human-annotated preference labels, being able to be expanded to other specialized domains. We release the dataset and code in public.

arxiv情報

著者 Jean Seo,Jongwon Lim,Dongjun Jang,Hyopil Shin
発行日 2024-11-14 07:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク