AutoHall: Automated Hallucination Dataset Generation for Large Language Models

要約

大規模言語モデル (LLM) は、その強力な言語理解および生成機能により、さまざまな分野で広範なアプリケーションを獲得してきましたが、LLM によって生成された非事実または幻覚的なコンテンツの検出は依然として稀です。
現在、幻覚検出における大きな課題の 1 つは、時間と費用がかかる幻覚生成の手動アノテーションという面倒な作業です。
この問題に対処するために、この論文ではまず、AutoHall と呼ばれる既存のファクトチェック データセットに基づいてモデル固有の幻覚データセットを自動的に構築する方法を紹介します。
さらに、自己矛盾に基づくゼロリソースおよびブラックボックス幻覚検出手法を提案します。
私たちは、普及しているオープン/クローズドソース LLM に向けた実験を実施し、既存のベースラインと比較して優れた幻覚検出性能を実現します。
さらに、私たちの実験では、モデルごとに幻覚の割合と種類が異なることが明らかになりました。

要約(オリジナル)

While Large language models (LLMs) have garnered widespread applications across various domains due to their powerful language understanding and generation capabilities, the detection of non-factual or hallucinatory content generated by LLMs remains scarce. Currently, one significant challenge in hallucination detection is the laborious task of time-consuming and expensive manual annotation of the hallucinatory generation. To address this issue, this paper first introduces a method for automatically constructing model-specific hallucination datasets based on existing fact-checking datasets called AutoHall. Furthermore, we propose a zero-resource and black-box hallucination detection method based on self-contradiction. We conduct experiments towards prevalent open-/closed-source LLMs, achieving superior hallucination detection performance compared to extant baselines. Moreover, our experiments reveal variations in hallucination proportions and types among different models.

arxiv情報

著者 Zouying Cao,Yifei Yang,Hai Zhao
発行日 2024-07-19 11:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク