Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations

要約

大規模言語モデル (LLM) の普及とその変革効果により、「幻覚」と呼ばれる不正確で架空のコンテンツを生成する LLM の能力に関する懸念が生じています。
幻覚に関連する潜在的なリスクを考慮すると、人間は幻覚を識別できる必要があります。
この研究は、幻覚の程度(本物の幻覚、軽度の幻覚、重度の幻覚)を体系的に変化させ、警告との相互作用(つまり、潜在的な不正確さの警告:不在と存在)を調べることにより、LLM 幻覚に対する人間の認識を理解することを目的としています。
Prolific の参加者 (N=419) は、Q/A 形式で知覚された正確さを評価し、コンテンツ (いいね、嫌い、共有など) に参加しました。
参加者はコンテンツを本物、軽度の幻覚、重度の幻覚の順で真実であるとランク付けし、ユーザーの関与行動はこのパターンを反映していました。
さらに重要なことは、警告により、本物のコンテンツの真実性の認識に大きな影響を与えることなく、幻覚の検出が改善されたことが観察されました。
最後に、人間による幻覚の検出を支援する将来のツールに関する洞察を提供します。
すべての調査資料、人口統計に関する質問、およびセッション後の質問は、https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials から入手できます。

要約(オリジナル)

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations’. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials

arxiv情報

著者 Mahjabin Nahar,Haeseung Seo,Eun-Ju Lee,Aiping Xiong,Dongwon Lee
発行日 2024-08-12 14:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク