RELIC: Investigating Large Language Model Responses using Self-Consistency

要約

大規模言語モデル(LLM)は、事実と虚構を混ぜ合わせ、幻覚として知られる事実ではないコンテンツを生成することで悪名高い。この課題に対処するため、我々は、ユーザが生成されたテキストの信頼性を洞察するのに役立つ対話型システムを提案する。我々のアプローチは、同じLLMによって生成された複数のサンプルの自己整合性が、生成されたテキストの個々の主張に対する信頼性に関係するという考えに基づいている。この考え方を用いて、我々は、ユーザが複数の長文回答における意味レベルのばらつきを調査し、検証することを可能にする対話型システム、RELICを設計する。これにより、ユーザは生成されたテキスト中の不正確な可能性のある情報を認識し、必要な修正を行うことができる。10人の参加者によるユーザ調査から、我々のアプローチが、ユーザが生成されたテキストの信頼性をより良く検証するのに役立つことを実証する。さらに、信頼性の高い人間とLLMの対話に関する今後の研究のために、本研究から得られた設計上の意味と教訓をまとめる。

要約(オリジナル)

Large Language Models (LLMs) are notorious for blending fact with fiction and generating non-factual content, known as hallucinations. To address this challenge, we propose an interactive system that helps users gain insight into the reliability of the generated text. Our approach is based on the idea that the self-consistency of multiple samples generated by the same LLM relates to its confidence in individual claims in the generated texts. Using this idea, we design RELIC, an interactive system that enables users to investigate and verify semantic-level variations in multiple long-form responses. This allows users to recognize potentially inaccurate information in the generated text and make necessary corrections. From a user study with ten participants, we demonstrate that our approach helps users better verify the reliability of the generated text. We further summarize the design implications and lessons learned from this research for future studies of reliable human-LLM interactions.

arxiv情報

著者 Furui Cheng,Vilém Zouhar,Simran Arora,Mrinmaya Sachan,Hendrik Strobelt,Mennatallah El-Assady
発行日 2024-04-04 15:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.HC パーマリンク