RELIC: Investigating Large Language Model Responses using Self-Consistency

要約

大規模言語モデル (LLM) は、事実とフィクションを混合し、幻覚として知られる非事実のコンテンツを生成することで悪名高いです。
この課題に取り組むために、ユーザーが生成されたテキストの信頼性についての洞察を得るのに役立つ対話型システムを提案します。
私たちのアプローチは、同じ LLM によって生成された複数のサンプルの自己一貫性が、生成されたテキスト内の個々の主張の信頼性に関係するという考えに基づいています。
このアイデアを使用して、ユーザーが複数の長文応答の意味レベルのバリエーションを調査および検証できる対話型システムである RELIC を設計します。
これにより、ユーザーは生成されたテキスト内の潜在的に不正確な情報を認識し、必要な修正を行うことができます。
10 人の参加者によるユーザー調査から、私たちのアプローチが、ユーザーが生成されたテキストの信頼性をより適切に検証するのに役立つことを実証しました。
さらに、信頼性の高い人間と LLM の相互作用に関する将来の研究を促すために、この研究から得られた設計への影響と教訓を要約します。

要約(オリジナル)

Large Language Models (LLMs) are notorious for blending fact with fiction and generating non-factual content, known as hallucinations. To tackle this challenge, we propose an interactive system that helps users obtain insights into the reliability of the generated text. Our approach is based on the idea that the self-consistency of multiple samples generated by the same LLM relates to its confidence in individual claims in the generated texts. Using this idea, we design RELIC, an interactive system that enables users to investigate and verify semantic-level variations in multiple long-form responses. This allows users to recognize potentially inaccurate information in the generated text and make necessary corrections. From a user study with ten participants, we demonstrate that our approach helps users better verify the reliability of the generated text. We further summarize the design implications and lessons learned from this research for inspiring future studies on reliable human-LLM interactions.

arxiv情報

著者 Furui Cheng,Vilém Zouhar,Simran Arora,Mrinmaya Sachan,Hendrik Strobelt,Mennatallah El-Assady
発行日 2023-11-28 14:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク