要約
学術研究のあらゆる分野において、専門家は情報を共有する際に情報源を引用します。
大規模言語モデル (LLM) は情報の合成には優れていますが、情報源への信頼できる引用が提供されないため、提示される情報の出所を追跡して検証することが困難になります。
対照的に、検索エンジンはユーザーがソースに簡単にアクセスできるようにし、情報を総合する負担をユーザーに課します。
調査を通じて、ユーザーは一か八かのクエリに対して LLM よりも検索エンジンを好むことがわかりました。その場合、情報の出所に関する懸念が、LLM 応答の認識された有用性よりも重要です。
情報共有ツールの検証可能性と有用性の間の相互作用を調べるために、検索エンジンとLLMが複数の未調査の中間動作点をカプセル化する極端なエンドポイントである抽出-抽象スペクトルを導入します。
検索エンジンは、元の Web ページへのリンク (引用) を含むソースのスニペットでクエリに応答するため、抽出的です。
LLM は、信頼できる引用がなくても、トレーニングおよびコンテキスト内のソースからの関連情報を合成して論理的に変換する回答でクエリに対処するため、抽象的です。
私たちは、抽出と抽象の範囲にわたる 5 つの操作点を定義し、Web 検索、言語の簡素化、複数ステップの推論、医療アドバイスといった現実世界の QA 設定を反映する 4 つの多様なクエリ分布にわたる 7 つのシステムに対して人間による評価を実施します。
出力がより抽象的になるにつれて、知覚される有用性は 200% も向上する一方、適切に引用された文の割合は 50% も減少し、ユーザーは引用情報を確認するのに最大 3 倍の時間がかかることがわかりました。
私たちの調査結果は、ドメイン固有の LLM システムの異なる動作点を推奨しており、障害分析は、ユーザーが情報を検証できるようにする高ユーティリティ LLM システムへのアプローチを示しています。
要約(オリジナル)
Across all fields of academic study, experts cite their sources when sharing information. While large language models (LLMs) excel at synthesizing information, they do not provide reliable citation to sources, making it difficult to trace and verify the origins of the information they present. In contrast, search engines make sources readily accessible to users and place the burden of synthesizing information on the user. Through a survey, we find that users prefer search engines over LLMs for high-stakes queries, where concerns regarding information provenance outweigh the perceived utility of LLM responses. To examine the interplay between verifiability and utility of information-sharing tools, we introduce the extractive-abstractive spectrum, in which search engines and LLMs are extreme endpoints encapsulating multiple unexplored intermediate operating points. Search engines are extractive because they respond to queries with snippets of sources with links (citations) to the original webpages. LLMs are abstractive because they address queries with answers that synthesize and logically transform relevant information from training and in-context sources without reliable citation. We define five operating points that span the extractive-abstractive spectrum and conduct human evaluations on seven systems across four diverse query distributions that reflect real-world QA settings: web search, language simplification, multi-step reasoning, and medical advice. As outputs become more abstractive, we find that perceived utility improves by as much as 200%, while the proportion of properly cited sentences decreases by as much as 50% and users take up to 3 times as long to verify cited information. Our findings recommend distinct operating points for domain-specific LLM systems and our failure analysis informs approaches to high-utility LLM systems that empower users to verify information.
arxiv情報
著者 | Theodora Worledge,Tatsunori Hashimoto,Carlos Guestrin |
発行日 | 2024-11-26 12:34:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google