How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation

要約

大規模な言語モデル(LLM)は多様なシナリオに広く展開されているため、誤った情報を暗黙のうちに広めることができる程度は、重大な安全性の懸念として浮上します。
現在の研究は、主に明示的な虚偽の陳述でLLMを評価し、誤報が現実世界のユーザーインタラクションで挑戦されていない施設として微妙に微妙に現れることがあることを見落としています。
暗黙の誤った情報のための最初の包括的なベンチマークであるエコム主義者をキュレーションしました。そこでは、誤った情報の仮定がLLMSのユーザークエリに組み込まれています。
エコー主義者は、実世界の人間との会話やソーシャルメディアの相互作用など、多様な情報源からの厳密な選択基準と慎重にキュレーションされたデータに基づいています。
また、LLMSがユーザーの誤解を増幅するのではなく、誤った情報を認識して対抗できるかどうかを測定するための新しい評価メトリックを導入します。
GPT-4、Claude、Llamaを含む幅広いLLMに関する広範な経験的研究を通じて、現在のモデルはこのタスクで驚くほど不十分に機能し、しばしば誤った前提を検出し、誤解を招く説明を生み出すことができます。
私たちの調査結果は、LLM安全研究における暗黙の誤った情報に焦点を合わせることの重要な必要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) are widely deployed in diverse scenarios, the extent to which they could tacitly spread misinformation emerges as a critical safety concern. Current research primarily evaluates LLMs on explicit false statements, overlooking how misinformation often manifests subtly as unchallenged premises in real-world user interactions. We curated ECHOMIST, the first comprehensive benchmark for implicit misinformation, where the misinformed assumptions are embedded in a user query to LLMs. ECHOMIST is based on rigorous selection criteria and carefully curated data from diverse sources, including real-world human-AI conversations and social media interactions. We also introduce a new evaluation metric to measure whether LLMs can recognize and counter false information rather than amplify users’ misconceptions. Through an extensive empirical study on a wide range of LLMs, including GPT-4, Claude, and Llama, we find that current models perform alarmingly poorly on this task, often failing to detect false premises and generating misleading explanations. Our findings underscore the critical need for an increased focus on implicit misinformation in LLM safety research.

arxiv情報

著者 Ruohao Guo,Wei Xu,Alan Ritter
発行日 2025-03-12 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク