要約
大規模言語モデル (LLM) は、幅広い情報探索タスクを支援できます。
ただし、モデルの出力は、意図的でなくても、意図的に欺瞞された場合でも、誤解を招く可能性があります。
私たちは、LLM を人間のユーザーの代理として使用して、読解タスクの支援を提供するという文脈で、LLM が欺瞞的になる能力を調査します。
(1) モデルが真実の支援を提供するよう促された場合、(2) モデルが微妙に誤解を招くように促された場合、(3) モデルが不正確な答えについて議論するよう促された場合の結果を比較します。
私たちの実験では、GPT-4 が GPT-3.5-Turbo と GPT-4 の両方を効果的に誤解させる可能性があり、欺瞞的なアシスタントを使用すると、真実のアシスタントを使用した場合と比較してタスクの精度が最大 23% 低下することが示されました。
また、ユーザー モデルにパッセージからの追加のコンテキストを提供すると、欺瞞的なモデルの影響が部分的に軽減されることもわかりました。
この研究は、誤解を招く情報を生成する LLM の能力と、それが現実の状況に与える可能性のある影響を浮き彫りにしています。
要約(オリジナル)
Large Language Models (LLMs) are able to provide assistance on a wide range of information-seeking tasks. However, model outputs may be misleading, whether unintentionally or in cases of intentional deception. We investigate the ability of LLMs to be deceptive in the context of providing assistance on a reading comprehension task, using LLMs as proxies for human users. We compare outcomes of (1) when the model is prompted to provide truthful assistance, (2) when it is prompted to be subtly misleading, and (3) when it is prompted to argue for an incorrect answer. Our experiments show that GPT-4 can effectively mislead both GPT-3.5-Turbo and GPT-4, with deceptive assistants resulting in up to a 23% drop in accuracy on the task compared to when a truthful assistant is used. We also find that providing the user model with additional context from the passage partially mitigates the influence of the deceptive model. This work highlights the ability of LLMs to produce misleading information and the effects this may have in real-world situations.
arxiv情報
著者 | Betty Li Hou,Kejian Shi,Jason Phang,James Aung,Steven Adler,Rosie Campbell |
発行日 | 2024-07-16 14:45:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google