LLM-Generated Black-box Explanations Can Be Adversarially Helpful

要約

大規模言語モデル (LLM) は、デジタル アシスタントとして機能することで、複雑な問題の解決と理解を助ける重要なツールになりつつあります。
LLM は、これらの問題の入力と出力のみが与えられた場合でも、つまり「ブラックボックス」アプローチであった場合でも、説得力のある説明を生成できます。
しかし、私たちの調査では、このアプローチに関連する隠れたリスク、つまり「敵対的有用性」と呼ばれるリスクが明らかになりました。
これは、LLM の説明によって間違った答えが正しいように見せかけ、人々が間違った答えを信頼するように誘導する場合に発生します。
この論文では、この問題が人間だけでなく LLM 評価者にも影響を及ぼすことを示します。
さらに深く掘り下げて、LLM が採用する主要な説得戦略を特定し、調査します。
私たちの調査結果は、これらのモデルが、質問を再構成し、高いレベルの信頼を表現し、誤解を招く答えを信頼できる観点から描くために証拠を厳選するなどの戦略を採用していることを明らかにしました。
LLM が敵対的に役立つ説明を生成するときに複雑な構造の知識をナビゲートできるかどうかを調べるために、グラフ内のナビゲートに基づいた特別なタスクを作成します。
ほとんどの LLM は、単純なグラフに沿って代替パスを見つけることができません。これは、誤解を招く説明が、複雑な知識を使用した論理的推論だけによって作成されているわけではないことを示しています。
これらの発見により、ブラックボックス説明設定の限界が明らかになり、LLM の安全な使用法についてのアドバイスを提供できるようになります。

要約(オリジナル)

Large Language Models (LLMs) are becoming vital tools that help us solve and understand complex problems by acting as digital assistants. LLMs can generate convincing explanations, even when only given the inputs and outputs of these problems, i.e., in a “black-box” approach. However, our research uncovers a hidden risk tied to this approach, which we call *adversarial helpfulness*. This happens when an LLM’s explanations make a wrong answer look right, potentially leading people to trust incorrect solutions. In this paper, we show that this issue affects not just humans, but also LLM evaluators. Digging deeper, we identify and examine key persuasive strategies employed by LLMs. Our findings reveal that these models employ strategies such as reframing the questions, expressing an elevated level of confidence, and cherry-picking evidence to paint misleading answers in a credible light. To examine if LLMs are able to navigate complex-structured knowledge when generating adversarially helpful explanations, we create a special task based on navigating through graphs. Most LLMs are not able to find alternative paths along simple graphs, indicating that their misleading explanations aren’t produced by only logical deductions using complex knowledge. These findings shed light on the limitations of the black-box explanation setting and allow us to provide advice on the safe usage of LLMs.

arxiv情報

著者 Rohan Ajwani,Shashidhar Reddy Javaji,Frank Rudzicz,Zining Zhu
発行日 2024-05-29 15:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク