LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples

要約

GPT-3.5、LLaMA、PaLM などの大規模言語モデル (LLM) は知識が豊富で、多くのタスクに適応できるようです。
しかし、LLM は幻覚、つまり存在しない事実を捏造して認識なしにユーザーを騙すという症状に悩まされているため、私たちは彼らの答えを完全に信頼することはできません。
そして、その存在と普及の理由は依然として不明です。
この論文では、ランダムなトークンで構成される意味のないプロンプトが LLM の幻覚反応を誘発する可能性があることを実証します。
この現象は、幻覚が敵対例の別の見方である可能性があり、LLM の基本的な特徴として従来の敵対例と同様の特徴を共有していることを再考することを余儀なくさせます。
そこで、自動的に幻覚を引き起こす方法を敵対的な幻覚攻撃として定式化します。
最後に、攻撃された敵対的プロンプトの基本的な特徴を調査し、シンプルかつ効果的な防御戦略を提案します。
私たちのコードは GitHub で公開されています。

要約(オリジナル)

Large Language Models (LLMs), including GPT-3.5, LLaMA, and PaLM, seem to be knowledgeable and able to adapt to many tasks. However, we still can not completely trust their answer, since LLMs suffer from hallucination–fabricating non-existent facts to cheat users without perception. And the reasons for their existence and pervasiveness remain unclear. In this paper, we demonstrate that non-sense prompts composed of random tokens can also elicit the LLMs to respond with hallucinations. This phenomenon forces us to revisit that hallucination may be another view of adversarial examples, and it shares similar features with conventional adversarial examples as the basic feature of LLMs. Therefore, we formalize an automatic hallucination triggering method as the hallucination attack in an adversarial way. Finally, we explore basic feature of attacked adversarial prompts and propose a simple yet effective defense strategy. Our code is released on GitHub.

arxiv情報

著者 Jia-Yu Yao,Kun-Peng Ning,Zhen-Hui Liu,Mu-Nan Ning,Li Yuan
発行日 2023-10-04 17:53:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク