How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities

要約

オープンソースの大規模言語モデル (LLM) の急速な進歩により、AI 開発が大きく前進しています。
しかし、それらの信頼性についてはまだ限られた理解しかありません。
十分な信頼性がない状態でこれらのモデルを大規模に展開すると、重大なリスクが生じる可能性があり、これらの問題を迅速に明らかにする必要性が強調されています。
この研究では、オープンソース LLM の信頼性に関する敵対的評価を実施し、毒性、固定観念、倫理、幻覚、公平性、おべっか、プライバシー、敵対的デモンストレーションに対する堅牢性を含む 8 つの異なる側面にわたって精査します。
私たちは、信頼性攻撃のために慎重に作成された悪意のあるデモンストレーションを組み込むことにより拡張された発話連鎖ベース (CoU) のプロンプト戦略である advCoU を提案します。
私たちの広範な実験には、Vicuna、MPT、Falcon、Mistral、Llama 2 など、最近の代表的な一連のオープンソース LLM が含まれています。経験的な結果は、さまざまな側面にわたる私たちの攻撃戦略の有効性を強調しています。
さらに興味深いことに、私たちの結果分析により、一般的な NLP タスクで優れたパフォーマンスを発揮するモデルが必ずしも信頼性が高いわけではないことが明らかになりました。
実際、モデルが大きいほど攻撃に対して脆弱になる可能性があります。
さらに、安全性を調整するために LLM を微調整することは、敵対的な信頼性攻撃を軽減するのに有効であることが証明されていますが、命令のフォローに重点を置いて命令をチューニングしたモデルは影響を受けやすい傾向があります。

要約(オリジナル)

The rapid progress in open-source Large Language Models (LLMs) is significantly driving AI development forward. However, there is still a limited understanding of their trustworthiness. Deploying these models at scale without sufficient trustworthiness can pose significant risks, highlighting the need to uncover these issues promptly. In this work, we conduct an adversarial assessment of open-source LLMs on trustworthiness, scrutinizing them across eight different aspects including toxicity, stereotypes, ethics, hallucination, fairness, sycophancy, privacy, and robustness against adversarial demonstrations. We propose advCoU, an extended Chain of Utterances-based (CoU) prompting strategy by incorporating carefully crafted malicious demonstrations for trustworthiness attack. Our extensive experiments encompass recent and representative series of open-source LLMs, including Vicuna, MPT, Falcon, Mistral, and Llama 2. The empirical outcomes underscore the efficacy of our attack strategy across diverse aspects. More interestingly, our result analysis reveals that models with superior performance in general NLP tasks do not always have greater trustworthiness; in fact, larger models can be more vulnerable to attacks. Additionally, models that have undergone instruction tuning, focusing on instruction following, tend to be more susceptible, although fine-tuning LLMs for safety alignment proves effective in mitigating adversarial trustworthiness attacks.

arxiv情報

著者 Lingbo Mo,Boshi Wang,Muhao Chen,Huan Sun
発行日 2024-04-02 15:21:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク