Exploring the Adversarial Capabilities of Large Language Models

要約

大規模言語モデル (LLM) の普及は、その強力な言語生成機能により広く一般的な関心を呼び起こし、業界と研究の両方に大きな可能性をもたらしています。
これまでの研究では LLM のセキュリティとプライバシーの問題が詳しく調査されていましたが、これらのモデルがどの程度敵対的な動作を示す可能性があるかについては、ほとんど調査されていないままです。
このギャップに対処するために、私たちは、一般に公開されている LLM が、安全対策を欺くためにテキスト サンプルを混乱させる固有の機能、いわゆる敵対的な例、つまり攻撃を持っているかどうかを調査します。
より具体的には、LLM が既存の安全なレールを欺くために、良性のサンプルから敵対的なサンプルを本質的に作成できるかどうかを調査します。
ヘイトスピーチ検出に焦点を当てた私たちの実験では、LLM が敵対的な摂動を発見し、ヘイトスピーチ検出システムを事実上弱体化させることに成功していることが明らかになりました。
私たちの調査結果は、LLM に依存する (半) 自律システムに重大な影響を及ぼし、既存のシステムとの相互作用や安全対策における潜在的な課題を浮き彫りにしています。

要約(オリジナル)

The proliferation of large language models (LLMs) has sparked widespread and general interest due to their strong language generation capabilities, offering great potential for both industry and research. While previous research delved into the security and privacy issues of LLMs, the extent to which these models can exhibit adversarial behavior remains largely unexplored. Addressing this gap, we investigate whether common publicly available LLMs have inherent capabilities to perturb text samples to fool safety measures, so-called adversarial examples resp.~attacks. More specifically, we investigate whether LLMs are inherently able to craft adversarial examples out of benign samples to fool existing safe rails. Our experiments, which focus on hate speech detection, reveal that LLMs succeed in finding adversarial perturbations, effectively undermining hate speech detection systems. Our findings carry significant implications for (semi-)autonomous systems relying on LLMs, highlighting potential challenges in their interaction with existing systems and safety measures.

arxiv情報

著者 Lukas Struppek,Minh Hieu Le,Dominik Hintersdorf,Kristian Kersting
発行日 2024-03-25 08:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク