LLM Censorship: A Machine Learning Challenge or a Computer Security Problem?

要約

大規模言語モデル (LLM) は、複雑な命令を理解する上で優れた能力を発揮しました。
しかし、提供された指示を盲目的に遵守することで、悪意のある使用のリスクに関する懸念が生じています。
LLM は依然として問題のある応答を生成する可能性があるため、LLM を使用したモデルの微調整や出力検閲などの既存の防御メカニズムは誤りを犯しやすいことが証明されています。
一般的に採用されている検閲アプローチでは、この問題を機械学習の問題として扱い、別の LM に依存して LLM 出力内の望ましくないコンテンツを検出します。
この論文では、このような意味的検閲アプローチの理論的限界を示します。
具体的には、意味論的な検閲が決定不可能な問題として認識される可能性があることを実証し、LLM のプログラムおよび指示に従う能力によって生じる検閲における固有の課題を強調します。
さらに、知識のある攻撃者は許容される出力のコレクションから許容されない出力を再構築できるため、この課題はセマンティック検閲を超えて拡大すると主張します。
その結果、私たちは検閲の問題を再評価する必要があると提案します。
これは、潜在的なリスクを軽減するためにセキュリティベースのアプローチを適応することを正当化するセキュリティ問題として扱う必要があります。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive capabilities in comprehending complex instructions. However, their blind adherence to provided instructions has led to concerns regarding risks of malicious use. Existing defence mechanisms, such as model fine-tuning or output censorship using LLMs, have proven to be fallible, as LLMs can still generate problematic responses. Commonly employed censorship approaches treat the issue as a machine learning problem and rely on another LM to detect undesirable content in LLM outputs. In this paper, we present the theoretical limitations of such semantic censorship approaches. Specifically, we demonstrate that semantic censorship can be perceived as an undecidable problem, highlighting the inherent challenges in censorship that arise due to LLMs’ programmatic and instruction-following capabilities. Furthermore, we argue that the challenges extend beyond semantic censorship, as knowledgeable attackers can reconstruct impermissible outputs from a collection of permissible ones. As a result, we propose that the problem of censorship needs to be reevaluated; it should be treated as a security problem which warrants the adaptation of security-based approaches to mitigate potential risks.

arxiv情報

著者 David Glukhov,Ilia Shumailov,Yarin Gal,Nicolas Papernot,Vardan Papyan
発行日 2023-07-20 09:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク