LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked

要約

大規模言語モデル (LLM) は、人間のプロンプトに応じて高品質のテキストを生成できるため、近年急速に人気が高まっています。
ただし、これらのモデルは、ユーザーのプロンプト (例: ユーザーに犯罪の実行方法を指示する) に応じて有害なコンテンツを生成する可能性があることが示されています。
文献では、強化学習を通じてモデルを人間の価値観に合わせるなどの方法を通じて、これらのリスクを軽減することに焦点が当てられてきました。
ただし、調整された言語モデルであっても、有害なテキストの生成に関する制限を回避する敵対的な攻撃の影響を受けやすいことが示されています。
私たちは、大規模な言語モデルにそれ自身の応答をフィルタリングさせることで、これらの攻撃を防御する簡単なアプローチを提案します。
私たちの現在の結果は、モデルが人間の価値観に合わせて微調整されていない場合でも、言語モデルを使用してコンテンツを検証することで、ユーザーに有害なコンテンツの表示を阻止できることを示しています。

要約(オリジナル)

Large language models (LLMs) have skyrocketed in popularity in recent years due to their ability to generate high-quality text in response to human prompting. However, these models have been shown to have the potential to generate harmful content in response to user prompting (e.g., giving users instructions on how to commit crimes). There has been a focus in the literature on mitigating these risks, through methods like aligning models with human values through reinforcement learning. However, it has been shown that even aligned language models are susceptible to adversarial attacks that bypass their restrictions on generating harmful text. We propose a simple approach to defending against these attacks by having a large language model filter its own responses. Our current results show that even if a model is not fine-tuned to be aligned with human values, it is possible to stop it from presenting harmful content to users by validating the content using a language model.

arxiv情報

著者 Alec Helbling,Mansi Phute,Matthew Hull,Duen Horng Chau
発行日 2023-08-14 17:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク