Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?

要約

大規模言語モデル (LLM) は、自然言語タスクにおいて優れた機能を実証していますが、インターネット テキスト コーパスでトレーニングされているため、その安全性と道徳性については依然として議論の余地があります。
これらの懸念に対処するために、LLM の公衆の使いやすさと安全性を向上させるための調整技術が開発されました。
しかし、これらのモデルを通じて有害なコンテンツが生成される可能性は依然として残っているようです。
このペーパーでは、敵対的なトリガーを通じて LLM の調整を逆転するジェイルブレイクの概念を検討します。
ソフト埋め込みプロンプト、手動で作成したプロンプト、勾配ベースの自動プロンプトなどの以前の方法は、モデルへのアクセス要件と手動で作成したプロンプトの種類が少ないため、ブラック ボックス モデルでの成功が限られており、影響を受けやすいものでした。
ブロックされることに。
この論文では、ターゲット モデルと小規模なサロゲート モデルへの推論 API アクセスのみを必要とする、強化学習を使用して敵対的トリガーを最適化する新しいアプローチを紹介します。
BERTScore ベースの報酬関数を活用する私たちの手法は、新しいブラック ボックス モデルでの敵対的トリガーの伝達可能性と有効性を強化します。
このアプローチにより、これまでテストされていなかった言語モデルでの敵対的トリガーのパフォーマンスが向上することを実証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities in natural language tasks, but their safety and morality remain contentious due to their training on internet text corpora. To address these concerns, alignment techniques have been developed to improve the public usability and safety of LLMs. Yet, the potential for generating harmful content through these models seems to persist. This paper explores the concept of jailbreaking LLMs-reversing their alignment through adversarial triggers. Previous methods, such as soft embedding prompts, manually crafted prompts, and gradient-based automatic prompts, have had limited success on black-box models due to their requirements for model access and for producing a low variety of manually crafted prompts, making them susceptible to being blocked. This paper introduces a novel approach using reinforcement learning to optimize adversarial triggers, requiring only inference API access to the target model and a small surrogate model. Our method, which leverages a BERTScore-based reward function, enhances the transferability and effectiveness of adversarial triggers on new black-box models. We demonstrate that this approach improves the performance of adversarial triggers on a previously untested language model.

arxiv情報

著者 Mohammad Bahrami Karkevandi,Nishant Vishwamitra,Peyman Najafirad
発行日 2024-08-05 17:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク