MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

要約

マルチモーダル大規模言語モデル (MLLM) の展開により、視覚的な入力を介した悪意のある攻撃に対する脆弱性という独特の脆弱性が生じています。
このような攻撃から MLLM を防御するという新たな課題を掘り下げます。
私たちは、画像が調整中に考慮されない「外国語」として機能するため、MLLM が有害な反応を生成しやすくなる可能性があることを発見しました。
残念ながら、テキストベースの LLM で考慮される離散トークンとは異なり、画像信号の連続的な性質により、調整に大きな課題が生じ、考えられるシナリオを完全にカバーすることが困難になります。
この脆弱性は、オープンソースの MLLM が、大規模なテキストベースの事前トレーニング コーパスよりもはるかに少ない、限られた画像とテキストのペアで主に微調整されているという事実によってさらに悪化します。そのため、MLLM は、学習中に本来の能力を壊滅的に忘れてしまう傾向が高くなります。
明示的なアライメント調整。
これらの課題に取り組むために、軽量の危害検出機能と応答解毒機能を組み合わせたプラグアンドプレイ戦略である MLLM-Protector を導入します。
危害検出器の役割は、MLLM からの潜在的に有害な出力を識別することですが、解毒器はこれらの出力を修正して、応答が安全基準に準拠していることを確認します。
このアプローチは、モデルの全体的なパフォーマンスを損なうことなく、悪意のある視覚入力によってもたらされるリスクを効果的に軽減します。
私たちの結果は、MLLM-Protector が、MLLM セキュリティのこれまで対処されていなかった側面に対して堅牢なソリューションを提供することを示しています。

要約(オリジナル)

The deployment of multimodal large language models (MLLMs) has brought forth a unique vulnerability: susceptibility to malicious attacks through visual inputs. We delve into the novel challenge of defending MLLMs against such attacks. We discovered that images act as a ‘foreign language’ that is not considered during alignment, which can make MLLMs prone to producing harmful responses. Unfortunately, unlike the discrete tokens considered in text-based LLMs, the continuous nature of image signals presents significant alignment challenges, which poses difficulty to thoroughly cover the possible scenarios. This vulnerability is exacerbated by the fact that open-source MLLMs are predominantly fine-tuned on limited image-text pairs that is much less than the extensive text-based pretraining corpus, which makes the MLLMs more prone to catastrophic forgetting of their original abilities during explicit alignment tuning. To tackle these challenges, we introduce MLLM-Protector, a plug-and-play strategy combining a lightweight harm detector and a response detoxifier. The harm detector’s role is to identify potentially harmful outputs from the MLLM, while the detoxifier corrects these outputs to ensure the response stipulates to the safety standards. This approach effectively mitigates the risks posed by malicious visual inputs without compromising the model’s overall performance. Our results demonstrate that MLLM-Protector offers a robust solution to a previously unaddressed aspect of MLLM security.

arxiv情報

著者 Renjie Pi,Tianyang Han,Yueqi Xie,Rui Pan,Qing Lian,Hanze Dong,Jipeng Zhang,Tong Zhang
発行日 2024-01-05 17:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV パーマリンク