Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models

要約

大規模視覚言語モデル (LVLM) における視覚言語の調整により、LLM が視覚入力を理解できるようになります。
しかし、既存の視覚と言語の調整方法では、LLM 内のテキストに対する既存の安全メカニズムを視覚に移すことができず、それが有害な画像の脆弱性につながることがわかりました。
この問題の原因を探るため、LVLM の安全機構がどこでどのように機能するかを洞察に富んだ説明し、テキストと視覚の比較分析を行います。
現在の手法では、隠れ状態レベルでの視覚と言語の整合性が不十分である一方で、特定のトランス層の隠れ状態が安全機構の正常な起動に重要な役割を果たしていることがわかりました。
これにより、非表示状態のテキストと比較して入力画像の意味が変化し、安全メカニズムを誤解させます。
これに対処するために、LVLM 向けの新しいテキストガイド付きビジョン言語アライメント手法 (TGA) を提案します。
TGA は、入力ビジョンに関連するテキストを取得し、それらを使用して、LLM の隠れ状態空間へのビジョンの投影をガイドします。
実験では、TGA が、視覚モダリティに関する安全性の微調整を行わずに、基本的な LLM のテキストの安全メカニズムを LVLM の視覚言語アライメントの視覚にうまく移すだけでなく、さまざまな視覚タスク (安全および良好) での一般的なパフォーマンスも維持できることが示されています。

要約(オリジナル)

Vision-language alignment in Large Vision-Language Models (LVLMs) successfully enables LLMs to understand visual input. However, we find that existing vision-language alignment methods fail to transfer the existing safety mechanism for text in LLMs to vision, which leads to vulnerabilities in toxic image. To explore the cause of this problem, we give the insightful explanation of where and how the safety mechanism of LVLMs operates and conduct comparative analysis between text and vision. We find that the hidden states at the specific transformer layers play a crucial role in the successful activation of safety mechanism, while the vision-language alignment at hidden states level in current methods is insufficient. This results in a semantic shift for input images compared to text in hidden states, therefore misleads the safety mechanism. To address this, we propose a novel Text-Guided vision-language Alignment method (TGA) for LVLMs. TGA retrieves the texts related to input vision and uses them to guide the projection of vision into the hidden states space in LLMs. Experiments show that TGA not only successfully transfers the safety mechanism for text in basic LLMs to vision in vision-language alignment for LVLMs without any safety fine-tuning on the visual modality but also maintains the general performance on various vision tasks (Safe and Good).

arxiv情報

著者 Shicheng Xu,Liang Pang,Yunchang Zhu,Huawei Shen,Xueqi Cheng
発行日 2024-10-16 15:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク