Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

要約

ビジョン言語モデル (VLM) の安全調整機能は、LLM バックボーンと比較して、ビジョン モジュールの統合によって低下する傾向があります。
本稿では「安全性アライメントの劣化」と名付けたこの現象を調査し、この課題が視覚モダリティを VLM に導入する際に生じる表現のギャップから生じることを示します。
特に、マルチモーダル入力の表現が、LLM バックボーンが最適化されている分布を表すテキストのみの入力の表現からシフトすることを示します。
同時に、最初はテキスト埋め込み空間内で開発された安全調整機能は、この新しいマルチモーダル表現空間にうまく移行できません。
安全性アライメントの低下を軽減するために、VLM の機能能力を同時に維持しながら、VLM の LLM バックボーンに固有の安全性アライメント能力を回復するための推論時間表現介入手法であるクロスモダリティ表現操作 (CMRM) を導入します。
経験的な結果は、私たちのフレームワークが、追加のトレーニングなしでも、事前トレーニングされた VLM の流暢さと言語能力への影響を最小限に抑えながら、LLM バックボーンから受け継いだアライメント能力を大幅に回復することを示しています。
具体的には、推論時間の介入のみで、マルチモーダル入力における LLaVA-7B の危険率を 61.53% から 3.15% まで下げることができます。
警告: この文書には、有毒または有害な言葉の例が含まれています。

要約(オリジナル)

The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ”safety alignment degradation” in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.

arxiv情報

著者 Qin Liu,Chao Shang,Ling Liu,Nikolaos Pappas,Jie Ma,Neha Anna John,Srikanth Doss,Lluis Marquez,Miguel Ballesteros,Yassine Benajiba
発行日 2024-10-11 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク