CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

要約

マルチモーダル大規模言語モデル (MLLM) の導入は、大規模言語モデル (LLM) の優れた能力のおかげで、視覚入力を伴う会話に顕著な成功を収めていることが実証されています。
これらの MLLM は、通常、LLM のトークン埋め込み空間に画像を処理する画像エンコーダを備えた LLM に基づいて構築されます。
しかし、ビジュアル モダリティの統合により、特有の脆弱性が導入されました。MLLM は人間の価値観に合わせてテキスト データセットでトレーニングされているにもかかわらず、悪意のあるビジュアル入力の影響を受けやすくなり、機密性の高い、または有害な応答を生成する傾向があります。
本稿ではまず「MLLMは悪意のある画像入力に対する安全意識を持っているのか?」という疑問を提起する。
安全要件を指定する原則を MLLM の入力に追加すると、モデルの安全意識が高まることがわかりました。
この現象は、画像入力に対する MLLM の安全意識の存在を証明しますが、それはモダリティのギャップによって弱まるだけです。
次に、出力分布を調整することで MLLM の安全性への意識を高める、CoCA と呼ばれるシンプルかつ効果的な手法を紹介します。
私たちが提案した戦略は、モデルが本来の機能を失うことなく、本来の安全意識を取り戻すのに役立ちます。
私たちは、マルチモーダルの安全性とベンチマークの理解の両方におけるアプローチの有効性を検証します。

要約(オリジナル)

The deployment of multimodal large language models (MLLMs) has demonstrated remarkable success in engaging in conversations involving visual inputs, thanks to the superior power of large language models (LLMs). Those MLLMs are typically built based on the LLMs, with an image encoder to process images into the token embedding space of the LLMs. However, the integration of visual modality has introduced a unique vulnerability: the MLLM becomes susceptible to malicious visual inputs and prone to generating sensitive or harmful responses, even though the LLM has been trained on textual dataset to align with human value. In this paper, we first raise the question: “Do the MLLMs possess safety-awareness against malicious image inputs?’. We find that after adding a principle that specifies the safety requirement into the input of the MLLM, the model’s safety awareness becomes boosted. This phenomenon verifies the existence of MLLM’s safety-awareness against image inputs, it is only weakened by the modality gap. We then introduce a simple yet effective technique termed CoCA, which amplifies the safety-awareness of the MLLM by calibrating its output distribution. Our proposed strategy helps the model reclaim its original safety awareness without losing its original capabilities. We verify the effectiveness of our approach on both multimodal safety and understanding benchmarks.

arxiv情報

著者 Jiahui Gao,Renjie Pi,Tianyang Han,Han Wu,Lanqing Hong,Lingpeng Kong,Xin Jiang,Zhenguo Li
発行日 2024-09-17 17:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク