Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

要約

大規模なビジョン言語モデル(VLM)は、幅広いタスクで顕著なパフォーマンスを達成しています。
ただし、安全性が批判的なドメインでの展開は、大きな課題をもたらします。
テキストまたはマルチモーダルのコンテンツに焦点を当てた既存の安全性微調整方法は、挑戦的なケースに対処することに不足しているか、有用性と無害性のバランスを乱します。
私たちの評価は、安全性の推論のギャップを強調しています。これらの方法には安全性の視覚的推論能力がなく、そのようなボトルネックにつながります。
この制限に対処し、安全性批判的なコンテキストでの視覚的認識と推論の両方を強化するために、モデルのパフォーマンスを改善するための微細な推論ロジックとして、マルチイメージ入力を安全チェーン(COT)ラベルと統合する新しいデータセットを提案します。
具体的には、トレーニングとテストスプリットで構成されるマルチイメージ安全シナリオに合わせた命令に従うデータセットであるマルチイメージ安全性(MIS)データセットを紹介します。
私たちの実験は、MISを伴う微調整されたInternVL2.5-8Bが、安全性関連の視覚推論を必要とするマルチイメージタスクに挑戦する際に、強力なオープンソースモデルとAPIベースのモデルの両方を大幅に上回ることを示しています。
このアプローチは、例外的な安全性能を提供するだけでなく、トレードオフなしで一般的な機能を保存します。
具体的には、MISで微調整すると、5つの一般的なベンチマークで平均精度が0.83%増加し、複数の安全ベンチマークの攻撃成功率(ASR)が大きなマージンで減少します。
データとモデルは以下でリリースされます。

要約(オリジナル)

Large Vision-Language Models (VLMs) have achieved remarkable performance across a wide range of tasks. However, their deployment in safety-critical domains poses significant challenges. Existing safety fine-tuning methods, which focus on textual or multimodal content, fall short in addressing challenging cases or disrupt the balance between helpfulness and harmlessness. Our evaluation highlights a safety reasoning gap: these methods lack safety visual reasoning ability, leading to such bottlenecks. To address this limitation and enhance both visual perception and reasoning in safety-critical contexts, we propose a novel dataset that integrates multi-image inputs with safety Chain-of-Thought (CoT) labels as fine-grained reasoning logic to improve model performance. Specifically, we introduce the Multi-Image Safety (MIS) dataset, an instruction-following dataset tailored for multi-image safety scenarios, consisting of training and test splits. Our experiments demonstrate that fine-tuning InternVL2.5-8B with MIS significantly outperforms both powerful open-source models and API-based models in challenging multi-image tasks requiring safety-related visual reasoning. This approach not only delivers exceptional safety performance but also preserves general capabilities without any trade-offs. Specifically, fine-tuning with MIS increases average accuracy by 0.83% across five general benchmarks and reduces the Attack Success Rate (ASR) on multiple safety benchmarks by a large margin. Data and Models are released under: \href{https://dripnowhy.github.io/MIS/}{\texttt{https://dripnowhy.github.io/MIS/}}

arxiv情報

著者 Yi Ding,Lijun Li,Bing Cao,Jing Shao
発行日 2025-01-30 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV パーマリンク