要約
マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統合により、独自の安全上の課題を引き起こし、それにより潜在的な攻撃と複雑なリスクの組み合わせの新しい次元が導入されます。
この論文では、マルチモーダル入力内の段階的な推論を通じてリスクを解き放つことを目的とした詳細な分析から始めます。
系統的なマルチモーダルリスクの解体がMLLMのリスク認識を大幅に向上させることがわかります。
マルチモーダルリスク解体の強力な識別能力を活用することにより、\ textbf {dream}(\ textbf {\ textbf {d} isentangling \ textbf {r} isks to \ textbf {e} nhance Safety \ textbf {a} lmment {a} lmimment to \ textbf {e} nhance safety \ {r} isks to \ textbf {e} lmintをさらに紹介します。
これにより、AIフィードバック(RLAIF)からの監視された微調整および反復強化学習を通じて、MLLMの安全アライメントが強化されます。
実験結果は、夢が通常のタスク(すなわち過剰過剰)のパフォーマンスを損なうことなく、推論とトレーニングの両方のフェーズで安全性を大幅に向上させ、GPT-4Vと比較してSIUO SAFE \&EFFECTINEスコアの16.17 \%の改善を達成することを示しています。
データとコードはhttps://github.com/kizna1ver/dreamで入手できます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) pose unique safety challenges due to their integration of visual and textual data, thereby introducing new dimensions of potential attacks and complex risk combinations. In this paper, we begin with a detailed analysis aimed at disentangling risks through step-by-step reasoning within multimodal inputs. We find that systematic multimodal risk disentanglement substantially enhances the risk awareness of MLLMs. Via leveraging the strong discriminative abilities of multimodal risk disentanglement, we further introduce \textbf{DREAM} (\textit{\textbf{D}isentangling \textbf{R}isks to \textbf{E}nhance Safety \textbf{A}lignment in \textbf{M}LLMs}), a novel approach that enhances safety alignment in MLLMs through supervised fine-tuning and iterative Reinforcement Learning from AI Feedback (RLAIF). Experimental results show that DREAM significantly boosts safety during both inference and training phases without compromising performance on normal tasks (namely oversafety), achieving a 16.17\% improvement in the SIUO safe\&effective score compared to GPT-4V. The data and code are available at https://github.com/Kizna1ver/DREAM.
arxiv情報
| 著者 | Jianyu Liu,Hangyu Guo,Ranjie Duan,Xingyuan Bu,Yancheng He,Shilong Li,Hui Huang,Jiaheng Liu,Yucheng Wang,Chenchen Jing,Xingwei Qu,Xiao Zhang,Yingshui Tan,Yanan Wu,Jihao Gu,Yangguang Li,Jianke Zhu |
| 発行日 | 2025-06-05 16:13:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google