要約
視覚言語適応 (VL 適応) は、マルチモーダル タスク向けに大規模言語モデル (LLM) を大規模視覚言語モデル (LVLM) に変換しますが、このプロセスでは、元の LLM に組み込まれている固有の安全機能が損なわれることがよくあります。
安全対策の弱体化による潜在的な有害性にもかかわらず、VL 適応が安全性に及ぼす影響についての詳細な分析は依然として研究が不足しています。
この研究では、VL の適応が安全性にどのような影響を与えるかを調査し、安全性の微調整方法の影響を評価します。
私たちの分析により、トレーニング データが安全であっても、VL 適応中に安全性の低下が発生することが明らかになりました。
安全データセットを使用した教師あり微調整や人間のフィードバックからの強化学習などの安全調整手法は、一部のリスクを軽減しますが、依然として安全性の低下や、過剰拒否の問題による有用性の低下につながります。
内部モデルの重みをさらに分析すると、VL の適応が特定の安全関連層に影響を及ぼし、全体的な安全レベルが低下する可能性があることが示唆されています。
さらに、私たちの調査結果は、VL 適応と安全性調整の目的が異なることを示しており、そのため、それらを同時に適用することが最適ではないことがよくあります。
これに対処するために、有用性を維持しながら安全性の低下を効果的に軽減する最適なソリューションとして、重みを統合するアプローチを提案します。
これらの洞察は、実際のアプリケーション向けに、より信頼性が高く安全な LVLM の開発を導くのに役立ちます。
要約(オリジナル)
Vision-Language adaptation (VL adaptation) transforms Large Language Models (LLMs) into Large Vision-Language Models (LVLMs) for multimodal tasks, but this process often compromises the inherent safety capabilities embedded in the original LLMs. Despite potential harmfulness due to weakened safety measures, in-depth analysis on the effects of VL adaptation on safety remains under-explored. This study examines how VL adaptation influences safety and evaluates the impact of safety fine-tuning methods. Our analysis reveals that safety degradation occurs during VL adaptation, even when the training data is safe. While safety tuning techniques like supervised fine-tuning with safety datasets or reinforcement learning from human feedback mitigate some risks, they still lead to safety degradation and a reduction in helpfulness due to over-rejection issues. Further analysis of internal model weights suggests that VL adaptation may impact certain safety-related layers, potentially lowering overall safety levels. Additionally, our findings demonstrate that the objectives of VL adaptation and safety tuning are divergent, which often results in their simultaneous application being suboptimal. To address this, we suggest the weight merging approach as an optimal solution effectively reducing safety degradation while maintaining helpfulness. These insights help guide the development of more reliable and secure LVLMs for real-world applications.
arxiv情報
著者 | Seongyun Lee,Geewook Kim,Jiyeon Kim,Hyunji Lee,Hoyeon Chang,Sue Hyun Park,Minjoon Seo |
発行日 | 2024-11-15 03:20:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google