Cross-Modality Safety Alignment

要約

汎用人工知能 (AGI) が人間生活のさまざまな側面にますます統合されるようになるにつれ、そのようなシステムの安全性と倫理的整合性を確保することが最も重要になります。
これまでの研究は主に単一モダリティの脅威に焦点を当てていましたが、モダリティを越えた相互作用の統合された複雑な性質を考慮すると、それだけでは十分ではない可能性があります。
クロスモダリティの安全調整を評価するために、安全な入力だが安全ではない出力 (SIUO) と呼ばれる新しい安全調整の課題を導入します。
具体的には、単一のモダリティが単独では安全であるが、組み合わせると安全でない、または非倫理的な出力につながる可能性があるケースを考慮します。
この問題を実証的に調査するために、私たちは自傷行為、違法行為、プライバシー侵害などの 9 つの重要な安全領域を網羅するクロスモダリティ ベンチマークである SIUO を開発しました。
私たちの調査結果は、GPT-4V や LLaVA などのクローズド ソースとオープンソースの LVLM の両方に重大な安全性の脆弱性があることを明らかにし、複雑な現実世界のシナリオを確実に解釈して対応するには現在のモデルが不十分であることを浮き彫りにしています。

要約(オリジナル)

As Artificial General Intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated and complex nature of cross-modality interactions. We introduce a novel safety alignment challenge called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety alignment. Specifically, it considers cases where single modalities are safe independently but could potentially lead to unsafe or unethical outputs when combined. To empirically investigate this problem, we developed the SIUO, a cross-modality benchmark encompassing 9 critical safety domains, such as self-harm, illegal activities, and privacy violations. Our findings reveal substantial safety vulnerabilities in both closed- and open-source LVLMs, such as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably interpret and respond to complex, real-world scenarios.

arxiv情報

著者 Siyin Wang,Xingsong Ye,Qinyuan Cheng,Junwen Duan,Shimin Li,Jinlan Fu,Xipeng Qiu,Xuanjing Huang
発行日 2024-06-21 16:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク