要約
マルチモーダル モデルは、さまざまなソースからの情報を効果的に統合する有望な機能を示していますが、その一方で、ユニモーダル攻撃や欠落条件などの広範な摂動に対して脆弱であることが判明しています。
これらの摂動に対抗するには、識別的なマルチモーダル決定境界から十分離れた位置にある、堅牢なマルチモーダル表現が強く期待されています。
この論文では、従来の実証研究とは異なり、一般的に使用される統合マルチモーダルフレームワークに焦点を当て、より大きなユニモーダル表現マージンとモダリティのより信頼性の高い統合が、より高いロバスト性を達成するために不可欠な要素であることを理論的に発見します。
この発見は、マルチモーダルの堅牢性の限界と、マルチモーダル モデルが特定のモダリティに対する攻撃に対して脆弱であることが多いという現象をさらに説明できます。
さらに、私たちの分析は、モデルがモダリティに対して異なる優先順位を持っているという広範な問題が、重要なコンポーネントに影響を与えることでマルチモーダルの堅牢性を制限し、特定のモダリティに対する非常に効果的な攻撃につながる可能性があることを明らかにしました。
私たちの理論的発見に触発されて、私たちは認証可能なロバスト マルチモーダル トレーニング (CRMT) と呼ばれるトレーニング手順を導入します。これにより、モダリティの好みによる影響を軽減し、必須のコンポーネントを明示的に規制して、認証可能な方法でロバスト性を大幅に向上させることができます。
私たちの方法は、既存の方法と比較してパフォーマンスと堅牢性が大幅に向上していることを示しています。
さらに、当社のトレーニング手順は、他の堅牢なトレーニング戦略を強化するために簡単に拡張でき、その信頼性と柔軟性が強調されます。
要約(オリジナル)
Multi-modal models have shown a promising capability to effectively integrate information from various sources, yet meanwhile, they are found vulnerable to pervasive perturbations, such as uni-modal attacks and missing conditions. To counter these perturbations, robust multi-modal representations are highly expected, which are positioned well away from the discriminative multi-modal decision boundary. In this paper, different from conventional empirical studies, we focus on a commonly used joint multi-modal framework and theoretically discover that larger uni-modal representation margins and more reliable integration for modalities are essential components for achieving higher robustness. This discovery can further explain the limitation of multi-modal robustness and the phenomenon that multi-modal models are often vulnerable to attacks on the specific modality. Moreover, our analysis reveals how the widespread issue, that the model has different preferences for modalities, limits the multi-modal robustness by influencing the essential components and could lead to attacks on the specific modality highly effective. Inspired by our theoretical finding, we introduce a training procedure called Certifiable Robust Multi-modal Training (CRMT), which can alleviate this influence from modality preference and explicitly regulate essential components to significantly improve robustness in a certifiable manner. Our method demonstrates substantial improvements in performance and robustness compared with existing methods. Furthermore, our training procedure can be easily extended to enhance other robust training strategies, highlighting its credibility and flexibility.
arxiv情報
著者 | Zequn Yang,Yake Wei,Ce Liang,Di Hu |
発行日 | 2024-02-09 08:33:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google