要約
マルチモーダル フュージョンの固有の課題は、クロスモーダル相関を正確に捕捉し、クロスモーダル インタラクションを柔軟に実行することです。
各モダリティの価値を完全に解放し、低品質のマルチモーダル データの影響を軽減するために、動的マルチモーダル フュージョンが有望な学習パラダイムとして浮上しています。
広く使用されているにもかかわらず、この分野における理論的根拠は依然として著しく不足しています。
証明された堅牢なマルチモーダル融合手法を設計できるでしょうか?
この論文では、一般化の観点から最も一般的なマルチモーダル融合フレームワークの下でこの質問に答えるための理論的理解を提供します。
我々は、堅牢なマルチモーダル融合を達成するために、いくつかの不確実性推定ソリューションが自然に利用できることを明らかにしていきます。
次に、Quality-aware Multimodal Fusion (QMF) と呼ばれる新しいマルチモーダル フュージョン フレームワークが提案され、分類精度とモデルの堅牢性の点でパフォーマンスを向上させることができます。
複数のベンチマークに関する広範な実験結果が私たちの発見を裏付ける可能性があります。
要約(オリジナル)
The inherent challenge of multimodal fusion is to precisely capture the cross-modal correlation and flexibly conduct cross-modal interaction. To fully release the value of each modality and mitigate the influence of low-quality multimodal data, dynamic multimodal fusion emerges as a promising learning paradigm. Despite its widespread use, theoretical justifications in this field are still notably lacking. Can we design a provably robust multimodal fusion method? This paper provides theoretical understandings to answer this question under a most popular multimodal fusion framework from the generalization perspective. We proceed to reveal that several uncertainty estimation solutions are naturally available to achieve robust multimodal fusion. Then a novel multimodal fusion framework termed Quality-aware Multimodal Fusion (QMF) is proposed, which can improve the performance in terms of classification accuracy and model robustness. Extensive experimental results on multiple benchmarks can support our findings.
arxiv情報
著者 | Qingyang Zhang,Haitao Wu,Changqing Zhang,Qinghua Hu,Huazhu Fu,Joey Tianyi Zhou,Xi Peng |
発行日 | 2023-06-06 13:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google