Multimodal Fusion on Low-quality Data: A Comprehensive Survey

要約

マルチモーダルフュージョンは、より正確な予測を目的として複数のモダリティからの情報を統合することに焦点を当てており、自律走行や医療診断を含む幅広いシナリオで目覚ましい進歩を遂げている。しかし、マルチモーダルフュージョンの信頼性は、特に低品質なデータ環境下では、ほとんど未解明のままである。本稿では、マルチモーダルフュージョンの一般的な課題と最近の進歩を調査し、それらを包括的な分類法で示す。すなわち、(1)異質なノイズに汚染されたマルチモーダルデータ、(2)一部のモダリティが欠落した不完全なマルチモーダルデータ、(3)異なるモダリティの品質や特性が大きく異なる不均衡なマルチモーダルデータ、(4)異なるサンプルに対して各モダリティの品質が動的に変化する品質変動マルチモーダルデータである。この新しい分類法は、研究者がこの分野の現状を理解し、いくつかの潜在的な方向性を特定することを可能にする。また、この分野における未解決の問題や、興味深い将来の研究の方向性についても述べる。

要約(オリジナル)

Multimodal fusion focuses on integrating information from multiple modalities with the goal of more accurate prediction, which has achieved remarkable progress in a wide range of scenarios, including autonomous driving and medical diagnosis. However, the reliability of multimodal fusion remains largely unexplored especially under low-quality data settings. This paper surveys the common challenges and recent advances of multimodal fusion in the wild and presents them in a comprehensive taxonomy. From a data-centric view, we identify four main challenges that are faced by multimodal fusion on low-quality data, namely (1) noisy multimodal data that are contaminated with heterogeneous noises, (2) incomplete multimodal data that some modalities are missing, (3) imbalanced multimodal data that the qualities or properties of different modalities are significantly different and (4) quality-varying multimodal data that the quality of each modality dynamically changes with respect to different samples. This new taxonomy will enable researchers to understand the state of the field and identify several potential directions. We also provide discussion for the open problems in this field together with interesting future research directions.

arxiv情報

著者 Qingyang Zhang,Yake Wei,Zongbo Han,Huazhu Fu,Xi Peng,Cheng Deng,Qinghua Hu,Cai Xu,Jie Wen,Di Hu,Changqing Zhang
発行日 2024-11-01 13:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク