MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT

要約

マルチモーダルセンシングシステムは、さまざまな現実世界のアプリケーションでますます一般的になっています。
ほとんどの既存のマルチモーダル学習アプローチは、大量の同期された完全なマルチモーダルデータを使用して、トレーニングに大きく依存しています。
ただし、このような設定は、データが不均一なデータモダリティを備えた分散ノードによって通常収集される現実世界のIoTセンシングアプリケーションでは非現実的です。また、ラベル付けされていません。
この論文では、分散および異種のIoTデータに関するマルチモーダル学習のための新しいデータ結合アプローチであるMmbindを提案します。
Mmbindの重要なアイデアは、十分に記述された共有モダリティを通じて、異なるソースと不完全なモダリティからデータを結合することにより、モデルトレーニング用の擬似ペアマルチモーダルデータセットを構築することです。
また、異種モダリティの組み合わせでトレーニングモデルをトレーニングできる適応マルチモーダル学習アーキテクチャと相まって、異なるデータ間のドメインシフトを処理するための加重コントラスト学習アプローチを提案します。
10の実際のマルチモーダルデータセットの評価は、Mmbindがさまざまな程度のデータの不完全性とドメインシフトで最先端のベースラインを上回ることを強調しており、IoTアプリケーションでマルチモーダルファンデーションモデルトレーニングを進めることを約束します(ソースコードはhttps:/github.com/nesl/multimal-bind経由で入手できます)。

要約(オリジナル)

Multimodal sensing systems are increasingly prevalent in various real-world applications. Most existing multimodal learning approaches heavily rely on training with a large amount of synchronized, complete multimodal data. However, such a setting is impractical in real-world IoT sensing applications where data is typically collected by distributed nodes with heterogeneous data modalities, and is also rarely labeled. In this paper, we propose MMBind, a new data binding approach for multimodal learning on distributed and heterogeneous IoT data. The key idea of MMBind is to construct a pseudo-paired multimodal dataset for model training by binding data from disparate sources and incomplete modalities through a sufficiently descriptive shared modality. We also propose a weighted contrastive learning approach to handle domain shifts among disparate data, coupled with an adaptive multimodal learning architecture capable of training models with heterogeneous modality combinations. Evaluations on ten real-world multimodal datasets highlight that MMBind outperforms state-of-the-art baselines under varying degrees of data incompleteness and domain shift, and holds promise for advancing multimodal foundation model training in IoT applications\footnote (The source code is available via https://github.com/nesl/multimodal-bind).

arxiv情報

著者 Xiaomin Ouyang,Jason Wu,Tomoyoshi Kimura,Yihan Lin,Gunjan Verma,Tarek Abdelzaher,Mani Srivastava
発行日 2025-03-05 16:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク