要約
単一のモデルで複数の実世界のタスクを予測するには、多くの場合、特に多様な特徴空間が必要です。
マルチモーダル (MM) モデルは、複数のデータ型の相乗的な予測可能性を抽出して、大幅に異なるサイズの入力 (つまり、画像、テキスト、音声) 全体で意味論的な意味が調整された共有特徴空間を作成することを目的としています。
現在の MM アーキテクチャのほとんどは、これらの表現を並列に融合しているため、解釈可能性が制限されるだけでなく、モダリティの可用性への依存も生じます。
我々は、任意の数、組み合わせ、または種類のモダリティのシーケンスで潜在表現を融合し、任意の数または組み合わせの予測タスクに対して粒度の高いリアルタイム予測フィードバックを提供する、マルチモーダルなモジュール式ネットワークである MultiModN を紹介します。
MultiModN のコンポーザブル パイプラインは、設計によって解釈可能であるだけでなく、本質的にマルチタスクであり、偏った欠損の基本的な問題に対して堅牢です。
私たちは、10 の実世界タスク (医療診断、学業成績、天候の予測) にわたるいくつかのベンチマーク MM データセットに対して 4 つの実験を実行し、MultiModN の逐次 MM 融合が並列融合のベースラインと比較してパフォーマンスを損なわないことを示しました。
この研究では、非ランダム欠損 (MNAR) という困難なバイアスをシミュレートすることにより、MultiModN とは対照的に、並列融合ベースラインが誤って MNAR を学習し、推論時にさまざまなパターンの MNAR に直面すると壊滅的な失敗に見舞われることが示されました。
私たちの知る限り、これは MM モデリングに対する初めての本質的に MNAR 耐性のあるアプローチです。
結論として、MultiModN は、パフォーマンスを損なうことなく、きめ細かい洞察、堅牢性、柔軟性を提供します。
要約(オリジナル)
Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM architectures fuse these representations in parallel, which not only limits their interpretability but also creates a dependency on modality availability. We present MultiModN, a multimodal, modular network that fuses latent representations in a sequence of any number, combination, or type of modality while providing granular real-time predictive feedback on any number or combination of predictive tasks. MultiModN’s composable pipeline is interpretable-by-design, as well as innately multi-task and robust to the fundamental issue of biased missingness. We perform four experiments on several benchmark MM datasets across 10 real-world tasks (predicting medical diagnoses, academic performance, and weather), and show that MultiModN’s sequential MM fusion does not compromise performance compared with a baseline of parallel fusion. By simulating the challenging bias of missing not-at-random (MNAR), this work shows that, contrary to MultiModN, parallel fusion baselines erroneously learn MNAR and suffer catastrophic failure when faced with different patterns of MNAR at inference. To the best of our knowledge, this is the first inherently MNAR-resistant approach to MM modeling. In conclusion, MultiModN provides granular insights, robustness, and flexibility without compromising performance.
arxiv情報
著者 | Vinitra Swamy,Malika Satayeva,Jibril Frej,Thierry Bossy,Thijs Vogels,Martin Jaggi,Tanja Käser,Mary-Anne Hartley |
発行日 | 2023-11-06 14:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google