要約
マルチモーダル学習では、クロスモーダル対応を学習するためのトレーニング中に、対象となるすべてのモダリティの組み合わせが利用可能であると想定されます。
この論文では、マルチモーダル学習に対するこのモダリティ完全な仮定に異議を唱え、代わりに、推論中に目に見えないモダリティの組み合わせへの一般化を目指します。
私たちは目に見えないモダリティ相互作用の問題を提起し、最初の解決策を紹介します。
特徴投影モジュールを利用して、さまざまなモダリティの多次元特徴を、豊富な情報が確保された共通空間に投影します。
これにより、利用可能なモダリティ全体での単純な合計操作で情報を蓄積できるようになります。
トレーニング中の信頼性の低いモダリティの組み合わせに対する過剰適合を減らすために、モダリティの予測の信頼性を示す擬似教師監視を使用してモデル学習をさらに改善します。
マルチモーダルビデオ分類、ロボット状態回帰、マルチメディア検索について評価することで、私たちのアプローチが多様なタスクやモダリティに対して有効であることを実証します。
要約(オリジナル)
Multimodal learning assumes all modality combinations of interest are available during training to learn cross-modal correspondences. In this paper, we challenge this modality-complete assumption for multimodal learning and instead strive for generalization to unseen modality combinations during inference. We pose the problem of unseen modality interaction and introduce a first solution. It exploits a feature projection module to project the multidimensional features of different modalities into a common space with rich information reserved. This allows the information to be accumulated with a simple summation operation across available modalities. To reduce overfitting to unreliable modality combinations during training, we further improve the model learning with pseudo-supervision indicating the reliability of a modality’s prediction. We demonstrate that our approach is effective for diverse tasks and modalities by evaluating it for multimodal video classification, robot state regression, and multimedia retrieval.
arxiv情報
著者 | Yunhua Zhang,Hazel Doughty,Cees G. M. Snoek |
発行日 | 2023-06-22 10:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google