On Uni-Modal Feature Learning in Supervised Multi-Modal Learning

要約

タイトル:教師ありマルチモーダル学習における単一モーダル特徴学習について

要約:
– マルチモーダルデータの特徴量を、1)単一モーダル学習から学習される「単一モーダル特徴」と、2)交差モーダル相互作用から「のみ」学習される「ペア特徴」に抽象化します。
– 各モーダルにおける単一モーダル特徴学習を保証することに基づいて、マルチモーダルモデルは交差モーダル相互作用の恩恵を受けることが期待されます。しかし、最近の教師ありマルチモーダルレイトフュージョントレーニングアプローチは、各モーダルの単一モーダル特徴学習が不十分であるため、依然として問題があります。
– この現象はモデルの汎化能力に悪影響を与えることを証明します。
– したがって、提案された「単一モーダルアンサンブル(UME)」と「単一モーダルティーチャー(UMT)」を用いて、単一モーダルとペア特徴の分布に基づいて、与えられた教師ありマルチモーダルタスクのターゲティングレイトフュージョン学習法を選択することを提案します。
– 簡単なガイディング戦略の下で、VGG-Sound、Kinetics-400、UCF101、およびModelNet40を含むさまざまなマルチモーダルデータセットで、他の複雑なレイトフュージョンまたは中間フュージョン方法と同等の結果を実証します。

要約(オリジナル)

We abstract the features~(\textit{i.e.} learned representations) of multi-modal data into 1)~\emph{uni-modal features}, which can be learned from uni-modal training, and 2) \emph{paired features}, which can \emph{only} be learned from cross-modal interactions. Multi-modal models are expected to benefit from cross-modal interactions on the basis of ensuring uni-modal feature learning. However, recent supervised multi-modal late-fusion training approaches still suffer from insufficient learning of uni-modal features on each modality. \emph{We prove that this phenomenon does hurt the model’s generalization ability}. To this end, we propose to choose a targeted late-fusion learning method for the given supervised multi-modal task from \textbf{U}ni-\textbf{M}odal \textbf{E}nsemble~(UME) and the proposed \textbf{U}ni-\textbf{M}odal \textbf{T}eacher~(UMT), according to the distribution of uni-modal and paired features. We demonstrate that, under a simple guiding strategy, we can achieve comparable results to other complex late-fusion or intermediate-fusion methods on various multi-modal datasets, including VGG-Sound, Kinetics-400, UCF101, and ModelNet40.

arxiv情報

著者 Chenzhuang Du,Jiaye Teng,Tingle Li,Yichen Liu,Tianyuan Yuan,Yue Wang,Yang Yuan,Hang Zhao
発行日 2023-05-02 07:15:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク