Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method

要約

フィーチャの位置合わせは、マルチモーダル データを融合する主な手段です。
我々は、異なるモダリティからの特徴情報を交互にシフトおよび拡張して特徴空間内で一貫した表現を持たせる、マルチモーダル情報を完全に融合する特徴アライメント手法を提案します。
提案された方法は、異なるモダリティの特徴間の高レベルの相互作用を確実に捕捉できるため、マルチモーダル学習のパフォーマンスが大幅に向上します。
また、提案された方法が複数のタスクに関して他の一般的なマルチモーダル方式よりも優れていることも示します。
ETT および MIT-BIH-不整脈のデータセットの実験的評価は、提案された方法が最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Feature alignment is the primary means of fusing multimodal data. We propose a feature alignment method that fully fuses multimodal information, which alternately shifts and expands feature information from different modalities to have a consistent representation in a feature space. The proposed method can robustly capture high-level interactions between features of different modalities, thus significantly improving the performance of multimodal learning. We also show that the proposed method outperforms other popular multimodal schemes on multiple tasks. Experimental evaluation of ETT and MIT-BIH-Arrhythmia, datasets shows that the proposed method achieves state of the art performance.

arxiv情報

著者 Jiahao Qin,Yitao Xu,Zihong Luo Chengzhi Liu,Zong Lu,Xiaojun Zhang
発行日 2023-06-29 13:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク