Exchanging-based Multimodal Fusion with Transformer

要約

この論文ではマルチモーダル融合の問題を研究します。
最近の交換ベースの方法は、視覚-視覚融合のために提案されており、あるモダリティから学習された埋め込みを他のモダリティに交換することを目的としています。
ただし、それらのほとんどは、マルチモダリティの入力を異なる低次元空間に投影するものであり、逐次入力データには適用できません。
これらの問題を解決するために、本論文では、Transformer に基づくテキストビジョン融合のための新しい交換ベースのマルチモーダル融合モデル MuSE を提案します。
まず 2 つのエンコーダを使用して、マルチモーダル入力を異なる低次元空間に個別にマッピングします。
次に、2 つのデコーダーを使用して埋め込みを正規化し、同じ空間に取り込みます。
2 つのデコーダは、それぞれ画像キャプション タスクとテキストから画像への生成タスクを使用してテキストと画像の間の相関関係をキャプチャします。
さらに、正則化された埋め込みに基づいて、マルチモダリティ間で知識を交換するためのバックボーン モデルとして共有パラメーターを持つ 2 つの Transformer エンコーダーを使用する CrossTransformer を紹介します。
具体的には、CrossTransformer はまず浅い層の入力のグローバル コンテキスト情報を学習します。
その後、1 つのモダリティで一定の割合のトークンを選択し、そのエンベディングを他のモダリティのエンベディングの平均で置き換えることによって、モーダル間交換を実行します。
私たちは、マルチモーダル固有表現認識タスクとマルチモーダル感情分析タスクにおける MuSE のパフォーマンスを評価するために広範な実験を実施しています。
私たちの結果は、他の競合他社に対する MuSE の優位性を示しています。
コードとデータは https://github.com/RecklessRonan/MuSE で提供されています。

要約(オリジナル)

We study the problem of multimodal fusion in this paper. Recent exchanging-based methods have been proposed for vision-vision fusion, which aim to exchange embeddings learned from one modality to the other. However, most of them project inputs of multimodalities into different low-dimensional spaces and cannot be applied to the sequential input data. To solve these issues, in this paper, we propose a novel exchanging-based multimodal fusion model MuSE for text-vision fusion based on Transformer. We first use two encoders to separately map multimodal inputs into different low-dimensional spaces. Then we employ two decoders to regularize the embeddings and pull them into the same space. The two decoders capture the correlations between texts and images with the image captioning task and the text-to-image generation task, respectively. Further, based on the regularized embeddings, we present CrossTransformer, which uses two Transformer encoders with shared parameters as the backbone model to exchange knowledge between multimodalities. Specifically, CrossTransformer first learns the global contextual information of the inputs in the shallow layers. After that, it performs inter-modal exchange by selecting a proportion of tokens in one modality and replacing their embeddings with the average of embeddings in the other modality. We conduct extensive experiments to evaluate the performance of MuSE on the Multimodal Named Entity Recognition task and the Multimodal Sentiment Analysis task. Our results show the superiority of MuSE against other competitors. Our code and data are provided at https://github.com/RecklessRonan/MuSE.

arxiv情報

著者 Renyu Zhu,Chengcheng Han,Yong Qian,Qiushi Sun,Xiang Li,Ming Gao,Xuezhi Cao,Yunsen Xian
発行日 2023-09-05 12:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク