DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention

要約

デジタル広告や電子商取引などの様々なウェブアプリケーションにおいて、マルチモーダルデータの活用に関心が高まっている。マルチモーダルデータから重要な情報を抽出するための典型的な方法は、複数のエンコーダからの特徴表現を結合するミッドフュージョンアーキテクチャに依存している。しかし、モダリティの数が増えるにつれて、連結されたマルチモーダル特徴の次元の増加やモダリティの欠落など、ミッドフュージョンモデル構造に関するいくつかの潜在的な問題が発生する。これらの問題を解決するために、我々はマルチモーダル入力をシーケンスの集合として捉える新しい概念、すなわち、ディープマルチモーダルシーケンスセット(DM$^2$S$^2$)を提案する。我々の集合認識コンセプトは、複数のモダリティ間の関係を捉える3つの要素、すなわち、(a)シーケンス内の要素の順序間および順序内を扱うBERTベースのエンコーダ、(b)モダリティ内の要素の重要度を捉えるモダリティ内残留注意(IntraMRA)、(c) モダリティレベルの粒度で要素の重要度をさらに高めるモダリティ間残留注意(InterMRA)から構成されている。我々のコンセプトは、従来の集合認識モデルと同等以上の性能を示す。さらに、学習したInterMRAとIntraMRAの重みを可視化することで、予測結果の解釈を提供できることを実証する。

要約(オリジナル)

There is increasing interest in the use of multimodal data in various web applications, such as digital advertising and e-commerce. Typical methods for extracting important information from multimodal data rely on a mid-fusion architecture that combines the feature representations from multiple encoders. However, as the number of modalities increases, several potential problems with the mid-fusion model structure arise, such as an increase in the dimensionality of the concatenated multimodal features and missing modalities. To address these problems, we propose a new concept that considers multimodal inputs as a set of sequences, namely, deep multimodal sequence sets (DM$^2$S$^2$). Our set-aware concept consists of three components that capture the relationships among multiple modalities: (a) a BERT-based encoder to handle the inter- and intra-order of elements in the sequences, (b) intra-modality residual attention (IntraMRA) to capture the importance of the elements in a modality, and (c) inter-modality residual attention (InterMRA) to enhance the importance of elements with modality-level granularity further. Our concept exhibits performance that is comparable to or better than the previous set-aware models. Furthermore, we demonstrate that the visualization of the learned InterMRA and IntraMRA weights can provide an interpretation of the prediction results.

arxiv情報

著者 Shunsuke Kitada,Yuki Iwazaki,Riku Togashi,Hitoshi Iyatomi
発行日 2022-09-07 13:25:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク