Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning

要約

クロスリンガルの画像キャプションは、マルチメディア分析においてクロスリンガルとクロスモーダルの両方の課題に直面しています。
このタスクの重要な課題は、画像とさまざまな言語の間のグローバルおよびローカルの一致をモデル化することです。
Transformer アーキテクチャに基づいた既存のクロスモーダル埋め込み手法は、さまざまな差別化された言語に直面しても言うまでもなく、画像領域と単一言語の単語の間の局所的な一致を監視します。
クロスモーダルおよびクロス言語タスクの異種特性により、異種ネットワークを利用して、クロスドメイン関係および画像と異なる言語間のローカルな対応関係を確立します。
この論文では、言語を超えた画像キャプションを作成するためにクロスドメインを橋渡しする推論パスを構築し、トランスフォーマーに統合するための組み込み異種注意トランスフォーマー (EHAT) を提案します。
提案された EHAT は、マスクされた異種クロスアテンション (MHCA)、異種注意推論ネットワーク (HARN)、および異種混合アテンション (HCA) で構成されます。
コアネットワークとしてのHARNは、視覚境界ボックス表現特徴によって固定されたクロスドメイン関係をモデル化および推論し、2つの言語の単語特徴を接続し、異種マップを学習します。
MHCA と HCA は、特別な異種混合アテンションを通じてエンコーダにクロスドメイン統合を実装し、単一のモデルで 2 つの言語のキャプションを生成できるようにします。
MSCOCO データセットをテストして、最も広く使用されており、言語ファミリー間に明らかな違いがある英語と中国語を生成します。
私たちの実験は、私たちの方法が高度な単一言語方法よりも優れた成果を達成できることを示しています。

要約(オリジナル)

Cross-lingual image captioning is confronted with both cross-lingual and cross-modal challenges for multimedia analysis. The crucial issue in this task is to model the global and local matching between the image and different languages. Existing cross-modal embedding methods based on Transformer architecture oversight the local matching between the image region and monolingual words, not to mention in the face of a variety of differentiated languages. Due to the heterogeneous property of the cross-modal and cross-lingual task, we utilize the heterogeneous network to establish cross-domain relationships and the local correspondences between the image and different languages. In this paper, we propose an Embedded Heterogeneous Attention Transformer (EHAT) to build reasoning paths bridging cross-domain for cross-lingual image captioning and integrate into transformer. The proposed EHAT consists of a Masked Heterogeneous Cross-attention (MHCA), Heterogeneous Attention Reasoning Network (HARN) and Heterogeneous Co-attention (HCA). HARN as the core network, models and infers cross-domain relationship anchored by vision bounding box representation features to connect two languages word features and learn the heterogeneous maps. MHCA and HCA implement cross-domain integration in the encoder through the special heterogeneous attention and enable single model to generate two language captioning. We test on MSCOCO dataset to generate English and Chinese, which are most widely used and have obvious difference between their language families. Our experiments show that our method even achieve better than advanced monolingual methods.

arxiv情報

著者 Zijie Song,Zhenzhen Hu,Richang Hong
発行日 2023-07-19 11:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク