Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning

要約

クロスリンガルの画像キャプション付けは、マルチメディア分析におけるクロスリンガルとクロスモーダルの両方の障害に対処する必要がある困難なタスクです。
このタスクの重要な課題は、画像とさまざまな言語間のグローバルおよびローカルの一致をモデル化することです。
トランスフォーマー アーキテクチャに基づく既存のクロスモーダル埋め込み手法は、特に多様な言語を扱う場合に、画像領域と単一言語の単語の間のローカル マッチングを監視します。
これらの制限を克服するために、異種ネットワークを使用して画像と異なる言語間のクロスドメイン関係とローカル対応を確立する組み込み異種アテンショントランスフォーマー (EHAT) を提案します。
EHAT は、マスクされた異種クロスアテンション (MHCA)、異種注意推論ネットワーク (HARN)、および異種同時注意 (HCA) で構成されます。
HARN はコア ネットワークとして機能し、視覚的な境界ボックス表現機能を活用して、2 つの言語の単語の特徴を接続し、異種のマップを学習することで、クロスドメインの関係をキャプチャします。
MHCA と HCA は、特殊な異種アテンション メカニズムを通じてエンコーダでのクロスドメイン統合を促進し、単一のモデルで 2 つの言語のキャプションを生成できるようにします。
MSCOCO データセットに対するアプローチを評価して、言語ファミリーに大きな違いがある英語と中国語の 2 つの言語でキャプションを生成します。
実験結果は、既存の高度な単一言語手法と比較して、私たちの手法の優れたパフォーマンスを示しています。
私たちが提案する EHAT フレームワークは、言語をまたいだ画像キャプションの課題に効果的に対処し、多言語画像の分析と理解の向上への道を開きます。

要約(オリジナル)

Cross-lingual image captioning is a challenging task that requires addressing both cross-lingual and cross-modal obstacles in multimedia analysis. The crucial issue in this task is to model the global and the local matching between the image and different languages. Existing cross-modal embedding methods based on the transformer architecture oversee the local matching between the image region and monolingual words, especially when dealing with diverse languages. To overcome these limitations, we propose an Embedded Heterogeneous Attention Transformer (EHAT) to establish cross-domain relationships and local correspondences between images and different languages by using a heterogeneous network. EHAT comprises Masked Heterogeneous Cross-attention (MHCA), Heterogeneous Attention Reasoning Network (HARN), and Heterogeneous Co-attention (HCA). The HARN serves as the core network and it captures cross-domain relationships by leveraging visual bounding box representation features to connect word features from two languages and to learn heterogeneous maps. MHCA and HCA facilitate cross-domain integration in the encoder through specialized heterogeneous attention mechanisms, enabling a single model to generate captions in two languages. We evaluate our approach on the MSCOCO dataset to generate captions in English and Chinese, two languages that exhibit significant differences in their language families. The experimental results demonstrate the superior performance of our method compared to existing advanced monolingual methods. Our proposed EHAT framework effectively addresses the challenges of cross-lingual image captioning, paving the way for improved multilingual image analysis and understanding.

arxiv情報

著者 Zijie Song,Zhenzhen Hu,Yuanen Zhou,Ye Zhao,Richang Hong,Meng Wang
発行日 2024-04-05 15:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク