Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

要約

既存のクロスモーダル検索方法のほとんどは、画像とテキストに対して異なるアーキテクチャを持つ 2 つのストリーム エンコーダ、\textit{e.g.}、画像には CNN、テキストには RNN/Transformer を採用しています。
アーキテクチャにおけるこのような不一致は、異なる意味論的分布空間を引き起こし、画像とテキスト間の相互作用を制限し、さらに画像とテキスト間の整合性を低下させる可能性があります。
この研究のギャップを埋めるために、視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて、両方のモダリティでエンコーダー アーキテクチャをトランスフォーマーと統合することを提案します。
具体的には、\textbf{階層配置トランスフォーマー (HAT)} と呼ばれる 2 つのストリーム トランスフォーマーに純粋に基づいたクロスモーダル検索フレームワークを設計します。これは、画像トランスフォーマー、テキスト トランスフォーマー、および階層配置モジュールで構成されます。
このような同一のアーキテクチャを使用すると、エンコーダは画像とテキストに対してより類似した特性を持つ表現を生成し、それらの間の相互作用と位置合わせをはるかに容易にすることができます。
さらに、豊富なセマンティクスを活用するために、画像とテキストの間のさまざまなレイヤーのマルチレベルの対応を調査するための階層的配置スキームを考案しました。
提案された HAT の有効性を評価するために、MSCOCO と Flickr30K という 2 つのベンチマーク データセットで広範な実験を実施しました。
実験結果は、HAT が SOTA ベースラインを大幅に上回っていることを示しています。
具体的には、画像からテキストへの変換とテキストから画像への取得という 2 つの重要なタスク \textit{i.e.} で、HAT は MSCOCO の Recall@1 に対して 7.6\% と 16.7\% の相対スコア向上を達成し、MSCOCO では 4.4\% の相対スコア向上を達成しました。
Flickr30k ではそれぞれ 11.6\%。
コードは \url{https://github.com/LuminosityX/HAT} で入手できます。

要約(オリジナル)

Most existing cross-modal retrieval methods employ two-stream encoders with different architectures for images and texts, \textit{e.g.}, CNN for images and RNN/Transformer for texts. Such discrepancy in architectures may induce different semantic distribution spaces and limit the interactions between images and texts, and further result in inferior alignment between images and texts. To fill this research gap, inspired by recent advances of Transformers in vision tasks, we propose to unify the encoder architectures with Transformers for both modalities. Specifically, we design a cross-modal retrieval framework purely based on two-stream Transformers, dubbed \textbf{Hierarchical Alignment Transformers (HAT)}, which consists of an image Transformer, a text Transformer, and a hierarchical alignment module. With such identical architectures, the encoders could produce representations with more similar characteristics for images and texts, and make the interactions and alignments between them much easier. Besides, to leverage the rich semantics, we devise a hierarchical alignment scheme to explore multi-level correspondences of different layers between images and texts. To evaluate the effectiveness of the proposed HAT, we conduct extensive experiments on two benchmark datasets, MSCOCO and Flickr30K. Experimental results demonstrate that HAT outperforms SOTA baselines by a large margin. Specifically, on two key tasks, \textit{i.e.}, image-to-text and text-to-image retrieval, HAT achieves 7.6\% and 16.7\% relative score improvement of Recall@1 on MSCOCO, and 4.4\% and 11.6\% on Flickr30k respectively. The code is available at \url{https://github.com/LuminosityX/HAT}.

arxiv情報

著者 Yi Bin,Haoxuan Li,Yahui Xu,Xing Xu,Yang Yang,Heng Tao Shen
発行日 2023-08-08 15:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク