Learnable Pillar-based Re-ranking for Image-Text Retrieval

要約

タイトル:学習可能な柱ベースの再ランキングによる画像-テキスト検索

要約:
・画像-テキスト検索は、意味的類似性に基づいてクロスモーダルなコンテンツを検索することを目的としています。
・従来の研究は、通常、データサンプルが他のサンプルにマッチするかどうかといったペアワイズの関係に焦点を当てており、多数のデータサンプルのマッチング構造といったより高次元の関係を無視していました。
・一方、「再ランキング」というポストプロセッシングは、単一モーダル検索タスクにおいて、隣接する関係性を捉えることの優越性を示してきました。
・しかしながら、既存の再ランキングアルゴリズムを直接画像-テキスト検索に拡張することは効果的ではありません。
・そこで本研究では、一般化、柔軟性、疎性、および非対称性の4つの観点から理由を分析し、学習可能な柱ベースの再ランキングパラダイムを提案しています。
・具体的には、まず、トップランクの内部および外部モーダルの近傍をピラーとして選択し、それらとピラー間の近隣関係およびピラーのみを用いて各サンプルをマップできるマルチモーダルピラースペースに形容します。
・その後、ネイバーアウェアグラフリーズニングモジュールを設計し、関係を柔軟に活用し、近隣内の疎な正項目を発掘します。
・また、非対称性を相互協力し、整列制約を促進する構造の揃えも行います。
・最後に、Flickr30KとMS-COCOという2つのベンチマークデータセットで、様々な基本バックボーンに対して大規模な実験を行い、提案された再ランキングパラダイムの効果、優越性、一般化、および転移性を証明しています。

要約(オリジナル)

Image-text retrieval aims to bridge the modality gap and retrieve cross-modal content based on semantic similarities. Prior work usually focuses on the pairwise relations (i.e., whether a data sample matches another) but ignores the higher-order neighbor relations (i.e., a matching structure among multiple data samples). Re-ranking, a popular post-processing practice, has revealed the superiority of capturing neighbor relations in single-modality retrieval tasks. However, it is ineffective to directly extend existing re-ranking algorithms to image-text retrieval. In this paper, we analyze the reason from four perspectives, i.e., generalization, flexibility, sparsity, and asymmetry, and propose a novel learnable pillar-based re-ranking paradigm. Concretely, we first select top-ranked intra- and inter-modal neighbors as pillars, and then reconstruct data samples with the neighbor relations between them and the pillars. In this way, each sample can be mapped into a multimodal pillar space only using similarities, ensuring generalization. After that, we design a neighbor-aware graph reasoning module to flexibly exploit the relations and excavate the sparse positive items within a neighborhood. We also present a structure alignment constraint to promote cross-modal collaboration and align the asymmetric modalities. On top of various base backbones, we carry out extensive experiments on two benchmark datasets, i.e., Flickr30K and MS-COCO, demonstrating the effectiveness, superiority, generalization, and transferability of our proposed re-ranking paradigm.

arxiv情報

著者 Leigang Qu,Meng Liu,Wenjie Wang,Zhedong Zheng,Liqiang Nie,Tat-Seng Chua
発行日 2023-04-25 04:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.IR パーマリンク