Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search

要約

説明的なテキスト クエリが与えられた場合、テキストベースの人物検索 (TBPS) は、画像ギャラリーから最も一致する対象人物を取得することを目的としています。
このようなクロスモーダル検索タスクは、モダリティの大きなギャップ、きめ細かい差異、および注釈付きデータの不十分さにより、非常に困難です。
2 つの方式をより適切に調整するために、既存の研究のほとんどは、複雑で実装が難しい高度なネットワーク構造と補助タスクの導入に重点を置いています。
この論文では、テキストベースの人物検索のためのシンプルかつ効果的なデュアル Transformer モデルを提案します。
硬度を意識した対比学習戦略を活用することで、私たちのモデルは、局所的な特徴の位置合わせやサイド情報のための特別な設計を必要とせずに、最先端のパフォーマンスを実現します。
さらに、クロスモーダルトレーニング用に、より多様なデータを自動的に生成する近接データ生成 (PDG) モジュールを提案します。
PDG モジュールはまず、テキストと画像の拡散モデルに基づく自動生成アルゴリズムを導入します。これは、元のものの近接空間に新しいテキストと画像のペアのサンプルを生成します。
次に、トレーニング中に近似テキスト生成と特徴レベルの混合を組み合わせて、データの多様性をさらに強化します。
PDG モジュールは、ノイズ除去のための人による検査を行わずに、トレーニングに直接使用される生成されたサンプルの妥当性をほぼ保証できます。
これによりモデルのパフォーマンスが大幅に向上し、このようなきめの細かい視覚的言語タスクが直面するデータ不足の問題に対する実現可能な解決策が提供されます。
TBPS タスクの 2 つの一般的なデータセット (つまり、CUHK-PEDES と ICFG-PEDES) に関する広範な実験により、提案されたアプローチが最先端のアプローチを明らかに上回っていることが示されています。たとえば、
CUHK-PEDES のトップ 1、トップ 5、トップ 10 の条件。
コードは https://github.com/HCPLab-SYSU/personSearch-CTLG で入手できます。

要約(オリジナル)

Given a descriptive text query, text-based person search (TBPS) aims to retrieve the best-matched target person from an image gallery. Such a cross-modal retrieval task is quite challenging due to significant modality gap, fine-grained differences and insufficiency of annotated data. To better align the two modalities, most existing works focus on introducing sophisticated network structures and auxiliary tasks, which are complex and hard to implement. In this paper, we propose a simple yet effective dual Transformer model for text-based person search. By exploiting a hardness-aware contrastive learning strategy, our model achieves state-of-the-art performance without any special design for local feature alignment or side information. Moreover, we propose a proximity data generation (PDG) module to automatically produce more diverse data for cross-modal training. The PDG module first introduces an automatic generation algorithm based on a text-to-image diffusion model, which generates new text-image pair samples in the proximity space of original ones. Then it combines approximate text generation and feature-level mixup during training to further strengthen the data diversity. The PDG module can largely guarantee the reasonability of the generated samples that are directly used for training without any human inspection for noise rejection. It improves the performance of our model significantly, providing a feasible solution to the data insufficiency problem faced by such fine-grained visual-linguistic tasks. Extensive experiments on two popular datasets of the TBPS task (i.e., CUHK-PEDES and ICFG-PEDES) show that the proposed approach outperforms state-of-the-art approaches evidently, e.g., improving by 3.88%, 4.02%, 2.92% in terms of Top1, Top5, Top10 on CUHK-PEDES. The codes will be available at https://github.com/HCPLab-SYSU/PersonSearch-CTLG

arxiv情報

著者 Hefeng Wu,Weifeng Chen,Zhibin Liu,Tianshui Chen,Zhiguang Chen,Liang Lin
発行日 2023-11-15 16:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク