Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search

要約

テキストベースの人物検索 (TBPS) の領域では、主流の手法は、テキストの説明と視覚データの間のより効率的な対話フレームワークを探索することを目的としています。
しかし、最近のアプローチは 2 つの主要な課題に直面しています。
まず、広く使用されているランダムベースのマスク言語モデリング (MLM) は、トレーニング中にテキスト内のすべての単語を同等に考慮します。
ただし、大量の意味的に空の単語 (「with」、「the」など) がマスクされると、クロスモーダル MLM での効率的な対話に貢献できず、表現の調整が妨げられます。
第 2 に、TBPS データセットの手動による記述は退屈であり、必然的にいくつかの不正確な部分が含まれます。
これらの問題に対処するために、アテンション ガイド付きマスク (AGM) モデリングとテキスト エンリッチメント モジュール (TEM) という 2 つの革新的なコンポーネントを特徴とするアテンション ガイド付きアライメント (AGA) フレームワークを導入します。
AGM は、テキスト エンコード プロセスから導出された注意の重みを集約することにより、意味的に意味のある単語を動的にマスクします。これにより、クロスモーダル MLM は、テキスト コンテキストと画像からマスクされた単語に関連する情報を取得し、それらの表現を調整できます。
一方、TEM は、意味的に意味のある単語を MLM の予測に置き換えることにより、反復的で誤ったテキスト記述によって引き起こされる低品質の表現を軽減します。
テキストの説明を充実させるだけでなく、過剰適合も防ぎます。
3 つの困難なベンチマークにわたる広範な実験により、当社の AGA の有効性が実証され、CUHK-PEDES、ICFG-PEDES、および RSTPReid でランク 1 の精度が 78.36%、67.31%、および 67.4% に達するという新しい最先端の結果が得られました。
それぞれ。

要約(オリジナル)

In the realm of Text-Based Person Search (TBPS), mainstream methods aim to explore more efficient interaction frameworks between text descriptions and visual data. However, recent approaches encounter two principal challenges. Firstly, the widely used random-based Masked Language Modeling (MLM) considers all the words in the text equally during training. However, massive semantically vacuous words (‘with’, ‘the’, etc.) be masked fail to contribute efficient interaction in the cross-modal MLM and hampers the representation alignment. Secondly, manual descriptions in TBPS datasets are tedious and inevitably contain several inaccuracies. To address these issues, we introduce an Attention-Guided Alignment (AGA) framework featuring two innovative components: Attention-Guided Mask (AGM) Modeling and Text Enrichment Module (TEM). AGM dynamically masks semantically meaningful words by aggregating the attention weight derived from the text encoding process, thereby cross-modal MLM can capture information related to the masked word from text context and images and align their representations. Meanwhile, TEM alleviates low-quality representations caused by repetitive and erroneous text descriptions by replacing those semantically meaningful words with MLM’s prediction. It not only enriches text descriptions but also prevents overfitting. Extensive experiments across three challenging benchmarks demonstrate the effectiveness of our AGA, achieving new state-of-the-art results with Rank-1 accuracy reaching 78.36%, 67.31%, and 67.4% on CUHK-PEDES, ICFG-PEDES, and RSTPReid, respectively.

arxiv情報

著者 Lei Tan,Weihao Li,Pingyang Dai,Jie Chen,Liujuan Cao,Rongrong Ji
発行日 2024-12-19 17:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク