Boosting Weak Positives for Text Based Person Search

要約

大規模なビジョン言語モデルは、クロスモーダルオブジェクトの検索に革命をもたらしましたが、テキストベースの個人検索(TBPS)は、データが限られていることとタスクのきめの細かい性質のため、依然として困難なタスクです。
既存の方法は、主に画像テキストペアを共通の表現空間に整列させることに焦点を当てており、多くの場合、現実世界のポジティブな画像テキストペアがそれらの間でさまざまな程度の類似性を共有しているという事実を無視します。
これにより、モデルはイージーペアに優先順位を付けることができ、最近のアプローチでは、挑戦的なサンプルはトレーニング中のノイズとして破棄されます。
この作業では、トレーニング中にこれらの挑戦的なサンプルを動的に識別および強調するブーストテクニックを導入します。
私たちのアプローチは、古典的なブースト技術から動機付けられ、弱いポジティブの重みを動的に更新します。ランク1マッチはクエリのアイデンティティを共有しません。
重量により、これらの誤った配置されたペアが損失により貢献することができ、ネットワークはそのようなサンプルに対してより多くの注意を払わなければなりません。
私たちの方法は、4つの歩行者データセットでパフォーマンスを向上させ、提案されたモジュールの有効性を実証します。

要約(オリジナル)

Large vision-language models have revolutionized cross-modal object retrieval, but text-based person search (TBPS) remains a challenging task due to limited data and fine-grained nature of the task. Existing methods primarily focus on aligning image-text pairs into a common representation space, often disregarding the fact that real world positive image-text pairs share a varied degree of similarity in between them. This leads models to prioritize easy pairs, and in some recent approaches, challenging samples are discarded as noise during training. In this work, we introduce a boosting technique that dynamically identifies and emphasizes these challenging samples during training. Our approach is motivated from classical boosting technique and dynamically updates the weights of the weak positives, wherein, the rank-1 match does not share the identity of the query. The weight allows these misranked pairs to contribute more towards the loss and the network has to pay more attention towards such samples. Our method achieves improved performance across four pedestrian datasets, demonstrating the effectiveness of our proposed module.

arxiv情報

著者 Akshay Modi,Ashhar Aziz,Nilanjana Chatterjee,A V Subramanyam
発行日 2025-01-30 10:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク