要約
完全な画像のテキストベースの歩行者検索(TBPS)は、自然言語の説明を使用して、トリミングされていない画像でターゲットの歩行者を見つけることを目的としています。
ただし、複数の歩行者がいる複雑なシーンでは、既存の方法は検出とマッチングの不確実性によって制限され、パフォーマンスが低下します。
これに対処するために、3つのモジュールで構成される新しいフレームワークであるUPD-TBPSを提案します:多粒度の不確実性推定(MUE)、プロトタイプベースの不確実性分離(PUD)、およびクロスモーダル再識別(REID)。
MUEは、潜在的なターゲットを特定するためにマルチガニュラリティクエリを実施し、初期段階の不確実性を減らすために信頼性スコアを割り当てます。
PUDは、視覚的なコンテキストデカップリングとプロトタイプマイニングをレバレッジして、クエリに記載されているターゲットの歩行者の特徴を抽出します。
粗粒のクラスターレベルと細粒の個々のレベルの両方で、歩行者のプロトタイプ表現を分離および学習し、それによりマッチングの不確実性を減らします。
リードは、信頼レベルが変化する候補者を評価し、検出と検索の精度を改善します。
Cuhk-Sysu-TBPSおよびPRW-TBPSデータセットの実験により、フレームワークの有効性が検証されます。
要約(オリジナル)
Text-based pedestrian search (TBPS) in full images aims to locate a target pedestrian in untrimmed images using natural language descriptions. However, in complex scenes with multiple pedestrians, existing methods are limited by uncertainties in detection and matching, leading to degraded performance. To address this, we propose UPD-TBPS, a novel framework comprising three modules: Multi-granularity Uncertainty Estimation (MUE), Prototype-based Uncertainty Decoupling (PUD), and Cross-modal Re-identification (ReID). MUE conducts multi-granularity queries to identify potential targets and assigns confidence scores to reduce early-stage uncertainty. PUD leverages visual context decoupling and prototype mining to extract features of the target pedestrian described in the query. It separates and learns pedestrian prototype representations at both the coarse-grained cluster level and the fine-grained individual level, thereby reducing matching uncertainty. ReID evaluates candidates with varying confidence levels, improving detection and retrieval accuracy. Experiments on CUHK-SYSU-TBPS and PRW-TBPS datasets validate the effectiveness of our framework.
arxiv情報
著者 | Zengli Luo,Canlong Zhang,Xiaochun Lu,Zhixin Li,Zhiwen Wang |
発行日 | 2025-05-07 01:21:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google