要約
主要人物検索手法は、統合ネットワーク内でクエリー人物の位置を特定して認識することを目的としており、歩行者検出と再識別 (ReID) という 2 つのサブタスクを共同で最適化します。
大きな進歩にもかかわらず、現在の方法は 2 つの主要な課題に直面しています。1) 検出器内で学習された歩行者候補は、ReID タスクにとって最適ではありません。
2) 2 つのサブタスク間のコラボレーションの可能性が見落とされています。
これらの問題に対処するために、拡散モデル PSDiff に基づく新しい人物検索フレームワークを紹介します。
PSDiff は、人物検索を、ノイズの多いボックスと ReID 埋め込みからグランド トゥルースまでの二重ノイズ除去プロセスとして定式化します。
従来の検出から ReID へのアプローチとは異なり、私たちのノイズ除去パラダイムは、検出器によって生成された以前の歩行者候補を破棄し、それによって ReID タスクの局所最適問題を回避します。
新しいパラダイムに従って、検出と ReID サブタスクを反復的かつ協調的な方法で最適化するための新しい協調ノイズ除去層 (CDL) をさらに設計します。これにより、2 つのサブタスクが相互に有益になります。
標準ベンチマークに関する広範な実験により、PSDiff がより少ないパラメーターと柔軟なコンピューティング オーバーヘッドで最先端のパフォーマンスを達成できることがわかりました。
要約(オリジナル)
Dominant Person Search methods aim to localize and recognize query persons in a unified network, which jointly optimizes two sub-tasks, \ie, pedestrian detection and Re-IDentification (ReID). Despite significant progress, current methods face two primary challenges: 1) the pedestrian candidates learned within detectors are suboptimal for the ReID task. 2) the potential for collaboration between two sub-tasks is overlooked. To address these issues, we present a novel Person Search framework based on the Diffusion model, PSDiff. PSDiff formulates the person search as a dual denoising process from noisy boxes and ReID embeddings to ground truths. Distinct from the conventional Detection-to-ReID approach, our denoising paradigm discards prior pedestrian candidates generated by detectors, thereby avoiding the local optimum problem of the ReID task. Following the new paradigm, we further design a new Collaborative Denoising Layer (CDL) to optimize detection and ReID sub-tasks in an iterative and collaborative way, which makes two sub-tasks mutually beneficial. Extensive experiments on the standard benchmarks show that PSDiff achieves state-of-the-art performance with fewer parameters and elastic computing overhead.
arxiv情報
著者 | Chengyou Jia,Minnan Luo,Zhuohang Dang,Guang Dai,Xiaojun Chang,Jingdong Wang |
発行日 | 2024-12-30 12:20:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google