DDAM-PS: Diligent Domain Adaptive Mixer for Person Search

要約

パーソンサーチ (PS) は、歩行者の検出と再識別 (ReID) の共同最適化を達成することを目的とする、コンピュータ ビジョンに関する難しい問題です。
これまでの進歩により、完全および弱く教師ありの学習方式の下での分野で有望なパフォーマンスが示されてきましたが、PS モデルのドメイン適応能力の調査には大きなギャップが存在します。
この論文では、ラベル付きソース ドメインからラベルなしターゲット ドメインへの知識伝達を改善するためのギャップを埋めることを目的とした人物検索 (DDAP-PS) フレームワーク用のディリジェント ドメイン アダプティブ ミキサー (DDAM) を提案します。
具体的には、ソース ドメイン表現とターゲット ドメイン表現を組み合わせて適度な混合ドメイン表現を生成する新しい DDAM モジュールを紹介します。
提案された DDAM モジュールは、ドメインの混合を促進して 2 つの極端なドメイン間の距離を最小限に抑え、それによって ReID タスクを強化します。
これを達成するために、2 つのブリッジ損失と 1 つの不均衡損失を導入します。
2 つのブリッジ損失の目的は、適度な混合ドメイン表現をガイドして、ソース ドメイン表現とターゲット ドメイン表現の両方から適切な距離を維持することです。
視差損失は、適度な混合ドメイン表現がソース ドメインまたはターゲット ドメインのいずれかに偏るのを防ぎ、それによって過剰適合を回避することを目的としています。
さらに、ドメイン適応時のローカリゼーションと ReID という 2 つのサブタスク間の競合にも対処します。
このタスク間の競合に対処するために、規範を意識した埋め込みを強制的に分離します。これにより、適度な混合ドメイン表現の学習が促進されます。
提案手法の有効性を検証するために実験を実施します。
私たちのアプローチは、困難な PRW および CUHK-SYSU データセットで良好なパフォーマンスを示しています。
私たちのソース コードは \url{https://github.com/mustansarfiaz/DDAM-PS} で公開されています。

要約(オリジナル)

Person search (PS) is a challenging computer vision problem where the objective is to achieve joint optimization for pedestrian detection and re-identification (ReID). Although previous advancements have shown promising performance in the field under fully and weakly supervised learning fashion, there exists a major gap in investigating the domain adaptation ability of PS models. In this paper, we propose a diligent domain adaptive mixer (DDAM) for person search (DDAP-PS) framework that aims to bridge a gap to improve knowledge transfer from the labeled source domain to the unlabeled target domain. Specifically, we introduce a novel DDAM module that generates moderate mixed-domain representations by combining source and target domain representations. The proposed DDAM module encourages domain mixing to minimize the distance between the two extreme domains, thereby enhancing the ReID task. To achieve this, we introduce two bridge losses and a disparity loss. The objective of the two bridge losses is to guide the moderate mixed-domain representations to maintain an appropriate distance from both the source and target domain representations. The disparity loss aims to prevent the moderate mixed-domain representations from being biased towards either the source or target domains, thereby avoiding overfitting. Furthermore, we address the conflict between the two subtasks, localization and ReID, during domain adaptation. To handle this cross-task conflict, we forcefully decouple the norm-aware embedding, which aids in better learning of the moderate mixed-domain representation. We conduct experiments to validate the effectiveness of our proposed method. Our approach demonstrates favorable performance on the challenging PRW and CUHK-SYSU datasets. Our source code is publicly available at \url{https://github.com/mustansarfiaz/DDAM-PS}.

arxiv情報

著者 Mohammed Khaleed Almansoori,Mustansar Fiaz,Hisham Cholakkal
発行日 2023-10-31 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク