要約
DNN の開発により、歩行者の検出は近年大幅に進歩しました。
ただし、オクルージョンによって歩行者のクラス内分散が増加し、モデルが歩行者と背景のクラッターの間の正確な分類境界を見つけることが妨げられるため、オクルージョンされたシーンでの検出パフォーマンスはまだ満足のいくものとは程遠いです。
クラス内分散を減らすという観点から、さまざまなオクルージョン パターンにわたって歩行者の特徴を揃えるために、オクルージョンされた領域の特徴を完成させることを提案します。
フィーチャを完成させるための重要な前提は、遮蔽された領域を特定することです。
私たちの分析によると、さまざまな歩行者提案のチャネル特徴は、目に見える部分でのみ高い相関値を示すため、特徴相関を使用してオクルージョン パターンをモデル化できます。
完成した特徴と実際の完全に可視の特徴との間のギャップを狭めるために、我々は、識別器によって実際の完全に可視の特徴とほとんど区別できないように、ジェネレータを用いて遮蔽された特徴を完成させる敵対的学習方法を提案する。
CityPeoples、Caltech、CrowdHuman データセットに関する実験結果を報告します。
Citypersons では、特にヘビー オクルージョン サブセットにおいて、5 つの異なるベースライン検出器に比べて大幅な改善が見られます。
さらに、私たちが提案した手法 FeatComp++ が、余分な手がかりに依存せずに、上記の 3 つのデータセットすべてに対して最先端の結果を達成できることを示します。
要約(オリジナル)
Pedestrian detection has significantly progressed in recent years, thanks to the development of DNNs. However, detection performance at occluded scenes is still far from satisfactory, as occlusion increases the intra-class variance of pedestrians, hindering the model from finding an accurate classification boundary between pedestrians and background clutters. From the perspective of reducing intra-class variance, we propose to complete features for occluded regions so as to align the features of pedestrians across different occlusion patterns. An important premise for feature completion is to locate occluded regions. From our analysis, channel features of different pedestrian proposals only show high correlation values at visible parts and thus feature correlations can be used to model occlusion patterns. In order to narrow down the gap between completed features and real fully visible ones, we propose an adversarial learning method, which completes occluded features with a generator such that they can hardly be distinguished by the discriminator from real fully visible features. We report experimental results on the CityPersons, Caltech and CrowdHuman datasets. On CityPersons, we show significant improvements over five different baseline detectors, especially on the heavy occlusion subset. Furthermore, we show that our proposed method FeatComp++ achieves state-of-the-art results on all the above three datasets without relying on extra cues.
arxiv情報
著者 | Shanshan Zhang,Mingqian Ji,Yang Li,Jian Yang |
発行日 | 2024-05-02 14:20:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google