DINF: Dynamic Instance Noise Filter for Occluded Pedestrian Detection

要約

オクルージョンの問題は、歩行者検出における最大の課題です。
RCNN ベースの検出器は、特徴マップで関心のある四角形の領域をトリミングすることにより、インスタンスの特徴を抽出します。
ただし、オクルードされたオブジェクトの可視ピクセルは制限されているため、長方形のインスタンス機能は、インスタンスに関係のない多くのノイズ情報と混合されます。
さらに、CrowdHuman データセットのオーバーラップの程度が異なるインスタンスの数を数えることで、重度にオーバーラップするオブジェクトの数とわずかにオーバーラップするオブジェクトの数のバランスが崩れており、オクルージョンの問題によって引き起こされる課題が悪化する可能性があることがわかりました。
ノイズの問題に関しては、ノイズ除去の観点から、反復可能な動的インスタンス ノイズ フィルター (DINF) が RCNN ベースの歩行者検出器用に提案され、インスタンス フィーチャの信号対ノイズ比が改善されます。
ウェーブレット ノイズ除去プロセスをシミュレートし、インスタンスの特徴ベクトルを使用して動的畳み込みカーネルを生成し、RoI 特徴をほぼゼロの値がノイズ情報を表すドメインに変換します。
次に、チャネルごとの適応しきい値を使用したソフトしきい値処理を適用して、ゼロに近い値をゼロに変換し、ノイズ情報を除外します。
不均衡の問題については、IoU-Focal factor (IFF) を提案して、よく回帰したボックスと悪い回帰したボックスのトレーニング プロセスにおける損失への寄与を調整し、少数の重度にオーバーラップするオブジェクトにより注意を払います。
CrowdHuman と CityPersons で実施された広範な実験は、RCNN ベースの歩行者検出器が最先端のパフォーマンスを達成するのに私たちの方法が役立つことを示しています。

要約(オリジナル)

Occlusion issue is the biggest challenge in pedestrian detection. RCNN-based detectors extract instance features by cropping rectangle regions of interest in the feature maps. However, the visible pixels of the occluded objects are limited, making the rectangle instance feature mixed with a lot of instance-irrelevant noise information. Besides, by counting the number of instances with different degrees of overlap of CrowdHuman dataset, we find that the number of severely overlapping objects and the number of slightly overlapping objects are unbalanced, which may exacerbate the challenges posed by occlusion issues. Regarding to the noise issue, from the perspective of denoising, an iterable dynamic instance noise filter (DINF) is proposed for the RCNN-based pedestrian detectors to improve the signal-noise ratio of the instance feature. Simulating the wavelet denoising process, we use the instance feature vector to generate dynamic convolutional kernels to transform the RoIs features to a domain in which the near-zero values represent the noise information. Then, soft thresholding with channel-wise adaptive thresholds is applied to convert the near-zero values to zero to filter out noise information. For the imbalance issue, we propose an IoU-Focal factor (IFF) to modulate the contributions of the well-regressed boxes and the bad-regressed boxes to the loss in the training process, paying more attention to the minority severely overlapping objects. Extensive experiments conducted on CrowdHuman and CityPersons demonstrate that our methods can help RCNN-based pedestrian detectors achieve state-of-the-art performance.

arxiv情報

著者 Li Xiang,He Miao,Luo Haibo,Xiao Jiajie
発行日 2023-01-13 14:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク