VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-Supervision

要約

タイトル:VLPD:Vision-Language Semantic Self-Supervisionを介した文脈に対応した歩行者検出

要約:
– 都市シーンでの正確な歩行者検出は、自動運転やビデオ監視などの現実的なアプリケーションにとって重要である。
– しかしながら、人間に似た混乱するオブジェクトは誤った検出を引き起こし、小さなスケールや強いオクルージョンがある歩行者はその珍しい外観のために簡単に見逃される。
– これらの問題に対処するために、物体領域のみでは不十分であり、より明示的で意味のある文脈をどのように完全に活用するかが重要な問題となる。
– 一方、前の文脈に対応した歩行者検出は、視覚的な手がかりで潜在的な文脈のみを学習するか、明示的で意味のある文脈を取得するために手間のかかる注釈が必要となる。
– したがって、我々は本論文で提案したVision-Language semantic self-supervisionによる文脈に対応したPedestrian Detection(VLPD)を介して、追加の注釈なしで明示的な意味的文脈をモデル化する新しいアプローチを提案する。
– まず、Vision-Language Semantic(VLS)セグメンテーション法を自己教育型で提案する。これにより、視覚言語モデルによる明示的なセマンティッククラスの自己生成されたラベルにより、完全に教師付きの歩行者検出および文脈セグメンテーションを学習する。
– さらに、視覚言語的文脈からより明示的な意味のある文脈を基に、自己教育型のPrototypical Semantic Contrastive(PSC)学習法を提案し、歩行者と他のクラスをより良く区別することを改善する。
– 人気のあるベンチマークでの詳細な実験により、提案されたVLPDは、特に小さなスケールや激しいオクルージョンなどの困難な状況下で、過去の最新技術に比べて優れた性能を発揮することが示されている。
– コードはhttps://github.com/lmy98129/VLPDで利用可能である。

要約(オリジナル)

Detecting pedestrians accurately in urban scenes is significant for realistic applications like autonomous driving or video surveillance. However, confusing human-like objects often lead to wrong detections, and small scale or heavily occluded pedestrians are easily missed due to their unusual appearances. To address these challenges, only object regions are inadequate, thus how to fully utilize more explicit and semantic contexts becomes a key problem. Meanwhile, previous context-aware pedestrian detectors either only learn latent contexts with visual clues, or need laborious annotations to obtain explicit and semantic contexts. Therefore, we propose in this paper a novel approach via Vision-Language semantic self-supervision for context-aware Pedestrian Detection (VLPD) to model explicitly semantic contexts without any extra annotations. Firstly, we propose a self-supervised Vision-Language Semantic (VLS) segmentation method, which learns both fully-supervised pedestrian detection and contextual segmentation via self-generated explicit labels of semantic classes by vision-language models. Furthermore, a self-supervised Prototypical Semantic Contrastive (PSC) learning method is proposed to better discriminate pedestrians and other classes, based on more explicit and semantic contexts obtained from VLS. Extensive experiments on popular benchmarks show that our proposed VLPD achieves superior performances over the previous state-of-the-arts, particularly under challenging circumstances like small scale and heavy occlusion. Code is available at https://github.com/lmy98129/VLPD.

arxiv情報

著者 Mengyin Liu,Jie Jiang,Chao Zhu,Xu-Cheng Yin
発行日 2023-04-06 15:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク