要約
オクルージョン下での歩行者検出には、複数のカメラビュー(マルチビュー)を共同で考慮することが非常に効果的です。このようなマルチビューシステムでは、カメラの位置、方向、視野(FoV)を含むカメラ構成を適切に設計することが重要です。通常、これらの構成は人間の経験やヒューリスティックに基づいて作成される。この研究では、トランスフォーマベースのカメラ構成ジェネレータを特徴とする新しいソリューションを紹介します。強化学習を用いて、このジェネレータは自律的に行動空間内の膨大な組み合わせを探索し、訓練データセットに従って最も高い検出精度を与える構成を探索する。このジェネレータは、カバレージの最大化、オクルージョンの最小化、コラボレーションの促進といった高度なテクニックを学習する。複数のシミュレーションシナリオにおいて、我々の変換器ベースのモデルによって生成された構成は、ランダム探索、ヒューリスティックベースの手法、人間の専門家によって設計された構成を一貫して凌駕し、将来のカメラレイアウト最適化に光を当てる。
要約(オリジナル)
Jointly considering multiple camera views (multi-view) is very effective for pedestrian detection under occlusion. For such multi-view systems, it is critical to have well-designed camera configurations, including camera locations, directions, and fields-of-view (FoVs). Usually, these configurations are crafted based on human experience or heuristics. In this work, we present a novel solution that features a transformer-based camera configuration generator. Using reinforcement learning, this generator autonomously explores vast combinations within the action space and searches for configurations that give the highest detection accuracy according to the training dataset. The generator learns advanced techniques like maximizing coverage, minimizing occlusion, and promoting collaboration. Across multiple simulation scenarios, the configurations generated by our transformer-based model consistently outperform random search, heuristic-based methods, and configurations designed by human experts, shedding light on future camera layout optimization.
arxiv情報
著者 | Yunzhong Hou,Xingjian Leng,Tom Gedeon,Liang Zheng |
発行日 | 2023-12-04 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |