Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle

要約

車両の前進運動が大きいため、車両から収集した映像から 3D 再構成を行うことは困難です。
物体検出および人間検知モデルであっても、標準の物体検出ベンチマークと比較すると、オンボード ビデオではパフォーマンスが大幅に低下します。これは、標準の物体検出ベンチマークと比較して物体がカメラから遠くに表示されることが多く、モーション ブラーによって画質が低下することが多く、オクルージョンが頻繁に発生するためです。
これにより、トラフィック データ固有のベンチマークが普及しました。
最近では、3D 再構成を実行せずに深度を直接推定できる Light Detection And Ranging (LiDAR) センサーが普及しています。
ただし、LiDAR ベースの方法は、画像ベースの方法と比較すると、離れた位置での明確な人間の検出がまだ不足しています。
私たちは、LiDAR データからの人間の明確なセンシングを対象としたベンチマークにより、交通における人間のセンシングと予測の研究が増加し、歩行者の交通安全の向上につながる可能性があると仮説を立てています。

要約(オリジナル)

It is difficult to perform 3D reconstruction from on-vehicle gathered video due to the large forward motion of the vehicle. Even object detection and human sensing models perform significantly worse on onboard videos when compared to standard benchmarks because objects often appear far away from the camera compared to the standard object detection benchmarks, image quality is often decreased by motion blur and occlusions occur often. This has led to the popularisation of traffic data-specific benchmarks. Recently Light Detection And Ranging (LiDAR) sensors have become popular to directly estimate depths without the need to perform 3D reconstructions. However, LiDAR-based methods still lack in articulated human detection at a distance when compared to image-based methods. We hypothesize that benchmarks targeted at articulated human sensing from LiDAR data could bring about increased research in human sensing and prediction in traffic and could lead to improved traffic safety for pedestrians.

arxiv情報

著者 Maria Priisalu
発行日 2023-09-12 15:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク