要約
移動ロボットには環境、特にその近くにいる人間についての知識が必要です。
人間を検出するための最も一般的なアプローチにはコンピューター ビジョンが含まれますが、人間を検出するためのロボットのハードウェア機能で見落とされがちなのが 2D 距離計です。
これらは元々、障害物回避とマッピング/SLAM タスクを目的としていました。
ほとんどのロボットでは、足首と膝の間くらいの高さに便利に配置されているため、人間の検出にも使用でき、カメラに比べて広い視野と深度解像度を備えています。
この論文では、FROG と呼ばれる膝高の 2D 距離計を使用した人物検出のための新しいデータセットを紹介します。
このデータセットは、DROW などの既存のデータセットと比較して、レーザー解像度、スキャン頻度が高く、より完全なアノテーション データを備えています。
特に、FROG データセットには、レーザー スキャンの 100% に対するアノテーション (5% のみにアノテーションを付ける DROW とは異なります)、17 倍のアノテーション付きスキャン、100 倍以上の人物のアノテーション、およびロボットの移動距離の 2 倍以上が含まれています。
FROG データセットに基づいたベンチマークを提案し、2D レンジファインダー データに基づいて最先端の人物検出器のコレクションを分析します。
また、人物検出のための新しいエンドツーエンドの深層学習アプローチを提案し、評価します。
当社のソリューションは、生のセンサー データを直接処理するため (手作りの入力データ機能は必要ありません)、CPU の前処理を回避し、開発者が特定のドメインのヒューリスティックを理解する必要がなくなります。
実験結果は、提案された人物検出器が最先端技術と同等の結果を達成する一方で、ROS 用に最適化された実装が 500 Hz 以上で動作できることを示しています。
要約(オリジナル)
Mobile robots require knowledge of the environment, especially of humans located in its vicinity. While the most common approaches for detecting humans involve computer vision, an often overlooked hardware feature of robots for people detection are their 2D range finders. These were originally intended for obstacle avoidance and mapping/SLAM tasks. In most robots, they are conveniently located at a height approximately between the ankle and the knee, so they can be used for detecting people too, and with a larger field of view and depth resolution compared to cameras. In this paper, we present a new dataset for people detection using knee-high 2D range finders called FROG. This dataset has greater laser resolution, scanning frequency, and more complete annotation data compared to existing datasets such as DROW. Particularly, the FROG dataset contains annotations for 100% of its laser scans (unlike DROW which only annotates 5%), 17x more annotated scans, 100x more people annotations, and over twice the distance traveled by the robot. We propose a benchmark based on the FROG dataset, and analyze a collection of state-of-the-art people detectors based on 2D range finder data. We also propose and evaluate a new end-to-end deep learning approach for people detection. Our solution works with the raw sensor data directly (not needing hand-crafted input data features), thus avoiding CPU preprocessing and releasing the developer of understanding specific domain heuristics. Experimental results show how the proposed people detector attains results comparable to the state of the art, while an optimized implementation for ROS can operate at more than 500 Hz.
arxiv情報
著者 | Fernando Amodeo,Noé Pérez-Higueras,Luis Merino,Fernando Caballero |
発行日 | 2023-06-14 14:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google