要約
モバイルロボットには、環境、特にその近くにある人間の知識が必要です。
人間を検出するための最も一般的なアプローチにはコンピュータービジョンが含まれますが、人を検出するためのロボットのしばしば見落とされがちなハードウェア機能は、2Dレンジファインダーです。
これらはもともと、障害物の回避とマッピング/スラムタスクを目的としていました。
ほとんどのロボットでは、足首と膝の間の高さに便利に配置されているため、人を検出するためにも使用でき、カメラと比較してより大きな視野と深さ解像度で使用できます。
このホワイトペーパーでは、Frogと呼ばれる膝ハイ2Dレンジファインダーを使用して、人を検出するための新しいデータセットを紹介します。
このデータセットには、ドラウなどの既存のデータセットと比較して、レーザー解像度、スキャン周波数、およびより完全な注釈データがあります。
特に、カエルデータセットには、レーザースキャンの100%の注釈が含まれています(5%の注釈のみのドラウとは異なります)、17倍の注釈付きスキャン、100倍多くの人々の注釈、およびロボットが移動する距離の2倍にわたって。
カエルデータセットに基づいてベンチマークを提案し、2Dレンジファインダーデータに基づいて最先端の人々検出器のコレクションを分析します。
また、人を検出するための新しいエンドツーエンドのディープラーニングアプローチを提案および評価します。
当社のソリューションは、生センサーデータを直接直接(手作りした入力データ機能を必要としない)ため、CPUの前処理を回避し、特定のドメインヒューリスティックを理解する開発者をリリースします。
実験結果は、提案された人々検出器が最先端に匹敵する結果をどのように達成するかを示し、ROSの最適化された実装は500 Hz以上で動作することができます。
要約(オリジナル)
Mobile robots require knowledge of the environment, especially of humans located in its vicinity. While the most common approaches for detecting humans involve computer vision, an often overlooked hardware feature of robots for people detection are their 2D range finders. These were originally intended for obstacle avoidance and mapping/SLAM tasks. In most robots, they are conveniently located at a height approximately between the ankle and the knee, so they can be used for detecting people too, and with a larger field of view and depth resolution compared to cameras. In this paper, we present a new dataset for people detection using knee-high 2D range finders called FROG. This dataset has greater laser resolution, scanning frequency, and more complete annotation data compared to existing datasets such as DROW. Particularly, the FROG dataset contains annotations for 100% of its laser scans (unlike DROW which only annotates 5%), 17x more annotated scans, 100x more people annotations, and over twice the distance traveled by the robot. We propose a benchmark based on the FROG dataset, and analyze a collection of state-of-the-art people detectors based on 2D range finder data. We also propose and evaluate a new end-to-end deep learning approach for people detection. Our solution works with the raw sensor data directly (not needing hand-crafted input data features), thus avoiding CPU preprocessing and releasing the developer of understanding specific domain heuristics. Experimental results show how the proposed people detector attains results comparable to the state of the art, while an optimized implementation for ROS can operate at more than 500 Hz.
arxiv情報
著者 | Fernando Amodeo,Noé Pérez-Higueras,Luis Merino,Fernando Caballero |
発行日 | 2025-06-11 08:14:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google