要約
ロボットは安全のために周囲にいる人を認識し、彼らと対話する必要があります。
この論文では、半球視野 LiDAR センサーの 3D スキャンで動作する人物のセグメンテーションと行動分類のアプローチを紹介します。
私たちは、人が 3 つの異なる動作を実行するシーンから構成されるデータ セットを Ouster OSDome-64 センサーで記録し、それに注釈を付けました。
我々は、追加の位置エンコーディングを備えた LiDAR データの球面投影マルチチャネル表現を組み合わせて、人物を検出およびセグメント化し、その行動を認識する、MaskDINO モデルに基づく方法を提案します。
私たちのアプローチは、人物のセグメンテーションタスクで優れたパフォーマンスを示し、さらに、歩く、手を振る、座るなどの人物の行動状態の推定でも優れたパフォーマンスを示します。
アブレーション研究により、人物セグメンテーション タスクに対する個々のチャネルの寄与に関する洞察が得られます。
トレーニングされたモデル、コード、データセットは公開されています。
要約(オリジナル)
Robots need to perceive persons in their surroundings for safety and to interact with them. In this paper, we present a person segmentation and action classification approach that operates on 3D scans of hemisphere field of view LiDAR sensors. We recorded a data set with an Ouster OSDome-64 sensor consisting of scenes where persons perform three different actions and annotated it. We propose a method based on a MaskDINO model to detect and segment persons and to recognize their actions from combined spherical projected multi-channel representations of the LiDAR data with an additional positional encoding. Our approach demonstrates good performance for the person segmentation task and further performs well for the estimation of the person action states walking, waving, and sitting. An ablation study provides insights about the individual channel contributions for the person segmentation task. The trained models, code and dataset are made publicly available.
arxiv情報
著者 | Svetlana Seliunina,Artem Otelepko,Raphael Memmesheimer,Sven Behnke |
発行日 | 2024-11-17 18:53:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google