要約
自律型車両が日常の交通における人間のジェスチャーを理解し、反応できるようにするための共同カメラとレーダーのアプローチを提示します。
最初に、レーダー データを PointNet で処理し、続いて時空間多層パーセプトロン (stMLP) を処理します。
これとは別に、人体のポーズがカメラ フレームから抽出され、別の stMLP ネットワークで処理されます。
各モダリティの補助損失を含む、両方のモダリティの融合ニューラル ネットワークを提案します。
収集したデータセットを使用した実験では、2 つのモダリティによるジェスチャ認識の利点を示します。
悪天候に動機付けられて、センサーの1つが機能を欠いている場合にも有望なパフォーマンスを示します.
要約(オリジナル)
We present a joint camera and radar approach to enable autonomous vehicles to understand and react to human gestures in everyday traffic. Initially, we process the radar data with a PointNet followed by a spatio-temporal multilayer perceptron (stMLP). Independently, the human body pose is extracted from the camera frame and processed with a separate stMLP network. We propose a fusion neural network for both modalities, including an auxiliary loss for each modality. In our experiments with a collected dataset, we show the advantages of gesture recognition with two modalities. Motivated by adverse weather conditions, we also demonstrate promising performance when one of the sensors lacks functionality.
arxiv情報
| 著者 | Adrian Holzbock,Nicolai Kern,Christian Waldschmidt,Klaus Dietmayer,Vasileios Belagiannis |
| 発行日 | 2023-02-20 14:18:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google