A Spatio-Temporal Multilayer Perceptron for Gesture Recognition

要約

ジェスチャー認識は、自動運転車と人間との相互作用に不可欠です。
現在のアプローチは、画像の特徴、キーポイント、骨ベクトルなどのいくつかのモダリティの組み合わせに焦点を当てていますが、体の骨格の入力データのみで最先端の結果を提供するニューラル ネットワーク アーキテクチャを提示します。
自動運転車両におけるジェスチャ認識のための時空間多層パーセプトロンを提案します。
時間の経過に伴う 3D ボディ ポーズが与えられた場合、時間的および空間的なミキシング操作を定義して、両方のドメインの特徴を抽出します。
さらに、各時間ステップの重要性は、Squeeze-and-Excitation レイヤーで再重み付けされます。
私たちのアプローチの有望なパフォーマンスを紹介するために、TCG および Drive&Act データセットの広範な評価が提供されます。
さらに、モデルを自動運転車に展開して、そのリアルタイム機能と安定した実行を示します。

要約(オリジナル)

Gesture recognition is essential for the interaction of autonomous vehicles with humans. While the current approaches focus on combining several modalities like image features, keypoints and bone vectors, we present neural network architecture that delivers state-of-the-art results only with body skeleton input data. We propose the spatio-temporal multilayer perceptron for gesture recognition in the context of autonomous vehicles. Given 3D body poses over time, we define temporal and spatial mixing operations to extract features in both domains. Additionally, the importance of each time step is re-weighted with Squeeze-and-Excitation layers. An extensive evaluation of the TCG and Drive&Act datasets is provided to showcase the promising performance of our approach. Furthermore, we deploy our model to our autonomous vehicle to show its real-time capability and stable execution.

arxiv情報

著者 Adrian Holzbock,Alexander Tsaregorodtsev,Youssef Dawoud,Klaus Dietmayer,Vasileios Belagiannis
発行日 2022-08-18 11:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク