Efficient Human Pose Estimation via 3D Event Point Cloud

要約

RGB画像に基づく人物姿勢推定(HPE)は、ディープラーニングの恩恵を受け、急速な発展を遂げている。しかし、イベントベースのHPEは十分に研究されておらず、極端なシーンや効率が重要な条件でのアプリケーションに大きな可能性を残している。本論文では、3Dイベント点群から直接2D人物の姿勢を推定することに初めて成功した。我々は、小さなタイムスライスの同じ位置のイベントを集約した、ラスタライズドイベント点群という新しいイベントの表現を提案する。これは、複数の統計的手がかりから得られる3次元的特徴を維持し、メモリ消費量と計算量を大幅に削減するもので、我々の研究において効率的であることが証明されている。次に、ラスタライズしたイベントポイントクラウドを3つの異なるバックボーン、ポイントネット、DGCNN、ポイントトランスファーの入力として活用し、2つの線形レイヤーデコーダで人間のキーポイントの位置を予測する。本手法に基づき、PointNetはより高速に有望な結果を達成し、Point Transfomerは従来のイベントフレームベースの手法に近い、より高い精度を達成することが分かった。また、提案手法は、イベントドリブン型人物姿勢推定において、これらの3Dバックボーンモデルに対して一貫して有効であることが、一連の包括的な結果から示されている。2048点の入力を持つPointNetに基づく我々の手法は、DHP19データセットにおいてMPJPE3Dで82.46mmを達成する一方、NVIDIA Jetson Xavier NXエッジコンピューティングプラットフォームでは、イベントカメラによるリアルタイム検知に理想的に適した12.29msのレイテンシーしか持ちません。コードは、https://github.com/MasterHow/EventPointPose で公開される予定です。

要約(オリジナル)

Human Pose Estimation (HPE) based on RGB images has experienced a rapid development benefiting from deep learning. However, event-based HPE has not been fully studied, which remains great potential for applications in extreme scenes and efficiency-critical conditions. In this paper, we are the first to estimate 2D human pose directly from 3D event point cloud. We propose a novel representation of events, the rasterized event point cloud, aggregating events on the same position of a small time slice. It maintains the 3D features from multiple statistical cues and significantly reduces memory consumption and computation complexity, proved to be efficient in our work. We then leverage the rasterized event point cloud as input to three different backbones, PointNet, DGCNN, and Point Transformer, with two linear layer decoders to predict the location of human keypoints. We find that based on our method, PointNet achieves promising results with much faster speed, whereas Point Transfomer reaches much higher accuracy, even close to previous event-frame-based methods. A comprehensive set of results demonstrates that our proposed method is consistently effective for these 3D backbone models in event-driven human pose estimation. Our method based on PointNet with 2048 points input achieves 82.46mm in MPJPE3D on the DHP19 dataset, while only has a latency of 12.29ms on an NVIDIA Jetson Xavier NX edge computing platform, which is ideally suitable for real-time detection with event cameras. Code will be made publicly at https://github.com/MasterHow/EventPointPose.

arxiv情報

著者 Jiaan Chen,Hao Shi,Yaozu Ye,Kailun Yang,Lei Sun,Kaiwei Wang
発行日 2022-06-09 13:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク