LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network

要約

大規模な3次元人体キーポイント注釈を取得することが困難なため、これまでの3次元人体姿勢推定(HPE)手法は、多くの場合、2次元画像の特徴や逐次的な2次元注釈に依存していた。さらに、これらのネットワークの学習は、通常、人間のバウンディングボックスの予測と、3D点群と2D画像との正確な位置合わせを前提としており、実世界のシナリオに直接適用することは困難である。本論文では、LPFormerと名付けられた、エンドツーエンドの3D人体姿勢推定のための最初のフレームワークを紹介します。LPFormerは、対応する3DアノテーションとともにLiDARのみを入力として使用します。LPFormerは2つのステージから構成され、第一に、人間のバウンディングボックスを特定し、マルチレベルの特徴表現を抽出します。第二に、これらの特徴に基づいて人間のキーポイントを予測するために変換器ベースのネットワークを利用します。我々の手法は、3D HPEが強力なLiDAR知覚ネットワークにシームレスに統合され、ネットワークによって抽出された特徴から恩恵を受けることができることを示しています。Waymoオープンデータセットでの実験結果は、最先端の性能と、以前のマルチモーダルソリューションと比較しても改善されたことを実証している。

要約(オリジナル)

Due to the difficulty of acquiring large-scale 3D human keypoint annotation, previous methods for 3D human pose estimation (HPE) have often relied on 2D image features and sequential 2D annotations. Furthermore, the training of these networks typically assumes the prediction of a human bounding box and the accurate alignment of 3D point clouds with 2D images, making direct application in real-world scenarios challenging. In this paper, we present the 1st framework for end-to-end 3D human pose estimation, named LPFormer, which uses only LiDAR as its input along with its corresponding 3D annotations. LPFormer consists of two stages: firstly, it identifies the human bounding box and extracts multi-level feature representations, and secondly, it utilizes a transformer-based network to predict human keypoints based on these features. Our method demonstrates that 3D HPE can be seamlessly integrated into a strong LiDAR perception network and benefit from the features extracted by the network. Experimental results on the Waymo Open Dataset demonstrate the state-of-the-art performance, and improvements even compared to previous multi-modal solutions.

arxiv情報

著者 Dongqiangzi Ye,Yufei Xie,Weijia Chen,Zixiang Zhou,Lingting Ge,Hassan Foroosh
発行日 2024-03-02 22:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク