Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes based on Monocular Camera and Single LiDAR

要約

奥行きの推定は、通常、単眼カメラに基づく 3D の複数人の姿勢の推定では不適切であり、あいまいです。
LiDAR は長距離シーンで正確な深度情報を取得できるため、豊富なジオメトリ機能を提供することで、個人のグローバル ローカリゼーションと 3D 姿勢推定の両方にメリットがあります。
これに動機付けられて、大規模なシーンでの3D複数人の姿勢推定のための単眼カメラと単一のLiDARベースの方法を提案します。これは、展開が簡単で、光の影響を受けません。
具体的には、画像や点群などのマルチモーダル入力データを活用する効果的な融合戦略を設計し、自然で一貫した人間の動きを学習するようにネットワークを導くために時間情報を最大限に活用します。
3D ポーズ アノテーションに依存することなく、私たちの方法は自己監視のために点群固有のジオメトリ制約を利用し、弱い監視のために画像上の 2D キーポイントを利用します。
公開データセットと新しく収集したデータセットに関する広範な実験により、提案した方法の優位性と一般化機能が実証されました。

要約(オリジナル)

Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.

arxiv情報

著者 Peishan Cong,Yiteng Xu,Yiming Ren,Juze Zhang,Lan Xu,Jingya Wang,Jingyi Yu,Yuexin Ma
発行日 2022-11-30 12:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク