Geometry-Biased Transformer for Robust Multi-View 3D Human Pose Reconstruction

要約

私たちは、オクルージョン下および限られた重複ビューで複数のビューから 3D 人間のポーズを推定する際の課題に取り組みます。
我々は、回帰問題としてマルチビューの一人の 3D 人間のポーズ再構成にアプローチし、マルチビューの 2D ポーズ シーケンスから 3D ポーズを推定するための新しいエンコーダ/デコーダ Transformer アーキテクチャを提案します。
エンコーダは、さまざまなビューと時間にわたって検出された 2D スケルトン ジョイントを洗練し、グローバルなセルフ アテンションを通じてマルチビューと時間情報を融合します。
ジオメトリに偏った注意メカニズムを組み込むことでエンコーダを強化し、ビュー間の幾何学的関係を効果的に活用します。
さらに、2D 姿勢検出器によって提供される検出スコアを使用して、2D 検出の信頼性に基づいてエンコーダの注意をさらに導きます。
その後、デコーダは、各関節に対する事前定義されたクエリを使用して、これらの洗練されたトークンから 3D ポーズ シーケンスを回帰します。
目に見えないシーンに対する手法の一般化を強化し、欠落したジョイントに対する回復力を向上させるために、シーンのセンタリング、合成ビュー、トークンのドロップアウトなどの戦略を実装します。
私たちは、Human3.6M、CMU Panoptic、Occlusion-persons という 3 つのベンチマーク公開データセットに対して広範な実験を行っています。
私たちの結果は、特にオクルージョンされたシーンや利用可能なビューがほとんどない場合、つまり三角測量ベースの方法では伝統的に困難なシナリオである場合に、私たちのアプローチの有効性を示しています。

要約(オリジナル)

We address the challenges in estimating 3D human poses from multiple views under occlusion and with limited overlapping views. We approach multi-view, single-person 3D human pose reconstruction as a regression problem and propose a novel encoder-decoder Transformer architecture to estimate 3D poses from multi-view 2D pose sequences. The encoder refines 2D skeleton joints detected across different views and times, fusing multi-view and temporal information through global self-attention. We enhance the encoder by incorporating a geometry-biased attention mechanism, effectively leveraging geometric relationships between views. Additionally, we use detection scores provided by the 2D pose detector to further guide the encoder’s attention based on the reliability of the 2D detections. The decoder subsequently regresses the 3D pose sequence from these refined tokens, using pre-defined queries for each joint. To enhance the generalization of our method to unseen scenes and improve resilience to missing joints, we implement strategies including scene centering, synthetic views, and token dropout. We conduct extensive experiments on three benchmark public datasets, Human3.6M, CMU Panoptic and Occlusion-Persons. Our results demonstrate the efficacy of our approach, particularly in occluded scenes and when few views are available, which are traditionally challenging scenarios for triangulation-based methods.

arxiv情報

著者 Olivier Moliner,Sangxia Huang,Kalle Åström
発行日 2023-12-28 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク