Neural Voting Field for Camera-Space 3D Hand Pose Estimation

要約

タイトル:カメラ空間3D手のポーズ推定のためのニューラル投票フィールド

要約:

– ニューロン投票フィールド(NVF)と呼ばれる3D暗黙の表現に基づいて、カメラ空間3D手のポーズ推定のための単一のRGB画像のための統合的なフレームワークを提案している
– 現在の多くの作品とは対照的に、私たちは、相対3D手のポーズを得るためにまず全体的またはピクセルレベルの密な回帰を採用し、その後3Dグローバルルートまたはスケールの回復のための複雑な第2段階操作に従うものが多い。私たちは、カメラ錐体内の密な3Dポイントワイズ投票によるカメラ空間3D手のポーズを推定するための新しい統合された3D密な回帰スキームを提案している。
– ピクセルに沿った3Dディテール再構築のPixel-aligned Implicit Functionsにインスパイアされた3D領域での直接的な密なモデリングを通じて、ネットワークは3Dの密なローカルエビデンスと手のグローバルジオメトリを完全にモデル化し、一般的な2D-to-3Dの不確実性を軽減するのに役立ちます。
– カメラ錐体内の3Dクエリポイントおよびそのピクセルに整列した画像特徴に対して、NVFは、(i)手表面への符号付き距離、および(ii)4Dオフセットベクトルセット(手の各関節に対する1D投票重みと3D方向ベクトル)を回帰します。投票のキャスト方式に従って、近表面点からの4Dオフセットベクトルが選択され、加重平均によって3D手関節座標が計算されます。
– NVFは、FreiHANDデータセットにおいてカメラ空間3D手のポーズ推定において既存の最先端アルゴリズムよりも優れた性能を示し、HO3Dデータセットにおいてもルート相対3D手のポーズ推定のクラシックなタスクにNVFを適応することによって最新の結果を示しました。

要約(オリジナル)

We present a unified framework for camera-space 3D hand pose estimation from a single RGB image based on 3D implicit representation. As opposed to recent works, most of which first adopt holistic or pixel-level dense regression to obtain relative 3D hand pose and then follow with complex second-stage operations for 3D global root or scale recovery, we propose a novel unified 3D dense regression scheme to estimate camera-space 3D hand pose via dense 3D point-wise voting in camera frustum. Through direct dense modeling in 3D domain inspired by Pixel-aligned Implicit Functions for 3D detailed reconstruction, our proposed Neural Voting Field (NVF) fully models 3D dense local evidence and hand global geometry, helping to alleviate common 2D-to-3D ambiguities. Specifically, for a 3D query point in camera frustum and its pixel-aligned image feature, NVF, represented by a Multi-Layer Perceptron, regresses: (i) its signed distance to the hand surface; (ii) a set of 4D offset vectors (1D voting weight and 3D directional vector to each hand joint). Following a vote-casting scheme, 4D offset vectors from near-surface points are selected to calculate the 3D hand joint coordinates by a weighted average. Experiments demonstrate that NVF outperforms existing state-of-the-art algorithms on FreiHAND dataset for camera-space 3D hand pose estimation. We also adapt NVF to the classic task of root-relative 3D hand pose estimation, for which NVF also obtains state-of-the-art results on HO3D dataset.

arxiv情報

著者 Lin Huang,Chung-Ching Lin,Kevin Lin,Lin Liang,Lijuan Wang,Junsong Yuan,Zicheng Liu
発行日 2023-05-07 16:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク