要約
エゴセントリックな視点からの手の動きとポーズを予測することは、人間の意図を理解するために不可欠です。
ただし、既存の方法は、関節を考慮せずに位置を予測することにのみ焦点を当て、視野で手が見えている場合にのみです。
この制限は、カメラのビューの外にいる場合でも、おおよその手位置がまだ推測できるという事実を見落としています。
このホワイトペーパーでは、視野内外のエゴセントリックビデオから両手の3D軌道とポーズを予測する方法を提案します。
観測シーケンスとカメラのポーズを入力するために、エゴセントリックハンド予測であるEGOH4の拡散ベースの変圧器アーキテクチャを提案し、将来の3Dモーションを予測し、カメラ着用者の両手のポーズを予測します。
全身ポーズ情報を活用して、他のジョイントが手の動きに制約を提供できるようにします。
ハンドジョイントの視認性予測因子と、手と2Dから2Dへの再注射の損失とともに、手と体の関節を除去し、手が視聴されているときのエラーを最小限に抑えます。
サブセットとボディおよびハンドアノテーションを組み合わせて、EGO-EXO4DデータセットでEGOH4を評価します。
156Kシーケンスでトレーニングし、それぞれ34Kシーケンスで評価します。
EGOH4は、手軌跡予測のADEおよび手ポーズ予測のMPJPEの観点から、ベースラインで3.4cmおよび5.1cmのパフォーマンスを改善します。
プロジェクトページ:https://masashi-hatano.github.io/egoh4/
要約(オリジナル)
Forecasting hand motion and pose from an egocentric perspective is essential for understanding human intention. However, existing methods focus solely on predicting positions without considering articulation, and only when the hands are visible in the field of view. This limitation overlooks the fact that approximate hand positions can still be inferred even when they are outside the camera’s view. In this paper, we propose a method to forecast the 3D trajectories and poses of both hands from an egocentric video, both in and out of the field of view. We propose a diffusion-based transformer architecture for Egocentric Hand Forecasting, EgoH4, which takes as input the observation sequence and camera poses, then predicts future 3D motion and poses for both hands of the camera wearer. We leverage full-body pose information, allowing other joints to provide constraints on hand motion. We denoise the hand and body joints along with a visibility predictor for hand joints and a 3D-to-2D reprojection loss that minimizes the error when hands are in-view. We evaluate EgoH4 on the Ego-Exo4D dataset, combining subsets with body and hand annotations. We train on 156K sequences and evaluate on 34K sequences, respectively. EgoH4 improves the performance by 3.4cm and 5.1cm over the baseline in terms of ADE for hand trajectory forecasting and MPJPE for hand pose forecasting. Project page: https://masashi-hatano.github.io/EgoH4/
arxiv情報
著者 | Masashi Hatano,Zhifan Zhu,Hideo Saito,Dima Damen |
発行日 | 2025-04-11 15:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google