要約
この論文では、インタラクティブなハンド メッシュとその相対的な動きを単眼入力から復元する堅牢なアプローチである 4DHands を紹介します。
私たちのアプローチは、さまざまな手の画像入力を処理するための統一されたソリューションの欠如と、画像内の 2 つの手の位置関係の無視という、以前の方法の 2 つの主要な制限に対処します。
これらの課題を克服するために、私たちは新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発しました。
具体的には、手のトークンに位置関係情報を埋め込む Relation-aware Two-Hand Tokenization (RAT) 手法を提案します。
このようにして、私たちのネットワークは片手入力と両手入力の両方を処理でき、手の相対位置を明示的に活用して、現実世界のシナリオにおける複雑な手の相互作用の再構築を容易にします。
このようなトークン化は 2 つの手の相対的な関係を示すため、より効果的な特徴の融合もサポートされます。
この目的を達成するために、私たちはさらに、4D のハンド トークンと注意を融合し、3D ハンド メッシュと相対的な時間的動きにデコードする時空間インタラクション推論 (SIR) モジュールを開発しました。
私たちのアプローチの有効性は、いくつかのベンチマーク データセットで検証されています。
現場のビデオと現実世界のシナリオでの結果は、インタラクティブな手の再構築に対する私たちのアプローチの優れたパフォーマンスを示しています。
その他のビデオ結果は、プロジェクト ページ https://4dhands.github.io でご覧いただけます。
要約(オリジナル)
In this paper, we introduce 4DHands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a transformer-based architecture with novel tokenization and feature fusion strategies. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a Spatio-temporal Interaction Reasoning (SIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://4dhands.github.io.
arxiv情報
著者 | Dixuan Lin,Yuxiang Zhang,Mengcheng Li,Yebin Liu,Wei Jing,Qi Yan,Qianying Wang,Hongwen Zhang |
発行日 | 2024-05-31 10:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google