OmniHands: Towards Robust 4D Hand Mesh Recovery via A Versatile Transformer

要約

この論文では、単眼または多視点入力からインタラクティブなハンド メッシュとその相対的な動きを復元するための普遍的なアプローチである OmniHands を紹介します。
私たちのアプローチは、さまざまな手の画像入力を処理するための統一されたソリューションの欠如と、画像内の 2 つの手の位置関係の無視という、以前の方法の 2 つの主要な制限に対処します。
これらの課題を克服するために、私たちはさまざまなタスクに適応できる、新しいトークン化とコンテキスト機能融合戦略を備えたユニバーサル アーキテクチャを開発します。
具体的には、手のトークンに位置関係情報を埋め込む Relation-aware Two-Hand Tokenization (RAT) 手法を提案します。
このようにして、私たちのネットワークは片手入力と両手入力の両方を処理でき、手の相対位置を明示的に活用して、現実世界のシナリオにおける複雑な手の相互作用の再構築を容易にします。
このようなトークン化は 2 つの手の相対的な関係を示すため、より効果的な特徴の融合もサポートされます。
この目的を達成するために、4D ハンド トークンと注意を融合し、3D ハンド メッシュと相対的な時間的動きにデコードする 4D インタラクション推論 (FIR) モジュールをさらに開発しました。
私たちのアプローチの有効性は、いくつかのベンチマーク データセットで検証されています。
現場のビデオと現実世界のシナリオでの結果は、インタラクティブな手の再構築に対する私たちのアプローチの優れたパフォーマンスを示しています。
その他のビデオ結果は、プロジェクト ページ https://OmniHand.github.io でご覧いただけます。

要約(オリジナル)

In this paper, we introduce OmniHands, a universal approach to recovering interactive hand meshes and their relative movement from monocular or multi-view inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a universal architecture with novel tokenization and contextual feature fusion strategies, capable of adapting to a variety of tasks. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a 4D Interaction Reasoning (FIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://OmniHand.github.io.

arxiv情報

著者 Dixuan Lin,Yuxiang Zhang,Mengcheng Li,Yebin Liu,Wei Jing,Qi Yan,Qianying Wang,Hongwen Zhang
発行日 2024-10-01 15:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク