要約
手は他のオブジェクトによって遮られることが多いため、1 つの RGB 画像から手のメッシュを再構築するのは困難な作業です。
これまでの研究のほとんどは、より多くの追加情報を探索し、3D 再構築のパフォーマンスを向上させるためのアテンション メカニズムを採用しようと試みていますが、同時に計算の複雑さも増加します。
高い計算効率でパフォーマンスを確保したアーキテクチャを実現するために、この研究では、ハンド メッシュ再構成のタスクに状態空間モデルを初めて組み込んだ、シンプルだが効果的な 3D ハンド メッシュ再構成ネットワーク (つまり、HandS3C) を提案します。
。
ネットワークでは、有効受容野を拡張し、空間次元で手の特徴を抽出し、チャネル次元で手の局所的特徴を強化する、新しい状態空間空間チャネル注意モジュールを設計します。
これは、完全かつ詳細なハンド メッシュを再構築するのに役立ちます。
重度のオクルージョンに直面するよく知られたデータセット (FREIHAND、DEXYCB、HO3D など) に対して行われた広範な実験により、私たちが提案する HandS3C が最小限のパラメーターを維持しながら最先端のパフォーマンスを達成することが実証されました。
要約(オリジナル)
Reconstructing the hand mesh from one single RGB image is a challenging task because hands are often occluded by other objects. Most previous works attempt to explore more additional information and adopt attention mechanisms for improving 3D reconstruction performance, while it would increase computational complexity simultaneously. To achieve a performance-reserving architecture with high computational efficiency, in this work, we propose a simple but effective 3D hand mesh reconstruction network (i.e., HandS3C), which is the first time to incorporate state space model into the task of hand mesh reconstruction. In the network, we design a novel state-space spatial-channel attention module that extends the effective receptive field, extracts hand features in the spatial dimension, and enhances regional features of hands in the channel dimension. This helps to reconstruct a complete and detailed hand mesh. Extensive experiments conducted on well-known datasets facing heavy occlusions (such as FREIHAND, DEXYCB, and HO3D) demonstrate that our proposed HandS3C achieves state-of-the-art performance while maintaining a minimal parameters.
arxiv情報
著者 | Zixun Jiao,Xihan Wang,Zhaoqiang Xia,Lianhe Shao,Quanli Gao |
発行日 | 2024-05-14 11:47:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google