全身メッシュ復元は、1 つの画像から 3D の人体、顔、および手のパラメーターを推定することを目的としています。
このコピーと貼り付けのパイプラインは、顔と手の細かいディテールをキャプチャできますが、異なるパーツ間の接続は融合の後半で簡単に復元できず、信じがたい 3D 回転と不自然なポーズにつながります。
この作業では、各部分に個別のネットワークを使用せずに、OSX という名前の表現力豊かな全身メッシュ回復のための 1 段階のパイプラインを提案します。
具体的には、グローバル ボディ エンコーダーとローカルの顔/手のデコーダーで構成されるコンポーネント アウェア トランスフォーマー (CAT) を設計します。
エンコーダーは体のパラメーターを予測し、デコーダーに高品質の特徴マップを提供します。デコーダーは特徴レベルのアップサンプル クロップ スキームを実行して、高解像度のパーツ固有の特徴を抽出し、キーポイント ガイドによる変形可能な注意を採用して、手と顔を正確に推定します。
包括的な実験により、OSX の有効性が実証されています。
最後に、高品質の 2D および 3D 全身アノテーションを含む大規模な上半身データセット (UBody) を構築します。
Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.
著者 | Jing Lin,Ailing Zeng,Haoqian Wang,Lei Zhang,Yu Li |
発行日 | 2023-03-28 17:24:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google