One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

要約

全身メッシュ復元は、1 つの画像から 3D の人体、顔、および手のパラメーターを推定することを目的としています。
解像度の問題により、単一のネットワークでこのタスクを実行することは困難です。つまり、通常、顔と手は非常に小さな領域に配置されます。
既存の作品は通常、手と顔を検出し、解像度を拡大して特定のネットワークにフィードし、パラメーターを予測し、最終的に結果を融合します。
このコピーと貼り付けのパイプラインは、顔と手の細かいディテールをキャプチャできますが、異なるパーツ間の接続は融合の後半で簡単に復元できず、信じがたい 3D 回転と不自然なポーズにつながります。
この作業では、各部分に個別のネットワークを使用せずに、OSX という名前の表現力豊かな全身メッシュ回復のための 1 段階のパイプラインを提案します。
具体的には、グローバル ボディ エンコーダーとローカルの顔/手のデコーダーで構成されるコンポーネント アウェア トランスフォーマー (CAT) を設計します。
エンコーダーは体のパラメーターを予測し、デコーダーに高品質の特徴マップを提供します。デコーダーは特徴レベルのアップサンプル クロップ スキームを実行して、高解像度のパーツ固有の特徴を抽出し、キーポイント ガイドによる変形可能な注意を採用して、手と顔を正確に推定します。
.
パイプライン全体は単純ですが、手作業による後処理がなくても効果的であり、信じがたい予測を自然に回避します。
包括的な実験により、OSX の有効性が実証されています。
最後に、高品質の 2D および 3D 全身アノテーションを含む大規模な上半身データセット (UBody) を構築します。
基本的なタスクと下流のアプリケーションとの間のギャップを埋めるために、さまざまな現実のシナリオで部分的に目に見える体を持つ人物が含まれています。

要約(オリジナル)

Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.

arxiv情報

著者 Jing Lin,Ailing Zeng,Haoqian Wang,Lei Zhang,Yu Li
発行日 2023-03-28 17:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク