SketchBodyNet: A Sketch-Driven Multi-faceted Decoder Network for 3D Human Reconstruction

要約

2D 画像から 3D 人間の形状を再構成することは、多くの高レベル 3D アプリケーションの基本的なサポートにより、最近ますます注目を集めています。
自然画像と比較して、フリーハンド スケッチはさまざまな形状を描写するのにはるかに柔軟であり、3D 人間の再構成に高い可能性と価値のある方法を提供します。
ただし、このような作業は非常に困難です。
スケッチのまばらな抽象的な特徴は、2D から 3D への再構成というすでに深刻な問題を抱えている問題に、恣意性、不正確さ、画像の詳細の欠如などの深刻な困難を追加します。
現在の方法は、単一ビューの画像から 3D 人体を再構成することに大きな成功を収めていますが、フリーハンドのスケッチではうまく機能しません。
この論文では、このタスクに対処するために、SketchBodyNet と呼ばれる新しいスケッチ駆動の多面デコーダ ネットワークを提案します。
具体的には、ネットワークはバックボーンと 3 つの個別のアテンション デコーダ ブランチで構成され、各デコーダでマルチヘッド セルフ アテンション モジュールが利用されて強化された機能が取得され、その後に多層パーセプトロンが続きます。
多面デコーダは、それぞれカメラ、形状、姿勢パラメータを予測することを目的としており、これらのパラメータは SMPL モデルに関連付けられて、対応する 3D ヒューマン メッシュを再構築します。
学習では、既存の 3D メッシュがカメラ パラメーターを介してジョイントのある 2D 合成スケッチに投影され、フリーハンド スケッチと組み合わせてモデルを最適化します。
私たちの方法を検証するために、約 26,000 のフリーハンド スケッチからなる大規模なデータセットと、14 の異なる角度からの人体のさまざまなポーズを含むそれに対応する 3D メッシュを収集します。
広範な実験結果は、SketchBodyNet がフリーハンド スケッチから 3D ヒューマン メッシュを再構築する際に優れたパフォーマンスを達成することを実証しています。

要約(オリジナル)

Reconstructing 3D human shapes from 2D images has received increasing attention recently due to its fundamental support for many high-level 3D applications. Compared with natural images, freehand sketches are much more flexible to depict various shapes, providing a high potential and valuable way for 3D human reconstruction. However, such a task is highly challenging. The sparse abstract characteristics of sketches add severe difficulties, such as arbitrariness, inaccuracy, and lacking image details, to the already badly ill-posed problem of 2D-to-3D reconstruction. Although current methods have achieved great success in reconstructing 3D human bodies from a single-view image, they do not work well on freehand sketches. In this paper, we propose a novel sketch-driven multi-faceted decoder network termed SketchBodyNet to address this task. Specifically, the network consists of a backbone and three separate attention decoder branches, where a multi-head self-attention module is exploited in each decoder to obtain enhanced features, followed by a multi-layer perceptron. The multi-faceted decoders aim to predict the camera, shape, and pose parameters, respectively, which are then associated with the SMPL model to reconstruct the corresponding 3D human mesh. In learning, existing 3D meshes are projected via the camera parameters into 2D synthetic sketches with joints, which are combined with the freehand sketches to optimize the model. To verify our method, we collect a large-scale dataset of about 26k freehand sketches and their corresponding 3D meshes containing various poses of human bodies from 14 different angles. Extensive experimental results demonstrate our SketchBodyNet achieves superior performance in reconstructing 3D human meshes from freehand sketches.

arxiv情報

著者 Fei Wang,Kongzhang Tang,Hefeng Wu,Baoquan Zhao,Hao Cai,Teng Zhou
発行日 2023-10-10 12:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク