要約
視覚操作タスクでは、画像内容を意味的に意味のある特徴で表現することを目指している。しかし、画像から暗黙的な表現を学習することは、特に属性が絡み合っている場合、しばしば解釈可能性に欠ける。我々は、2次元画像データから分離された3次元属性のみを抽出するという困難なタスクに着目する。具体的には、人間の外見に注目し、RGB画像から服を着た人間の姿勢、形状、衣服の表現を暗黙的に学習する。本手法は、これら3つの画像属性を分離した潜在的な表現を持つ埋め込みを学習し、2Dから3Dのエンコーダ・デコーダ構造を通じて、特徴の有意な再集合と特性制御を可能にする。3次元モデルは、学習された埋め込み空間における特徴マップのみから推定される。我々の知る限り、本手法は、この非常に制約の多い問題に対して、初めて領域横断的な逆接続を実現したものである。我々は、仮想データ上の3D再構成において、我々のフレームワークがポーズ、形状、衣服を転送する能力を定性的、定量的に示し、暗黙の形状損失が、細かい再構成の詳細を回復するモデルの能力にどのように利益をもたらすかを示す。
要約(オリジナル)
For visual manipulation tasks, we aim to represent image content with semantically meaningful features. However, learning implicit representations from images often lacks interpretability, especially when attributes are intertwined. We focus on the challenging task of extracting disentangled 3D attributes only from 2D image data. Specifically, we focus on human appearance and learn implicit pose, shape and garment representations of dressed humans from RGB images. Our method learns an embedding with disentangled latent representations of these three image properties and enables meaningful re-assembling of features and property control through a 2D-to-3D encoder-decoder structure. The 3D model is inferred solely from the feature map in the learned embedding space. To the best of our knowledge, our method is the first to achieve cross-domain disentanglement for this highly under-constrained problem. We qualitatively and quantitatively demonstrate our framework’s ability to transfer pose, shape, and garments in 3D reconstruction on virtual data and show how an implicit shape loss can benefit the model’s ability to recover fine-grained reconstruction details.
arxiv情報
| 著者 | Xue Hu,Xinghui Li,Benjamin Busam,Yiren Zhou,Ales Leonardis,Shanxin Yuan |
| 発行日 | 2022-08-05 13:48:43+00:00 |
| arxivサイト | arxiv_id(pdf) |