要約
単一の画像から3Dヘアジオメトリを生成するタスクに対処します。これは、髪型の多様性とペアの画像間の髪のデータの欠如のために困難です。
以前の方法は、主に合成データで訓練されており、ガイドストランドや頭皮レベルの埋め込みなどの低次元の中間表現を使用して、そのようなデータの限られた量に対処し、デコード、アップサンプル、リアリズムを追加する必要があります。
これらのアプローチは、詳細な髪を再構築したり、巻き毛で闘ったり、少数の髪型のみを処理することに限定されていません。
これらの制限を克服するために、単一の画像から直接多種多様なヘアスタイルの詳細な再構築を可能にする新しいフレームワークであるDifflocksを提案します。
まず、40kのヘアスタイルを含むこれまでで最大の合成ヘアデータセットの作成を自動化することにより、3Dヘアデータの欠如に対処します。
第二に、合成ヘアデータセットを活用して、単一の正面画像から正確な3Dストランドを生成する画像条件付き拡散トランスフマーモデルを学習します。
前処理された画像バックボーンを使用することにより、合成データのみで訓練されているにもかかわらず、この方法は野生の画像に一般化されます。
拡散モデルは、マップ内の任意のポイントに個々の髪鎖の潜在コードが含まれる頭皮テクスチャマップを予測します。
これらのコードは、ポスト処理技術なしに3Dストランドに直接デコードされます。
ガイドストランドの代わりに、個々のストランドを表すことで、トランスが複雑な髪型の詳細な空間構造をモデル化できます。
これにより、Difflocksは、アフロヘアスタイルのように、初めて単一の画像から非常にカールした髪を回復できます。
データとコードはhttps://radualexandru.github.io/difflocks/で入手できます。
要約(オリジナル)
We address the task of generating 3D hair geometry from a single image, which is challenging due to the diversity of hairstyles and the lack of paired image-to-3D hair data. Previous methods are primarily trained on synthetic data and cope with the limited amount of such data by using low-dimensional intermediate representations, such as guide strands and scalp-level embeddings, that require post-processing to decode, upsample, and add realism. These approaches fail to reconstruct detailed hair, struggle with curly hair, or are limited to handling only a few hairstyles. To overcome these limitations, we propose DiffLocks, a novel framework that enables detailed reconstruction of a wide variety of hairstyles directly from a single image. First, we address the lack of 3D hair data by automating the creation of the largest synthetic hair dataset to date, containing 40K hairstyles. Second, we leverage the synthetic hair dataset to learn an image-conditioned diffusion-transfomer model that generates accurate 3D strands from a single frontal image. By using a pretrained image backbone, our method generalizes to in-the-wild images despite being trained only on synthetic data. Our diffusion model predicts a scalp texture map in which any point in the map contains the latent code for an individual hair strand. These codes are directly decoded to 3D strands without post-processing techniques. Representing individual strands, instead of guide strands, enables the transformer to model the detailed spatial structure of complex hairstyles. With this, DiffLocks can recover highly curled hair, like afro hairstyles, from a single image for the first time. Data and code is available at https://radualexandru.github.io/difflocks/
arxiv情報
著者 | Radu Alexandru Rosu,Keyu Wu,Yao Feng,Youyi Zheng,Michael J. Black |
発行日 | 2025-05-09 16:16:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google