FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models

要約

実物そっくりの衣服を着た人間の画像のモデリングと作成は、高度に表現され構造化されたコンテンツによる複雑さにより、数十年にわたってさまざまな分野の研究者の注目を集めてきました。
レンダリング アルゴリズムは、カメラのイメージング プロセスを分解してシミュレートしますが、モデル化された変数の精度と計算の効率によって制限されます。
生成モデルは、印象的に鮮やかな人間の画像を生成できますが、それでも制御性と編集性が不足しています。
この論文では、レンダリングの制御されたベースに基づいて拡散モデルからの生成力を活用して、レンダリングされたイメージのフォトリアリズムの強化を研究します。
レンダリングされたイメージを現実的な対応物に変換するための新しいフレームワークを導入します。これは、ドメイン ナレッジ インジェクション (DKI) とリアリスティック イメージ生成 (RIG) の 2 つのステージで構成されます。
DKI では、ポジティブ (リアル) ドメイン微調整とネガティブ (レンダリング) ドメイン埋め込みを採用して、事前トレーニングされた Text-to-image (T2I) 拡散モデルに知識を注入します。
RIG では、UNet 構造にエンコードされた分離された特徴を利用して、きめの細かい衣服のテクスチャを保存するテクスチャ保存アテンション コントロール (TAC) を使用して、入力レンダリング イメージに対応するリアルなイメージを生成します。
さらに、さまざまなテクスチャを備えた高品質のデジタル衣類画像を特徴とする SynFashion データセットも紹介します。
広範な実験結果により、レンダリング画像から実際の画像への変換における私たちの方法の優位性と有効性が実証されています。

要約(オリジナル)

Modeling and producing lifelike clothed human images has attracted researchers’ attention from different areas for decades, with the complexity from highly articulated and structured content. Rendering algorithms decompose and simulate the imaging process of a camera, while are limited by the accuracy of modeled variables and the efficiency of computation. Generative models can produce impressively vivid human images, however still lacking in controllability and editability. This paper studies photorealism enhancement of rendered images, leveraging generative power from diffusion models on the controlled basis of rendering. We introduce a novel framework to translate rendered images into their realistic counterparts, which consists of two stages: Domain Knowledge Injection (DKI) and Realistic Image Generation (RIG). In DKI, we adopt positive (real) domain finetuning and negative (rendered) domain embedding to inject knowledge into a pretrained Text-to-image (T2I) diffusion model. In RIG, we generate the realistic image corresponding to the input rendered image, with a Texture-preserving Attention Control (TAC) to preserve fine-grained clothing textures, exploiting the decoupled features encoded in the UNet structure. Additionally, we introduce SynFashion dataset, featuring high-quality digital clothing images with diverse textures. Extensive experimental results demonstrate the superiority and effectiveness of our method in rendered-to-real image translation.

arxiv情報

著者 Rui Hu,Qian He,Gaofeng He,Jiedong Zhuang,Huang Chen,Huafeng Liu,Huamin Wang
発行日 2024-10-18 12:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク