要約
構成的なファッション画像を生成するための FashionComposer を紹介します。
以前の方法とは異なり、FashionComposer は非常に柔軟性があります。
マルチモーダル入力 (つまり、テキスト プロンプト、パラメトリック人間モデル、衣服画像、顔画像) を受け取り、人間の外観、ポーズ、体型のパーソナライズと 1 回のパスでの複数の衣服の割り当てをサポートします。
これを達成するために、私たちはまず、多様な入力モダリティを処理できる汎用フレームワークを開発します。
スケーリングされたトレーニング データを構築して、モデルの堅牢な構成機能を強化します。
複数の参照画像 (衣服や顔) をシームレスに収容するために、これらの参照を「アセット ライブラリ」として 1 つの画像に整理し、参照 UNet を使用して外観の特徴を抽出します。
生成された結果の正しいピクセルに外観特徴を注入するために、主題結合注意を提案します。
さまざまな「アセット」の外観特徴を、対応するテキスト特徴とバインドします。
このようにして、モデルはセマンティクスに従って各アセットを理解し、任意の数とタイプの参照画像をサポートできます。
包括的なソリューションとして、FashionComposer は人間によるアルバムの生成、さまざまな仮想試着タスクなど、他の多くのアプリケーションもサポートしています。
要約(オリジナル)
We present FashionComposer for compositional fashion image generation. Unlike previous methods, FashionComposer is highly flexible. It takes multi-modal input (i.e., text prompt, parametric human model, garment image, and face image) and supports personalizing the appearance, pose, and figure of the human and assigning multiple garments in one pass. To achieve this, we first develop a universal framework capable of handling diverse input modalities. We construct scaled training data to enhance the model’s robust compositional capabilities. To accommodate multiple reference images (garments and faces) seamlessly, we organize these references in a single image as an ‘asset library’ and employ a reference UNet to extract appearance features. To inject the appearance features into the correct pixels in the generated result, we propose subject-binding attention. It binds the appearance features from different ‘assets’ with the corresponding text features. In this way, the model could understand each asset according to their semantics, supporting arbitrary numbers and types of reference images. As a comprehensive solution, FashionComposer also supports many other applications like human album generation, diverse virtual try-on tasks, etc.
arxiv情報
著者 | Sihui Ji,Yiyang Wang,Xi Chen,Xiaogang Xu,Hao Luo,Hengshuang Zhao |
発行日 | 2024-12-19 11:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google