要約
一般的なテキストから画像へのモデルは、芸術、デザイン、メディアの分野に革命的な革新をもたらします。
ただし、衣服の生成に適用すると、最先端のテキストから画像へのモデルでも、特に衣服のコンポーネントの量、位置、相互関係に関して、細かい意味論的な不整合が発生します。
これに対処するために、検索強化されたマルチレベル修正でトレーニングされたテキストから衣服への拡散モデルである GarmentAligner を提案します。
コンポーネントレベルでセマンティックな調整を実現するために、自動コンポーネント抽出パイプラインを導入し、対応する画像とキャプションから衣類コンポーネントの空間的および定量的な情報を取得します。
続いて、衣類画像内のコンポーネントの関係を利用するために、コンポーネントレベルの類似性ランキングに基づく検索拡張によって各衣類の検索サブセットを構築し、対照学習を実行して、ポジティブサンプルとネガティブサンプルからのコンポーネントのモデル認識を強化します。
意味論的、空間的、量的粒度にわたるコンポーネントの調整をさらに強化するために、詳細なコンポーネント情報を活用するマルチレベルの補正損失の利用を提案します。
実験結果は、GarmentAligner が既存の競合他社と比較して、優れた忠実性ときめ細かいセマンティック アライメントを実現していることを示しています。
要約(オリジナル)
General text-to-image models bring revolutionary innovation to the fields of arts, design, and media. However, when applied to garment generation, even the state-of-the-art text-to-image models suffer from fine-grained semantic misalignment, particularly concerning the quantity, position, and interrelations of garment components. Addressing this, we propose GarmentAligner, a text-to-garment diffusion model trained with retrieval-augmented multi-level corrections. To achieve semantic alignment at the component level, we introduce an automatic component extraction pipeline to obtain spatial and quantitative information of garment components from corresponding images and captions. Subsequently, to exploit component relationships within the garment images, we construct retrieval subsets for each garment by retrieval augmentation based on component-level similarity ranking and conduct contrastive learning to enhance the model perception of components from positive and negative samples. To further enhance the alignment of components across semantic, spatial, and quantitative granularities, we propose the utilization of multi-level correction losses that leverage detailed component information. The experimental findings demonstrate that GarmentAligner achieves superior fidelity and fine-grained semantic alignment when compared to existing competitors.
arxiv情報
著者 | Shiyue Zhang,Zheng Chong,Xujie Zhang,Hanhui Li,Yuhao Cheng,Yiqiang Yan,Xiaodan Liang |
発行日 | 2024-08-23 05:01:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google