MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation

要約

この文書では、テキスト指示と複数の衣服画像を入力として受け取ることにより、高品質の合成試着結果を生成できる、マルチモーダル マルチリファレンス VIrtual Try-ON (VITON) フレームワークである MMTryon を紹介します。
当社の MMTryon は、先行文献で見落とされていた 3 つの問題に対処します。 1) 複数の試着アイテムのサポート。
既存の方法は一般に、単一アイテムの試着タスク (上衣/下衣、ドレスなど) 向けに設計されています。
2)着付けスタイルの指定。
既存の方法では、指示に基づいてドレッシング スタイルをカスタマイズすることはできません (例: ジッパーの開閉、タックイン/タックアウトなど)。 3) セグメンテーションの依存性。
さらに、置換領域を特定するためにカテゴリ固有のセグメンテーション モデルに大きく依存しており、セグメンテーション エラーは試着結果の重大なアーチファクトに直接つながります。
最初の 2 つの問題に対処するために、MMTryon は新しいマルチモダリティおよびマルチリファレンス アテンション メカニズムを導入し、参照画像からの衣服情報とテキスト指示からの服装スタイル情報を組み合わせます。
さらに、セグメンテーションの依存関係を取り除くために、MMTryon は解析不要のガーメント エンコーダーを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存の VITON データセットを、明示的なセグメンテーションを必要とせずに MMTryon をトレーニングできる形式に変換します。
高解像度ベンチマークと実際のテストセットに関する広範な実験により、MMTryon が既存の SOTA メソッドよりも定性的および定量的に優れていることが実証されました。
マルチアイテムおよびスタイル制御可能な仮想試着シナリオにおける MMTryon の優れたパフォーマンスと、あらゆるソース画像からさまざまなシナリオであらゆる衣装を試着できる機能により、ファッション コミュニティにおける将来の調査に新たな道が開かれます。

要約(オリジナル)

This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking a text instruction and multiple garment images as inputs. Our MMTryon addresses three problems overlooked in prior literature: 1) Support of multiple try-on items. Existing methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses). 2)Specification of dressing style. Existing methods are unable to customize dressing styles based on instructions (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 3) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. To address the first two issues, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon’s superiority over existing SOTA methods both qualitatively and quantitatively. MMTryon’s impressive performance on multi-item and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.

arxiv情報

著者 Xujie Zhang,Ente Lin,Xiu Li,Yuxuan Luo,Michael Kampffmeyer,Xin Dong,Xiaodan Liang
発行日 2024-11-19 14:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク