MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation

要約

この文書では、テキスト指示と複数の衣服画像を入力として受け取ることにより、高品質の合成試着結果を生成できる、マルチモーダル マルチリファレンス VIrtual Try-ON (VITON) フレームワークである MMTryon を紹介します。
当社の MMTryon は主に、先行文献で見落とされていた 2 つの問題に対処します。 1) 複数の試着アイテムと服装スタイルのサポート 既存の方法は一般に、単一アイテムの試着タスク (例: 上衣/下衣、ドレス) 用に設計されており、カスタマイズが不十分です。
ドレッシング スタイル (例: ジッパー付き/ジッパーなし、タックイン/タックアウトなど) 2) セグメンテーションの依存性。
さらに、置換領域を特定するためにカテゴリ固有のセグメンテーション モデルに大きく依存しており、セグメンテーション エラーは試着結果の重大なアーチファクトに直接つながります。
最初の問題では、MMTryon は、参照画像からの衣服情報とテキスト指示からの服装スタイル情報を組み合わせる、新しいマルチモダリティおよびマルチリファレンス アテンション メカニズムを導入します。
さらに、セグメンテーションの依存関係を取り除くために、MMTryon は解析不要のガーメント エンコーダーを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存の VITON データセットを、明示的なセグメンテーションを必要とせずに MMTryon をトレーニングできる形式に変換します。
高解像度ベンチマークと実際のテストセットに関する広範な実験により、MMTryon が既存の SOTA メソッドよりも定性的および定量的に優れていることが実証されました。
さらに、複数のアイテムとスタイル制御可能な仮想試着シナリオにおける MMTryon の優れたパフォーマンスと、あらゆるソース画像からさまざまなシナリオであらゆる服装を試着できる機能により、ファッション コミュニティにおける将来の調査に新たな道が開かれます。

要約(オリジナル)

This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking as inputs a text instruction and multiple garment images. Our MMTryon mainly addresses two problems overlooked in prior literature: 1) Support of multiple try-on items and dressing styleExisting methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses) and fall short on customizing dressing styles (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 2) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. For the first issue, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon’s superiority over existing SOTA methods both qualitatively and quantitatively. Besides, MMTryon’s impressive performance on multi-items and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.

arxiv情報

著者 Xujie Zhang,Ente Lin,Xiu Li,Yuxuan Luo,Michael Kampffmeyer,Xin Dong,Xiaodan Liang
発行日 2024-05-01 11:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク