TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On

要約

Virtual Try-On(VTO)の最近の進歩は、現実的な画像を生成し、衣服の詳細を保存する際に並外れた有効性を実証しました。
ただし、これらの方法を支えるT2Iモデルは時代遅れになっているため、VTOのさらなる改善の可能性が制限されています。
さらに、現在の方法は、歪みや材料の忠実度など、歪みや微粒子の詳細を保存することなく、衣服にテキストを正確にレンダリングする際に顕著な課題に直面しています。
拡散トランス(DIT)ベースのT2Iモデルの出現は、印象的なパフォーマンスを紹介し、VTOを前進させるための有望な機会を提供します。
既存のVTO技術をトランスベースのT2Iモデルに直接適用することは、実質的なアーキテクチャの違いのために効果がありません。これにより、テキスト生成の改善のためにモデルの高度な機能を完全に活用する能力が妨げられます。
これらの課題に対処し、VTOのDITベースのT2Iモデルの可能性を最大限に発揮するために、TED-Vitonを提案します。TEDVitonは、衣服固有の特徴を強化するための衣服セマンティック(GS)アダプターを統合する新しいフレームワーク、テキストの保存損失、正確で歪みのないテキストレンダリングを確保し、大規模な言語モデルを最適化するための解釈メカニズムを確保するための新しいフレームワークを提案します(LLM)。
これらのイノベーションにより、視覚品質とテキストの忠実度で最先端の(SOTA)パフォーマンスが可能になり、VTOタスクの新しいベンチマークが確立されます。
プロジェクトページ:https://zhenchenwan.github.io/ted-viton/

要約(オリジナル)

Recent advancements in Virtual Try-On (VTO) have demonstrated exceptional efficacy in generating realistic images and preserving garment details, largely attributed to the robust generative capabilities of text-to-image (T2I) diffusion backbones. However, the T2I models that underpin these methods have become outdated, thereby limiting the potential for further improvement in VTO. Additionally, current methods face notable challenges in accurately rendering text on garments without distortion and preserving fine-grained details, such as textures and material fidelity. The emergence of Diffusion Transformer (DiT) based T2I models has showcased impressive performance and offers a promising opportunity for advancing VTO. Directly applying existing VTO techniques to transformer-based T2I models is ineffective due to substantial architectural differences, which hinder their ability to fully leverage the models’ advanced capabilities for improved text generation. To address these challenges and unlock the full potential of DiT-based T2I models for VTO, we propose TED-VITON, a novel framework that integrates a Garment Semantic (GS) Adapter for enhancing garment-specific features, a Text Preservation Loss to ensure accurate and distortion-free text rendering, and a constraint mechanism to generate prompts by optimizing Large Language Model (LLM). These innovations enable state-of-the-art (SOTA) performance in visual quality and text fidelity, establishing a new benchmark for VTO task. Project page: https://zhenchenwan.github.io/TED-VITON/

arxiv情報

著者 Zhenchen Wan,Yanwu Xu,Zhaoqing Wang,Feng Liu,Tongliang Liu,Mingming Gong
発行日 2025-03-11 17:42:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク