Text-guided Eyeglasses Manipulation with Spatial Constraints




– この研究は、仮想試着において異なる形状やスタイルのメガネを顔画像に配置する方法を提案している。
– 既存の手法は印象的な結果を示しているが、メガネのスタイルの種類は限られており、相互作用が直感的または効率的であるとは限らない。
– これらの制限に対応するため、本研究では、バイナリマスクとテキストに基づいてメガネの形状とスタイルを制御できる「テキスト誘導型メガネの操作法」を提案している。
– 具体的には、マスクエンコーダを導入してマスク条件を抽出し、同時にテキストとマスク条件を注入できる調整モジュールを導入して、テキストの説明と空間制約に基づいてメガネの外観を微細に制御できるようにした。
– 本研究では、disentangled mapperとdecoupling strategyを含め、多様なメガネスタイルを実現しながら無関係な領域を保持する解析戦略を提案しており、2段階トレーニングスキームを使用して、異なるモダリティ条件の収束速度を扱っている。
– 多数の比較実験と抜粋分析により、本手法が、無関係な領域を保持しながら、多様なメガネスタイルを実現するのに効果的であることが示された。


Virtual try-on of eyeglasses involves placing eyeglasses of different shapes and styles onto a face image without physically trying them on. While existing methods have shown impressive results, the variety of eyeglasses styles is limited and the interactions are not always intuitive or efficient. To address these limitations, we propose a Text-guided Eyeglasses Manipulation method that allows for control of the eyeglasses shape and style based on a binary mask and text, respectively. Specifically, we introduce a mask encoder to extract mask conditions and a modulation module that enables simultaneous injection of text and mask conditions. This design allows for fine-grained control of the eyeglasses’ appearance based on both textual descriptions and spatial constraints. Our approach includes a disentangled mapper and a decoupling strategy that preserves irrelevant areas, resulting in better local editing. We employ a two-stage training scheme to handle the different convergence speeds of the various modality conditions, successfully controlling both the shape and style of eyeglasses. Extensive comparison experiments and ablation analyses demonstrate the effectiveness of our approach in achieving diverse eyeglasses styles while preserving irrelevant areas.


著者 Jiacheng Wang,Ping Liu,Jingen Liu,Wei Xu
発行日 2023-04-25 03:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク