MAD: Makeup All-in-One with Cross-Domain Diffusion Model

要約

既存のメイクアップ技術では、異なる入力を処理するために複数のモデルを設計し、異なるメイクアップタスク(例えば、ビューティーフィルター、メイクアップトランスファー、メイクアップリムーバル)のドメイン間で特徴を揃える必要があることが多く、複雑さが増している。もう一つの限界は、参照画像を必要とせず、よりユーザーフレンドリーである、テキストガイド付きのメイクアップ試着がないことである。本研究では、様々なメイクアップタスクに単一のモデルを使用する初めての試みを行う。具体的には、異なるメイクアップタスクを領域横断的な翻訳として定式化し、領域横断的な拡散モデルを活用してすべてのタスクを達成する。エンコーダとデコーダの別々の構成やサイクルベースのメカニズムに依存する既存の方法とは異なり、我々はドメイン制御を容易にするために異なるドメイン埋め込みを使用することを提案する。これにより、単一のモデルでエンベッディングを変更するだけで、シームレスなドメイン切り替えが可能になり、異なるタスクのための追加モジュールへの依存を減らすことができる。さらに、正確なtext-to-makeupアプリケーションをサポートするために、MTデータセットをテキスト注釈で拡張したMT-Textデータセットを導入し、メイクアップ技術の実用性を進める。

要約(オリジナル)

Existing makeup techniques often require designing multiple models to handle different inputs and align features across domains for different makeup tasks, e.g., beauty filter, makeup transfer, and makeup removal, leading to increased complexity. Another limitation is the absence of text-guided makeup try-on, which is more user-friendly without needing reference images. In this study, we make the first attempt to use a single model for various makeup tasks. Specifically, we formulate different makeup tasks as cross-domain translations and leverage a cross-domain diffusion model to accomplish all tasks. Unlike existing methods that rely on separate encoder-decoder configurations or cycle-based mechanisms, we propose using different domain embeddings to facilitate domain control. This allows for seamless domain switching by merely changing embeddings with a single model, thereby reducing the reliance on additional modules for different tasks. Moreover, to support precise text-to-makeup applications, we introduce the MT-Text dataset by extending the MT dataset with textual annotations, advancing the practicality of makeup technologies.

arxiv情報

著者 Bo-Kai Ruan,Hong-Han Shuai
発行日 2025-04-03 12:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク