要約
画像編集は、多数のアプリケーションに広範囲に影響を与えるため、研究コミュニティにおいて長年の課題となっています。
最近、テキスト駆動の手法が人間の顔などの領域で有望な結果をもたらし始めましたが、より複雑な領域への応用は比較的限られています。
この研究では、ファッション スタイル編集のタスクを探求します。そこでは、テキストの説明を使用して人間のイメージのファッション スタイルを操作することを目的としています。
具体的には、生成的な人間の事前分布を活用し、その学習された潜在空間をナビゲートすることでファッション スタイルの編集を実現します。
まず、既存のテキスト駆動編集方法では、ガイダンス信号が簡略化されすぎているために問題を解決できないことを検証し、ガイダンスを強化するための 2 つの方向性、テキストの拡張と視覚的な参照を提案します。
潜在空間構造に関する経験的発見と組み合わせた当社のファッション スタイル編集フレームワーク (FaSE) は、抽象的なファッション概念を人間のイメージに投影することに成功し、この分野にエキサイティングな新しいアプリケーションを導入します。
要約(オリジナル)
Image editing has been a long-standing challenge in the research community with its far-reaching impact on numerous applications. Recently, text-driven methods started to deliver promising results in domains like human faces, but their applications to more complex domains have been relatively limited. In this work, we explore the task of fashion style editing, where we aim to manipulate the fashion style of human imagery using text descriptions. Specifically, we leverage a generative human prior and achieve fashion style editing by navigating its learned latent space. We first verify that the existing text-driven editing methods fall short for our problem due to their overly simplified guidance signal, and propose two directions to reinforce the guidance: textual augmentation and visual referencing. Combined with our empirical findings on the latent space structure, our Fashion Style Editing framework (FaSE) successfully projects abstract fashion concepts onto human images and introduces exciting new applications to the field.
arxiv情報
著者 | Chaerin Kong,Seungyong Lee,Soohyeok Im,Wonsuk Yang |
発行日 | 2024-04-02 14:22:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google