要約
テキストから画像へのモデルのカスタマイズにおける最近の進歩により、新しい概念といくつかの例を統合することの重要性が強調されています。
しかし、これらの進歩は主に広く認識されている主題に限定されており、モデルが適切に共有する事前知識を通じて比較的簡単に学習できます。
対照的に、ロゴは独特のパターンとテキスト要素を特徴としており、普及モデル内で共有知識を確立することが難しいため、特有の課題が生じます。
このギャップを埋めるために、ロゴを挿入するタスクを導入します。
私たちの目標は、ロゴのアイデンティティを拡散モデルに挿入し、さまざまな状況でそれらのシームレスな合成を可能にすることです。
この課題に取り組むための新しい 2 フェーズ パイプライン LogoSticker を紹介します。
まず、アクターと批評家の関係事前トレーニング アルゴリズムを提案します。これは、ロゴの潜在的な空間位置や他のオブジェクトとの相互作用に関するモデルの理解における自明ではないギャップに対処します。
次に、ロゴの正確な位置特定とアイデンティティ抽出を可能にする、分離されたアイデンティティ学習アルゴリズムを提案します。
LogoSticker は、さまざまな状況で正確かつ調和のとれたロゴを生成できます。
カスタマイズ方法やDALLE~3などの大規模モデルに対するLogoStickerの有効性を総合的に検証します。
\href{https://mingkangz.github.io/logosticker}{プロジェクト ページ}。
要約(オリジナル)
Recent advances in text-to-image model customization have underscored the importance of integrating new concepts with a few examples. Yet, these progresses are largely confined to widely recognized subjects, which can be learned with relative ease through models’ adequate shared prior knowledge. In contrast, logos, characterized by unique patterns and textual elements, are hard to establish shared knowledge within diffusion models, thus presenting a unique challenge. To bridge this gap, we introduce the task of logo insertion. Our goal is to insert logo identities into diffusion models and enable their seamless synthesis in varied contexts. We present a novel two-phase pipeline LogoSticker to tackle this task. First, we propose the actor-critic relation pre-training algorithm, which addresses the nontrivial gaps in models’ understanding of the potential spatial positioning of logos and interactions with other objects. Second, we propose a decoupled identity learning algorithm, which enables precise localization and identity extraction of logos. LogoSticker can generate logos accurately and harmoniously in diverse contexts. We comprehensively validate the effectiveness of LogoSticker over customization methods and large models such as DALLE~3. \href{https://mingkangz.github.io/logosticker}{Project page}.
arxiv情報
著者 | Mingkang Zhu,Xi Chen,Zhongdao Wang,Hengshuang Zhao,Jiaya Jia |
発行日 | 2024-07-18 17:54:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google