要約
大規模なテキストから画像へのモデルは、自然言語を使用して画像を生成する機能に革命をもたらしました。
ただし、ペットや家具など、特にユニークまたは個人的なビジュアル コンセプトは、元のモデルには反映されません。
これにより、テキストから画像へのモデルをパーソナライズする方法に関心が集まりました。
大きな進歩にもかかわらず、この課題は依然として手ごわい課題であり、特に被験者のアイデンティティを維持するという点において顕著である。
ほとんどの研究者は、モデル アーキテクチャを変更することでこの問題に対処しようとしています。
これらの方法では、主題の構造と色を保持できますが、アイデンティティの詳細は保持できません。
この問題に対して、私たちのアプローチはデータ中心の視点を採用しています。
テキストと画像の両方のレベルで新しい正則化データセット生成戦略を導入します。
この戦略により、モデルはテキストやロゴなど、目的の主題の詳細を保持することができます。
私たちの方法はアーキテクチャに依存せず、さまざまなテキストから画像へのモデルに柔軟に適用できます。
私たちは、確立されたベンチマークで、データ中心のアプローチがアイデンティティの保持とテキストの配置の点で新しい最先端を形成していることを示しています。
要約(オリジナル)
Large text-to-image models have revolutionized the ability to generate imagery using natural language. However, particularly unique or personal visual concepts, such as pets and furniture, will not be captured by the original model. This has led to interest in how to personalize a text-to-image model. Despite significant progress, this task remains a formidable challenge, particularly in preserving the subject’s identity. Most researchers attempt to address this issue by modifying model architectures. These methods are capable of keeping the subject structure and color but fail to preserve identity details. Towards this issue, our approach takes a data-centric perspective. We introduce a novel regularization dataset generation strategy on both the text and image level. This strategy enables the model to preserve fine details of the desired subjects, such as text and logos. Our method is architecture-agnostic and can be flexibly applied on various text-to-image models. We show on established benchmarks that our data-centric approach forms the new state of the art in terms of identity preservation and text alignment.
arxiv情報
著者 | Xingzhe He,Zhiwen Cao,Nicholas Kolkin,Lantao Yu,Kun Wan,Helge Rhodin,Ratheesh Kalarot |
発行日 | 2024-03-14 17:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google