FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

要約

テキストから画像への生成における最近の進歩により、さまざまな用途で高品質の画像を作成できるようになりました。
ただし、特にアートや写真の専門家ではない人にとって、必要な視覚的属性を正確に説明することは困難な場合があります。
直感的な解決策には、ソース画像から好ましい属性を採用することが含まれます。
現在の方法では、ソース画像からアイデンティティとスタイルを抽出しようとします。
ただし、「スタイル」はテクスチャ、色、芸術的要素を含む広範な概念ですが、照明やダイナミクスなどの他の重要な属性はカバーしません。
さらに、単純化された「スタイル」適応により、異なるソースからの複数の属性を 1 つの生成画像に結合することができなくなります。
この研究では、画像の美しさを特定の視覚的属性に分解するためのより効果的なアプローチを策定し、ユーザーがさまざまな画像から照明、テクスチャ、ダイナミクスなどの特性を適用できるようにします。
この目標を達成するために、私たちは知る限りで最初のきめの細かい視覚属性データセット (FiVA) を構築しました。
この FiVA データセットは、視覚属性のよく整理された分類法を特徴としており、視覚属性の注釈が付いた約 100 万枚の生成された高品質画像が含まれています。
このデータセットを活用して、1 つ以上のソース画像から視覚属性を分離して、生成された画像に適応させる、きめ細かい視覚属性適応フレームワーク (FiVA-Adapter) を提案します。
このアプローチにより、ユーザーフレンドリーなカスタマイズが強化され、ユーザーは必要な属性を選択的に適用して、独自の好みや特定のコンテンツ要件を満たす画像を作成できるようになります。

要約(オリジナル)

Recent advances in text-to-image generation have enabled the creation of high-quality images with diverse applications. However, accurately describing desired visual attributes can be challenging, especially for non-experts in art and photography. An intuitive solution involves adopting favorable attributes from the source images. Current methods attempt to distill identity and style from source images. However, ‘style’ is a broad concept that includes texture, color, and artistic elements, but does not cover other important attributes such as lighting and dynamics. Additionally, a simplified ‘style’ adaptation prevents combining multiple attributes from different sources into one generated image. In this work, we formulate a more effective approach to decompose the aesthetics of a picture into specific visual attributes, allowing users to apply characteristics such as lighting, texture, and dynamics from different images. To achieve this goal, we constructed the first fine-grained visual attributes dataset (FiVA) to the best of our knowledge. This FiVA dataset features a well-organized taxonomy for visual attributes and includes around 1 M high-quality generated images with visual attribute annotations. Leveraging this dataset, we propose a fine-grained visual attribute adaptation framework (FiVA-Adapter), which decouples and adapts visual attributes from one or more source images into a generated one. This approach enhances user-friendly customization, allowing users to selectively apply desired attributes to create images that meet their unique preferences and specific content requirements.

arxiv情報

著者 Tong Wu,Yinghao Xu,Ryan Po,Mengchen Zhang,Guandao Yang,Jiaqi Wang,Ziwei Liu,Dahua Lin,Gordon Wetzstein
発行日 2024-12-10 17:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク