要約
画像は、オブジェクトを描写するだけでなく、それらの間の豊富な相互作用もカプセル化します。
ただし、互いに相互作用する複数のエンティティを含む忠実で忠実な画像を生成することは、長年にわたる課題です。
事前に訓練されたテキストから画像から画像からイメージまでのモデルは大規模なデータセットでトレーニングされ、多様なテキストの指示に従うことができますが、おそらく、珍しいオブジェクトの相互作用のためのトレーニングデータが不足しているため、正確な相互作用を生成するのに苦労しています。
このペーパーでは、3つの重要なシナリオをカバーする1000個のファイングレインプロンプトを備えた相互作用範囲のデータセットである相互作用を紹介します。(1)機能およびアクションベースの相互作用、(2)組成空間関係、および(3)マルチサブジェクトの相互作用。
相互作用の生成の課題に対処するために、分解された精製手順を提案します。
安定した拡散3.5に基づいて構築された私たちのアプローチは、LLMを活用して相互作用をより細かい粒子の概念に分解し、VLMを使用して生成された画像を批評し、洗練の拡散プロセス内で標的介入を適用します。
自動および人間の評価により、画質が大幅に改善され、推論戦略が強化される可能性が示されています。
データセットとコードは、https://concepts-ai.com/p/detailscribe/で入手でき、相互作用が豊富な画像生成の将来の調査を促進します。
要約(オリジナル)
Images not only depict objects but also encapsulate rich interactions between them. However, generating faithful and high-fidelity images involving multiple entities interacting with each other, is a long-standing challenge. While pre-trained text-to-image models are trained on large-scale datasets to follow diverse text instructions, they struggle to generate accurate interactions, likely due to the scarcity of training data for uncommon object interactions. This paper introduces InterActing, an interaction-focused dataset with 1000 fine-grained prompts covering three key scenarios: (1) functional and action-based interactions, (2) compositional spatial relationships, and (3) multi-subject interactions. To address interaction generation challenges, we propose a decomposition-augmented refinement procedure. Our approach, DetailScribe, built on Stable Diffusion 3.5, leverages LLMs to decompose interactions into finer-grained concepts, uses a VLM to critique generated images, and applies targeted interventions within the diffusion process in refinement. Automatic and human evaluations show significantly improved image quality, demonstrating the potential of enhanced inference strategies. Our dataset and code are available at https://concepts-ai.com/p/detailscribe/ to facilitate future exploration of interaction-rich image generation.
arxiv情報
著者 | Xinyi Gu,Jiayuan Mao |
発行日 | 2025-04-11 17:24:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google