要約
我々はPartComposerを発表する:テキストから画像への拡散モデルが、意味のある構成要素から新しいオブジェクトを構成することを可能にする、単一画像の例から部分レベルの概念を学習するフレームワークである。既存の手法では、きめ細かい概念を効果的に学習するのに苦労するか、入力として大規模なデータセットを必要とする。我々は、一回限りのデータ不足に対処するために、多様な部品構成を生成する動的データ合成パイプラインを提案する。最も重要な点として、概念予測器を介して、ノイズ除去された潜在データと構造化された概念コードとの間の相互情報を最大化することを提案し、概念の分離と再構成の監督を直接制御することを可能にする。本手法は強力な分離と制御可能な合成を達成し、同じ、あるいは異なるオブジェクトカテゴリからの概念を混合する場合に、主題レベルや部品レベルのベースラインを凌駕する。
要約(オリジナル)
We present PartComposer: a framework for part-level concept learning from single-image examples that enables text-to-image diffusion models to compose novel objects from meaningful components. Existing methods either struggle with effectively learning fine-grained concepts or require a large dataset as input. We propose a dynamic data synthesis pipeline generating diverse part compositions to address one-shot data scarcity. Most importantly, we propose to maximize the mutual information between denoised latents and structured concept codes via a concept predictor, enabling direct regulation on concept disentanglement and re-composition supervision. Our method achieves strong disentanglement and controllable composition, outperforming subject and part-level baselines when mixing concepts from the same, or different, object categories.
arxiv情報
著者 | Junyu Liu,R. Kenny Jones,Daniel Ritchie |
発行日 | 2025-06-03 15:43:28+00:00 |
arxivサイト | arxiv_id(pdf) |