要約
要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベースの方法には、従来のツールの精度と柔軟性がありません。
この作業では、確率的BLOBベースの表現を使用して要素レベルの生成と編集を統合するフレームワークであるBlobCtrlを紹介します。
ブロブを視覚的なプリミティブとして使用することにより、私たちのアプローチは、空間的位置、セマンティックコンテンツ、およびアイデンティティ情報を効果的に分離し、表現し、正確な要素レベルの操作を可能にします。
私たちの主な貢献には、次のものが含まれます。1)シームレスな前景群統合のための階層的特徴融合を備えた二重分岐拡散アーキテクチャ。
2)カスタマイズされたデータ増強とスコア機能を備えた自己監視されたトレーニングパラダイム。
3)忠実度と多様性のバランスを取るための制御可能なドロップアウト戦略。
さらなる研究をサポートするために、大規模なトレーニングのためにBlobdataを紹介し、体系的な評価のためにBlobbenchを紹介します。
実験は、BlobCtrlが計算効率を維持しながら、さまざまな要素レベルの操作タスクに優れており、正確で柔軟な視覚コンテンツの作成のための実用的なソリューションを提供することを示しています。
プロジェクトページ:https://liyaowei-stu.github.io/project/blobctrl/
要約(オリジナル)
Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/
arxiv情報
著者 | Yaowei Li,Lingen Li,Zhaoyang Zhang,Xiaoyu Li,Guangzhi Wang,Hongxiang Li,Xiaodong Cun,Ying Shan,Yuexian Zou |
発行日 | 2025-03-17 17:58:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google