PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling

要約

単一の基礎モデルで複数の画像生成と編集タスクを可能にする統一されたフレームワークであるPrismを提示します。
事前に訓練されたテキストからイメージまでの拡散モデルから、Prismは、同時に本質的なマップ(X層と呼ばれる)とともにRGB画像を生成する効果的な微調整戦略を提案します。
内因性特性を個別に推測するか、分解と条件付き生成のために個別のモデルを必要とする以前のアプローチとは異なり、Prismはすべての固有層を共同で生成することにより、モダリティ全体の一貫性を維持します。
テキストからRGBXの生成、RGBからXの分解、X-to-RGBX条件付きの生成など、多様なタスクをサポートします。
さらに、PRISMは、選択した内因性レイヤーとテキストプロンプトのコンディショニングを通じて、グローバルおよびローカル画像の両方の編集を可能にします。
広範な実験は、基本モデルのテキストからイメージまでの生成機能を維持しながら、本質的な画像分解と条件付き画像生成の両方のプリズムの競合パフォーマンスを示しています。

要約(オリジナル)

We present PRISM, a unified framework that enables multiple image generation and editing tasks in a single foundational model. Starting from a pre-trained text-to-image diffusion model, PRISM proposes an effective fine-tuning strategy to produce RGB images along with intrinsic maps (referred to as X layers) simultaneously. Unlike previous approaches, which infer intrinsic properties individually or require separate models for decomposition and conditional generation, PRISM maintains consistency across modalities by generating all intrinsic layers jointly. It supports diverse tasks, including text-to-RGBX generation, RGB-to-X decomposition, and X-to-RGBX conditional generation. Additionally, PRISM enables both global and local image editing through conditioning on selected intrinsic layers and text prompts. Extensive experiments demonstrate the competitive performance of PRISM both for intrinsic image decomposition and conditional image generation while preserving the base model’s text-to-image generation capability.

arxiv情報

著者 Alara Dirik,Tuanfeng Wang,Duygu Ceylan,Stefanos Zafeiriou,Anna Frühstück
発行日 2025-05-14 12:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク