Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models

要約

識別モデルには本質的に強力な生成能力が含まれており、識別アーキテクチャと生成アーキテクチャの根本的な区別に挑戦することを実証します。
私たちの方法であるDirect Ascent Synthesis(DAS)は、CLIPモデル表現のマルチ解像度の最適化を通じてこれらの潜在能力を明らかにしています。
従来の反転の試みは敵対的なパターンを生成しますが、DASは複数の空間スケール(1×1〜224×224)にわたって最適化を分解することにより高品質の画像合成を達成し、追加のトレーニングを必要としません。
このアプローチは、テキストからイメージの生成からスタイルの転送まで、多様なアプリケーションを可能にするだけでなく、自然画像統計($ 1/f^2 $スペクトル)を維持し、生成を非偏った敵対パターンから導きます。
我々の結果は、標準的な識別モデルが以前に認識されていたよりも実質的に豊富な生成知識をエンコードし、モデルの解釈可能性と敵対的な例と自然画像合成の関係に関する新しい視点を提供することを示しています。

要約(オリジナル)

We demonstrate that discriminative models inherently contain powerful generative capabilities, challenging the fundamental distinction between discriminative and generative architectures. Our method, Direct Ascent Synthesis (DAS), reveals these latent capabilities through multi-resolution optimization of CLIP model representations. While traditional inversion attempts produce adversarial patterns, DAS achieves high-quality image synthesis by decomposing optimization across multiple spatial scales (1×1 to 224×224), requiring no additional training. This approach not only enables diverse applications — from text-to-image generation to style transfer — but maintains natural image statistics ($1/f^2$ spectrum) and guides the generation away from non-robust adversarial patterns. Our results demonstrate that standard discriminative models encode substantially richer generative knowledge than previously recognized, providing new perspectives on model interpretability and the relationship between adversarial examples and natural image synthesis.

arxiv情報

著者 Stanislav Fort,Jonathan Whitaker
発行日 2025-02-11 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models はコメントを受け付けていません

MeshSplats: Mesh-Based Rendering with Gaussian Splatting Initialization

要約

Gaussian Splatting(GS)は、3Dコンピューターグラフィックスの最近の極めて重要な手法です。
GSベースのアルゴリズムは、ほとんどの場合、Ray Tracingなどの古典的な方法をバイパスします。これは、レンダリングに多くの固有の利点を提供します。
たとえば、Ray Tracingは、影や反射などの高度な照明効果のために、一貫性のない光線を処理できます。
この制限に対処するために、GSをメッシュのような形式に変換するメソッドであるMeshsplatを紹介します。
トレーニングの完了後、Meshsplatはガウス要素をメッシュ面に変換し、関連するすべての利点を備えたレイトレース方法を使用してレンダリングを可能にします。
私たちのモデルは、変換の直後に利用することができ、追加のトレーニングなしで品質がわずかに低下したメッシュをもたらします。
さらに、ガウスコンポーネントではなくメッシュ面で動作する専用の最適化アルゴリズムを適用することにより、再構築品質を向上させることができます。
この方法の有効性は、実験結果によって実証されており、コンピューターグラフィックスと画像処理における広範なアプリケーションを強調しています。

要約(オリジナル)

Gaussian Splatting (GS) is a recent and pivotal technique in 3D computer graphics. GS-based algorithms almost always bypass classical methods such as ray tracing, which offers numerous inherent advantages for rendering. For example, ray tracing is able to handle incoherent rays for advanced lighting effects, including shadows and reflections. To address this limitation, we introduce MeshSplats, a method which converts GS to a mesh-like format. Following the completion of training, MeshSplats transforms Gaussian elements into mesh faces, enabling rendering using ray tracing methods with all their associated benefits. Our model can be utilized immediately following transformation, yielding a mesh of slightly reduced quality without additional training. Furthermore, we can enhance the reconstruction quality through the application of a dedicated optimization algorithm that operates on mesh faces rather than Gaussian components. The efficacy of our method is substantiated by experimental results, underscoring its extensive applications in computer graphics and image processing.

arxiv情報

著者 Rafał Tobiasz,Grzegorz Wilczyński,Marcin Mazur,Sławomir Tadeja,Przemysław Spurek
発行日 2025-02-11 18:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MeshSplats: Mesh-Based Rendering with Gaussian Splatting Initialization はコメントを受け付けていません

From Fog to Failure: How Dehazing Can Harm Clear Image Object Detection

要約

この研究では、人間の知覚の選択的性質を考慮して、人間の視覚キューベースの脱毛をオブジェクト検出に統合するという課題を探ります。
人間の視力は環境条件に動的に適応しますが、計算脱毛は常に均一に検出を強化するとは限りません。
軽量検出器が関心のある領域(ROI)を識別するマルチステージフレームワークを提案します。これは、より重いモデルによる最終的な検出の前に、空間的注意ベースの脱毛を介して強化されます。
霧の状態では効果的ですが、このアプローチは、クリア画像のパフォーマンスを予期せずに低下させます。
この現象を分析し、考えられる原因を調査し、強化と検出のバランスをとるハイブリッドパイプラインを設計するための洞察を提供します。
私たちの調査結果は、カスケード変換による普遍的な利点に関する選択的前処理と挑戦の仮定の必要性を強調しています。

要約(オリジナル)

This study explores the challenges of integrating human visual cue-based dehazing into object detection, given the selective nature of human perception. While human vision adapts dynamically to environmental conditions, computational dehazing does not always enhance detection uniformly. We propose a multi-stage framework where a lightweight detector identifies regions of interest (RoIs), which are then enhanced via spatial attention-based dehazing before final detection by a heavier model. Though effective in foggy conditions, this approach unexpectedly degrades the performance on clear images. We analyze this phenomenon, investigate possible causes, and offer insights for designing hybrid pipelines that balance enhancement and detection. Our findings highlight the need for selective preprocessing and challenge assumptions about universal benefits from cascading transformations.

arxiv情報

著者 Ashutosh Kumar,Aman Chadha
発行日 2025-02-11 18:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | From Fog to Failure: How Dehazing Can Harm Clear Image Object Detection はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローと転帰を介して自然/生物医学画像分析のために、四項と2次元直交平面分割フレームワーク(四項 – 正結腸2D平面のペアへの分割 – ピクセルを表す – ピクセルを表す)を活用しています:自然/生物医学的イメージの再採用
色素化、自然画像の脱色、自然/生物医学的イメージのコントラストの強化、組織学的画像の計算の再染色と染色分離、および組織学的画像の機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例:ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性を高めるのを支援します。
カラーブランドに優しいレンディションを有効にします)。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-02-11 18:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

Accessing Vision Foundation Models via ImageNet-1K

要約

Vision Foundationモデルは、大規模なトレーニングデータにより、一般化能力で有名です。
それにもかかわらず、彼らは途方もないトレーニングリソースを要求し、トレーニングデータはしばしばアクセスできません。たとえば、クリップ、DINOV2は、研究を促進できるデリバティブの開発に大きな課題をもたらします。
この作業では、\ textit {proteus}という名前の非常にシンプルで一般的なソリューションを提供し、元のトレーニングデータにアクセスすることなく、基礎モデルをImagenet-1Kのより小さな同等物に蒸留します。
具体的には、データセットバイアスをもたらす従来の知識蒸留設定から設計を削除し、3つのレベルのトレーニング目標、つまりトークン、パッチ、機能を提示して、知識伝達の有効性を最大化します。
このようにして、Proteusは驚くべき能力でImagenetレベルのコストで訓練され、より広範な研究コミュニティのための基礎モデルのトレーニングのアクセシビリティを促進します。
Dinov2-G/14を教師として活用する場合、Proteus-L/14は、19のベンチマークでOracle Method Dinov2-L/14(142mトレーニングデータ)のパフォーマンスに一致し、Clip-L/14(400mを含む他のVision Foundationモデルを上回ります
)、OpenClip-L/14(400m/2b)およびSynclr-L/14(600m)は、1.2m画像のかなり小さいトレーニングセットを備えています。

要約(オリジナル)

Vision foundation models are renowned for the generalization ability due to massive training data. Nevertheless, they demand tremendous training resources, and the training data is often inaccessible, e.g., CLIP, DINOv2, posing great challenges to developing derivatives that could facilitate the research. In this work, we offer a very simple and general solution, named \textit{Proteus}, to distill foundation models into smaller equivalents on ImageNet-1K without access to the original training data. Specifically, we remove the designs from conventional knowledge distillation settings that result in dataset bias and present three levels of training objectives, i.e., token, patch, and feature, to maximize the efficacy of knowledge transfer. In this manner, Proteus is trained at ImageNet-level costs with surprising ability, facilitating the accessibility of training foundation models for the broader research community. When leveraging DINOv2-g/14 as the teacher, Proteus-L/14 matches the performance of the Oracle method DINOv2-L/14 (142M training data) across 19 benchmarks and outperforms other vision foundation models including CLIP-L/14 (400M), OpenCLIP-L/14 (400M/2B) and SynCLR-L/14 (600M) with a significantly smaller training set of 1.2M images.

arxiv情報

著者 Yitian Zhang,Xu Ma,Yue Bai,Huan Wang,Yun Fu
発行日 2025-02-11 18:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Accessing Vision Foundation Models via ImageNet-1K はコメントを受け付けていません

UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping

要約

3D Gaussian Splatting(3DGS)は、3Dオブジェクトとシーンのモデリングにおいて優れた品質を実証しています。
ただし、3DGを生成することは、離散、非構造、および順列不変の性質のために依然として困難です。
この作業では、これらの課題を克服するためのシンプルで効果的な方法を提示します。
球状マッピングを利用して、3DGをUVGと呼ばれる構造化された2D表現に変換します。
UVGは、位置、スケール、色、不透明度、回転などのガウス属性の連結として機能寸法を備えたマルチチャネル画像と見なすことができます。
さらに、これらの不均一な機能は、慎重に設計されたマルチブランチネットワークを使用して、低次元(3チャネル)共有機能空間に圧縮できることがわかります。
圧縮されたUVGは、典型的なRGB画像として扱うことができます。
驚くべきことに、潜在的な拡散モデルで訓練された典型的なVAEが、追加のトレーニングなしでこの新しい表現に直接一般化できることがわかります。
私たちの新しい表現により、拡散モデルなどの基本的な2Dモデルを活用して、3DGを直接モデル化することができません。
さらに、2D UV解像度を増やして、より多くのガウス分野に対応し、典型的な3Dバックボーンと比較してUVGをスケーラブルなソリューションにすることができます。
このアプローチは、すでに開発された優れた2D生成機能を本質的に利用することにより、3DGのさまざまな新しい生成アプリケーションのロックをすぐに解除します。
私たちの実験では、以前は自明であった拡散モデルに基づいて、さまざまな無条件の条件付き生成、3DGの適用アプリケーションを示しています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has demonstrated superior quality in modeling 3D objects and scenes. However, generating 3DGS remains challenging due to their discrete, unstructured, and permutation-invariant nature. In this work, we present a simple yet effective method to overcome these challenges. We utilize spherical mapping to transform 3DGS into a structured 2D representation, termed UVGS. UVGS can be viewed as multi-channel images, with feature dimensions as a concatenation of Gaussian attributes such as position, scale, color, opacity, and rotation. We further find that these heterogeneous features can be compressed into a lower-dimensional (e.g., 3-channel) shared feature space using a carefully designed multi-branch network. The compressed UVGS can be treated as typical RGB images. Remarkably, we discover that typical VAEs trained with latent diffusion models can directly generalize to this new representation without additional training. Our novel representation makes it effortless to leverage foundational 2D models, such as diffusion models, to directly model 3DGS. Additionally, one can simply increase the 2D UV resolution to accommodate more Gaussians, making UVGS a scalable solution compared to typical 3D backbones. This approach immediately unlocks various novel generation applications of 3DGS by inherently utilizing the already developed superior 2D generation capabilities. In our experiments, we demonstrate various unconditional, conditional generation, and inpainting applications of 3DGS based on diffusion models, which were previously non-trivial.

arxiv情報

著者 Aashish Rai,Dilin Wang,Mihir Jain,Nikolaos Sarafianos,Kefan Chen,Srinath Sridhar,Aayush Prakash
発行日 2025-02-11 18:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping はコメントを受け付けていません

Stay-Positive: A Case for Ignoring Real Image Features in Fake Image Detection

要約

AI生成された画像を検出することは、挑戦的でありながら不可欠なタスクです。
主な困難は、その決定に影響を与える可能性のある圧縮アーティファクトなど、偽のパターンに依存する検出器の傾向から生じます。
これらの問題は、多くの場合、検出器が実際のデータ分布に関連する特定のパターンに起因し、実際の生成トレースを分離することを困難にします。
生成モデルによって導入されたアーティファクトが含まれている場合にのみ、画像を偽物として分類する必要があると主張します。
この前提に基づいて、私たちは、実際のデータに関連するものを無視しながら、検出器のフォーカスを生成アーティファクトに制約するように設計されたアルゴリズムであるStay Positiveを提案します。
実験結果は、肯定的な展示で訓練された検出器が偽の相関に対する感受性を低下させ、一般化の改善と後処理への堅牢性をもたらすことを示しています。
さらに、アーティファクトを実際の画像と関連付ける検出器とは異なり、純粋に偽のアーティファクトに焦点を当てたものは、塗装された実際の画像を検出するのに適しています。

要約(オリジナル)

Detecting AI generated images is a challenging yet essential task. A primary difficulty arises from the detectors tendency to rely on spurious patterns, such as compression artifacts, which can influence its decisions. These issues often stem from specific patterns that the detector associates with the real data distribution, making it difficult to isolate the actual generative traces. We argue that an image should be classified as fake if and only if it contains artifacts introduced by the generative model. Based on this premise, we propose Stay Positive, an algorithm designed to constrain the detectors focus to generative artifacts while disregarding those associated with real data. Experimental results demonstrate that detectors trained with Stay Positive exhibit reduced susceptibility to spurious correlations, leading to improved generalization and robustness to post processing. Additionally, unlike detectors that associate artifacts with real images, those that focus purely on fake artifacts are better at detecting inpainted real images.

arxiv情報

著者 Anirudh Sundara Rajan,Yong Jae Lee
発行日 2025-02-11 18:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stay-Positive: A Case for Ignoring Real Image Features in Fake Image Detection はコメントを受け付けていません

A Flag Decomposition for Hierarchical Datasets

要約

フラグマニホールドは、サブスペースの階層ネストシーケンスをエンコードし、さまざまなコンピュータービジョンおよび機械学習アプリケーションの強力な構造として機能します。
次元削減、モーション平均化、サブスペースクラスタリングなどのタスクの有用性にもかかわらず、電流アプリケーションは、特異値分解などの一般的なマトリックス分解方法を使用してフラグを抽出することに制限されていることがよくあります。
ここでは、一般的なアルゴリズムが階層データセットを考慮して動作する必要性に対処します。
特に、Stiefel座標の階層的に基づいたフラグ表現に任意の階層的実質値データを分解する新しいフラグベースの方法を提案します。
私たちの作品は、除去、クラスタリング、少数のショット学習など、アプリケーションのフラグマニホールドの可能性を活用しています。

要約(オリジナル)

Flag manifolds encode hierarchical nested sequences of subspaces and serve as powerful structures for various computer vision and machine learning applications. Despite their utility in tasks such as dimensionality reduction, motion averaging, and subspace clustering, current applications are often restricted to extracting flags using common matrix decomposition methods like the singular value decomposition. Here, we address the need for a general algorithm to factorize and work with hierarchical datasets. In particular, we propose a novel, flag-based method that decomposes arbitrary hierarchical real-valued data into a hierarchy-preserving flag representation in Stiefel coordinates. Our work harnesses the potential of flag manifolds in applications including denoising, clustering, and few-shot learning.

arxiv情報

著者 Nathan Mankovich,Ignacio Santamaria,Gustau Camps-Valls,Tolga Birdal
発行日 2025-02-11 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Flag Decomposition for Hierarchical Datasets はコメントを受け付けていません

Pippo: High-Resolution Multi-View Humans from a Single Image

要約

Pippoを提示します。Pippoは、1つのカジュアルにクリックされた写真から人の1K解像度の密なターンアラウンドビデオを作成できる生成モデルです。
Pippoはマルチビュー拡散トランスであり、追加の入力を必要としません – たとえば、入力画像の適合パラメトリックモデルまたはカメラパラメーター。
キャプションなしで3Bのヒューマン画像を使用して、スタジオキャプチャされた人間でマルチビューのミッドトレーニングとトレーニング後のマルチビューを実施します。
トレーニング中に、スタジオデータセットをすばやく吸収するために、低解像度でいくつかの(最大48)ビューを除去し、浅いMLPを使用してターゲットカメラを粗くエンコードします。
トレーニング後に、高解像度でのビューが少なくなり、ピクセルに合ったコントロール(たとえば、空間アンカーやプラッカーレイズ)を使用して、3Dの一貫した世代を有効にします。
推論では、Pippoがトレーニング中に見られるように5倍以上のビューを同時に生成できるようにする注意バイアス技術を提案します。
最後に、マルチビュー世代の3D一貫性を評価するために改善されたメトリックを導入し、Pippoが単一の画像からマルチビューヒューマンジェネレーションの既存の作業を上回ることを示します。

要約(オリジナル)

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs – e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

arxiv情報

著者 Yash Kant,Ethan Weber,Jin Kyu Kim,Rawal Khirodkar,Su Zhaoen,Julieta Martinez,Igor Gilitschenski,Shunsuke Saito,Timur Bagautdinov
発行日 2025-02-11 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Pippo: High-Resolution Multi-View Humans from a Single Image はコメントを受け付けていません

MatSwap: Light-aware material transfers in images

要約

MATSWAPを提示します。MATSWAPは、画像の指定表面に材料を指定された表面に転送する方法を示しています。
このようなタスクは、写真の物質的な外観、ジオメトリ、照明の大きな絡み合いのために、自明ではありません。
文献では、材料の編集方法は通常、扱いにくいテキストエンジニアリングまたはアーティストの知識と取得するのが非現実的な3Dシーンプロパティを必要とする広範な手動注釈に依存しています。
対照的に、明示的なUVマッピングを必要とせずに、平らな表面で観察されるように、平らな表面で観察されるように、入力材料間の関係を直接学習することを提案します。
これを達成するために、カスタムライトおよびジオメトリを意識した拡散モデルに依存しています。
合成データセットを使用して、材料転送のための大規模な事前訓練を受けたテキストから画像から画像間モデルを微調整し、その強力な事前に維持して、実際の画像への効果的な一般化を確保します。
その結果、私たちの方法は、シーンのアイデンティティを保持しながら、写真のターゲット位置に目的の資料をシームレスに統合します。
合成画像と実際の画像に関する方法を評価し、定性的および定量的に最近の研究と比較していることを示します。
公開時にコードとデータをリリースします。

要約(オリジナル)

We present MatSwap, a method to transfer materials to designated surfaces in an image photorealistically. Such a task is non-trivial due to the large entanglement of material appearance, geometry, and lighting in a photograph. In the literature, material editing methods typically rely on either cumbersome text engineering or extensive manual annotations requiring artist knowledge and 3D scene properties that are impractical to obtain. In contrast, we propose to directly learn the relationship between the input material — as observed on a flat surface — and its appearance within the scene, without the need for explicit UV mapping. To achieve this, we rely on a custom light- and geometry-aware diffusion model. We fine-tune a large-scale pre-trained text-to-image model for material transfer using our synthetic dataset, preserving its strong priors to ensure effective generalization to real images. As a result, our method seamlessly integrates a desired material into the target location in the photograph while retaining the identity of the scene. We evaluate our method on synthetic and real images and show that it compares favorably to recent work both qualitatively and quantitatively. We will release our code and data upon publication.

arxiv情報

著者 Ivan Lopes,Valentin Deschaintre,Yannick Hold-Geoffroy,Raoul de Charette
発行日 2025-02-11 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MatSwap: Light-aware material transfers in images はコメントを受け付けていません