3D Object Manipulation in a Single Image using Generative Models

要約

画像内のオブジェクト操作は、オブジェクトのプレゼンテーションを編集するだけでなく、オブジェクトに動きを与えることも目的としています。
以前の方法では、静的編集と動的生成を同時に処理する際に課題があり、オブジェクトの外観とシーンの照明の忠実度を達成するのにも苦労していました。
この研究では、正確な幾何学的制御と拡散モデルの生成力を統合する新しいフレームワークである \textbf{OMG3D} を導入し、視覚パフォーマンスの大幅な向上を実現します。
私たちのフレームワークはまず 2D オブジェクトを 3D に変換し、ユーザー主導の変更や幾何学レベルでの本物のような動きを可能にします。
テクスチャのリアリズムに対処するために、カスタマイズされた拡散モデルを事前トレーニングし、3D ラフ モデルの粗いレンダリングの詳細とスタイルを元の画像に合わせて、テクスチャをさらに洗練するテクスチャ調整モジュールである CustomRefiner を提案します。
さらに、人間の視覚に合わせて背景照明を推定および補正する照明処理モジュール IllumiCombiner を導入し、よりリアルな影効果を実現します。
広範な実験により、静的シナリオと動的シナリオの両方で私たちのアプローチの優れた視覚的パフォーマンスが実証されました。
驚くべきことに、これらすべての手順は 1 台の NVIDIA 3090 を使用して実行できます。プロジェクト ページは https://whalesong-zrs.github.io/OMG3D-projectpage/ にあります。

要約(オリジナル)

Object manipulation in images aims to not only edit the object’s presentation but also gift objects with motion. Previous methods encountered challenges in concurrently handling static editing and dynamic generation, while also struggling to achieve fidelity in object appearance and scene lighting. In this work, we introduce \textbf{OMG3D}, a novel framework that integrates the precise geometric control with the generative power of diffusion models, thus achieving significant enhancements in visual performance. Our framework first converts 2D objects into 3D, enabling user-directed modifications and lifelike motions at the geometric level. To address texture realism, we propose CustomRefiner, a texture refinement module that pre-train a customized diffusion model, aligning the details and style of coarse renderings of 3D rough model with the original image, further refine the texture. Additionally, we introduce IllumiCombiner, a lighting processing module that estimates and corrects background lighting to match human visual perception, resulting in more realistic shadow effects. Extensive experiments demonstrate the outstanding visual performance of our approach in both static and dynamic scenarios. Remarkably, all these steps can be done using one NVIDIA 3090. Project page is at https://whalesong-zrs.github.io/OMG3D-projectpage/

arxiv情報

著者 Ruisi Zhao,Zechuan Zhang,Zongxin Yang,Yi Yang
発行日 2025-01-22 15:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク