OBJECT 3DIT: Language-guided 3D-aware Image Editing

要約

既存の画像編集ツールは強力ですが、通常、画像が投影される基礎となる 3D ジオメトリを無視します。
その結果、これらのツールを使用して行われた編集は、画像形成プロセスの基礎となるジオメトリや照明条件から切り離される可能性があります。
この研究では、言語ガイド付き 3D 対応編集の新たな要求を定式化します。つまり、画像内のオブジェクトは、基礎となる 3D シーンのコンテキストで言語指示に従って編集される必要があります。
この目標に向けた進歩を促進するために、私たちは OBJECT をリリースします。これは、手続き的に生成された 3D シーンから作成された 400,000 の編集サンプルで構成されるデータセットです。
各例は、入力画像、言語による編集指示、および編集された画像で構成されます。
また、3DIT : 4 つの編集タスクのシングルタスク モデルとマルチタスク モデルも紹介します。
私たちのモデルは、周囲のオブジェクト、表面、照明条件、影、物理的に妥当なオブジェクト構成を考慮に入れて、シーン全体の 3D 構成を理解する優れた能力を示します。
驚くべきことに、OBJECT の合成シーンのみをトレーニングすることで、3DIT の編集機能が現実世界の画像に一般化されます。

要約(オリジナル)

Existing image editing tools, while powerful, typically disregard the underlying 3D geometry from which the image is projected. As a result, edits made using these tools may become detached from the geometry and lighting conditions that are at the foundation of the image formation process. In this work, we formulate the newt ask of language-guided 3D-aware editing, where objects in an image should be edited according to a language instruction in context of the underlying 3D scene. To promote progress towards this goal, we release OBJECT: a dataset consisting of 400K editing examples created from procedurally generated 3D scenes. Each example consists of an input image, editing instruction in language, and the edited image. We also introduce 3DIT : single and multi-task models for four editing tasks. Our models show impressive abilities to understand the 3D composition of entire scenes, factoring in surrounding objects, surfaces, lighting conditions, shadows, and physically-plausible object configurations. Surprisingly, training on only synthetic scenes from OBJECT, editing capabilities of 3DIT generalize to real-world images.

arxiv情報

著者 Oscar Michel,Anand Bhattad,Eli VanderBilt,Ranjay Krishna,Aniruddha Kembhavi,Tanmay Gupta
発行日 2023-07-20 17:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク