GeoDiffuser: Geometry-Based Image Editing with Diffusion Models

要約

画像生成モデルの成功により、テキストやその他のユーザー入力に基づいて画像を編集できるメソッドを構築できるようになりました。
ただし、これらの方法はオーダーメイドであり、不正確で、追加情報が必要であるか、2D 画像編集のみに限定されています。
一般的な 2D および 3D 画像ベースのオブジェクト編集機能を 1 つのメソッドに統合する、ゼロショット最適化ベースのメソッドである GeoDiffuser を紹介します。
私たちの重要な洞察は、画像編集操作を幾何学的変換とみなすことです。
これらの変換を拡散モデルのアテンション レイヤーに直接組み込んで、暗黙的に編集操作を実行できることを示します。
私たちのトレーニング不要の最適化手法では、オブジェクトのスタイルを維持しながら、たとえば正確な照明と影を備えたもっともらしい画像を生成する目的関数を使用します。
また、オブジェクトが元々位置していた画像の遮蔽されていない部分も修復します。
自然画像とユーザー入力が与えられた場合、SAM を使用して前景オブジェクトをセグメント化し、編集のための最適化アプローチで使用される対応する変換を推定します。
GeoDiffuser は、オブジェクトの変換、3D 回転、削除などの一般的な 2D および 3D 編集を実行できます。
私たちは、私たちのアプローチが既存の方法よりも優れていることを示す知覚研究を含む定量的な結果を提示します。
詳細については、https://ivl.cs.brown.edu/research/geodiffuser.html にアクセスしてください。

要約(オリジナル)

The success of image generative models has enabled us to build methods that can edit images based on text or other user input. However, these methods are bespoke, imprecise, require additional information, or are limited to only 2D image edits. We present GeoDiffuser, a zero-shot optimization-based method that unifies common 2D and 3D image-based object editing capabilities into a single method. Our key insight is to view image editing operations as geometric transformations. We show that these transformations can be directly incorporated into the attention layers in diffusion models to implicitly perform editing operations. Our training-free optimization method uses an objective function that seeks to preserve object style but generate plausible images, for instance with accurate lighting and shadows. It also inpaints disoccluded parts of the image where the object was originally located. Given a natural image and user input, we segment the foreground object using SAM and estimate a corresponding transform which is used by our optimization approach for editing. GeoDiffuser can perform common 2D and 3D edits like object translation, 3D rotation, and removal. We present quantitative results, including a perceptual study, that shows how our approach is better than existing methods. Visit https://ivl.cs.brown.edu/research/geodiffuser.html for more information.

arxiv情報

著者 Rahul Sajnani,Jeroen Vanbaar,Jie Min,Kapil Katyal,Srinath Sridhar
発行日 2024-04-22 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク