ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

要約

この論文では、オブジェクト挿入とサブジェクト駆動型生成の両方に対するチューニング不要の方法を紹介します。
このタスクには、複数のビューが与えられたオブジェクトを、画像またはテキストで指定されたシーンに合成することが含まれます。
既存の方法では、(i) フォトリアリスティックなポーズと照明を使用してシーンにオブジェクトをシームレスに合成する、(ii) オブジェクトのアイデンティティを維持するという、このタスクの困難な目的を完全に達成するのに苦労しています。
これらの目標を達成するには大規模な監視が必要ですが、手動で十分なデータを収集するにはコストがかかりすぎるという仮説を立てています。
この論文の重要な観察は、大量生産されたオブジェクトの多くが、ラベルのない大規模なデータセットの複数の画像にわたって、さまざまなシーン、ポーズ、照明条件で繰り返されるということです。
この観察を使用して、同じオブジェクトのさまざまなビューのセットを取得することで大規模な監視を作成します。
この強力なペア データセットを使用すると、オブジェクトとシーンの説明を合成画像にマッピングするための、単純なテキストから画像への拡散アーキテクチャをトレーニングすることができます。
単一または複数の参照を使用して、私たちのメソッド ObjectMate を、オブジェクト挿入およびサブジェクト駆動生成の最先端のメソッドと比較します。
経験的に、ObjectMate は優れたアイデンティティの保持と、よりフォトリアリスティックな構成を実現します。
他の多くの多重参照メソッドとは異なり、ObjectMate ではテスト時間のかかるチューニングは必要ありません。

要約(オリジナル)

This paper introduces a tuning-free method for both object insertion and subject-driven generation. The task involves composing an object, given multiple views, into a scene specified by either an image or text. Existing methods struggle to fully meet the task’s challenging objectives: (i) seamlessly composing the object into the scene with photorealistic pose and lighting, and (ii) preserving the object’s identity. We hypothesize that achieving these goals requires large scale supervision, but manually collecting sufficient data is simply too expensive. The key observation in this paper is that many mass-produced objects recur across multiple images of large unlabeled datasets, in different scenes, poses, and lighting conditions. We use this observation to create massive supervision by retrieving sets of diverse views of the same object. This powerful paired dataset enables us to train a straightforward text-to-image diffusion architecture to map the object and scene descriptions to the composited image. We compare our method, ObjectMate, with state-of-the-art methods for object insertion and subject-driven generation, using a single or multiple references. Empirically, ObjectMate achieves superior identity preservation and more photorealistic composition. Differently from many other multi-reference methods, ObjectMate does not require slow test-time tuning.

arxiv情報

著者 Daniel Winter,Asaf Shul,Matan Cohen,Dana Berman,Yael Pritch,Alex Rav-Acha,Yedid Hoshen
発行日 2024-12-11 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク