Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors

要約

3D ビジュアル シーンの生成はビジュアル生成 AI の最前線ですが、現在の 3D 生成技術では、複数の高解像度オブジェクトを含むシーンを生成するのが困難です。
ここでは、オープンセットの 3D オブジェクト配置のタスクを解決し、目に見えないオブジェクトを効果的に配置する Lay-A-Scene を紹介します。
3D オブジェクトのセットが与えられた場合、タスクはシーン内でこれらのオブジェクトの妥当な配置を見つけることです。
私たちは、事前トレーニングされたテキストから画像へのモデルを活用することで、このタスクに取り組みます。
モデルをパーソナライズし、事前定義された複数のオブジェクトを含むシーンのイメージを無視することなく生成する方法を説明します。
次に、2D シーン上へのオブジェクトの一貫した投影を見つけることによって、2D 生成画像からオブジェクトの 3D ポーズと配置を推測する方法について説明します。
Objaverse の 3D オブジェクトと人間の評価者を使用して Lay-A-Scene の品質を評価したところ、一貫性のある実現可能な 3D オブジェクトの配置が生成されることが多いことがわかりました。

要約(オリジナル)

Generating 3D visual scenes is at the forefront of visual generative AI, but current 3D generation techniques struggle with generating scenes with multiple high-resolution objects. Here we introduce Lay-A-Scene, which solves the task of Open-set 3D Object Arrangement, effectively arranging unseen objects. Given a set of 3D objects, the task is to find a plausible arrangement of these objects in a scene. We address this task by leveraging pre-trained text-to-image models. We personalize the model and explain how to generate images of a scene that contains multiple predefined objects without neglecting any of them. Then, we describe how to infer the 3D poses and arrangement of objects from a 2D generated image by finding a consistent projection of objects onto the 2D scene. We evaluate the quality of Lay-A-Scene using 3D objects from Objaverse and human raters and find that it often generates coherent and feasible 3D object arrangements.

arxiv情報

著者 Ohad Rahamim,Hilit Segev,Idan Achituve,Yuval Atzmon,Yoni Kasten,Gal Chechik
発行日 2024-06-04 16:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク