要約
3D ビジュアル シーンの生成はビジュアル生成 AI の最前線ですが、現在の 3D 生成技術では、複数の高解像度オブジェクトを含むシーンを生成するのが困難です。
ここでは、オープンセットの 3D オブジェクト配置のタスクを解決し、目に見えないオブジェクトを効果的に配置する Lay-A-Scene を紹介します。
3D オブジェクトのセットが与えられた場合、タスクはシーン内でこれらのオブジェクトの妥当な配置を見つけることです。
私たちは、事前トレーニングされたテキストから画像へのモデルを活用することで、このタスクに取り組みます。
モデルをパーソナライズし、事前定義された複数のオブジェクトを含むシーンのイメージを無視することなく生成する方法を説明します。
次に、2D シーン上へのオブジェクトの一貫した投影を見つけることによって、2D 生成画像からオブジェクトの 3D ポーズと配置を推測する方法について説明します。
Objaverse の 3D オブジェクトと人間の評価者を使用して Lay-A-Scene の品質を評価したところ、一貫性のある実現可能な 3D オブジェクトの配置が生成されることが多いことがわかりました。
要約(オリジナル)
Generating 3D visual scenes is at the forefront of visual generative AI, but current 3D generation techniques struggle with generating scenes with multiple high-resolution objects. Here we introduce Lay-A-Scene, which solves the task of Open-set 3D Object Arrangement, effectively arranging unseen objects. Given a set of 3D objects, the task is to find a plausible arrangement of these objects in a scene. We address this task by leveraging pre-trained text-to-image models. We personalize the model and explain how to generate images of a scene that contains multiple predefined objects without neglecting any of them. Then, we describe how to infer the 3D poses and arrangement of objects from a 2D generated image by finding a consistent projection of objects onto the 2D scene. We evaluate the quality of Lay-A-Scene using 3D objects from Objaverse and human raters and find that it often generates coherent and feasible 3D object arrangements.
arxiv情報
著者 | Ohad Rahamim,Hilit Segev,Idan Achituve,Yuval Atzmon,Yoni Kasten,Gal Chechik |
発行日 | 2024-06-04 16:19:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google