要約
3D シミュレーション環境は、身体化 AI において重要な役割を果たしますが、その作成には専門知識と多大な手作業が必要であり、その多様性と範囲が制限されます。
この制限を軽減するために、ユーザーが指定したプロンプトに一致する 3D 環境を完全に自動で生成するシステムである Holodeck を紹介します。
Holodeck は、アーケード、スパ、博物館などのさまざまなシーンを生成し、スタイルに合わせてデザインを調整し、「猫を飼っている研究者のアパート」や「ファンである教授のオフィス」などの複雑なクエリのセマンティクスをキャプチャできます。
スターウォーズ』の。
Holodeck は、シーンがどのように見えるかについての常識的な知識のために大規模な言語モデル (GPT-4) を活用し、Objaverse からの 3D アセットの大規模なコレクションを使用して、シーンにさまざまなオブジェクトを配置します。
オブジェクトを正しく配置するという課題に対処するために、GPT-4 にオブジェクト間の空間関係制約を生成させ、それらの制約を満たすようにレイアウトを最適化します。
私たちの大規模な人的評価では、アノテーターが住宅シーンで手動で設計した手順ベースラインよりも Holodeck を好み、Holodeck がさまざまなシーン タイプに対して高品質の出力を生成できることが示されています。
また、人間が構築したデータを使用せずに、音楽室や保育園などの新しいシーンでナビゲートするエージェントをトレーニングする、エンボディド AI における Holodeck のエキサイティングなアプリケーションも実証します。これは、汎用のエンボディド エージェントの開発における重要な前進です。
要約(オリジナル)
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as ‘apartment for a researcher with a cat’ and ‘office of a professor who is a fan of Star Wars’. Holodeck leverages a large language model (i.e., GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
arxiv情報
著者 | Yue Yang,Fan-Yun Sun,Luca Weihs,Eli VanderBilt,Alvaro Herrasti,Winson Han,Jiajun Wu,Nick Haber,Ranjay Krishna,Lingjie Liu,Chris Callison-Burch,Mark Yatskar,Aniruddha Kembhavi,Christopher Clark |
発行日 | 2024-04-22 20:06:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google