要約
実際の3Dシーンで言語誘導オブジェクト配置の新しいタスクを紹介します。
私たちのモデルには、3Dシーンのポイントクラウド、3Dアセット、3Dアセットの配置場所を広く説明するテキストプロンプトが与えられます。
ここでのタスクは、プロンプトを尊重する3Dアセットの有効な配置を見つけることです。
接地などの3Dシーンの他の言語誘導ローカリゼーションタスクと比較して、このタスクには特定の課題があります。複数の有効なソリューションがあるため、曖昧であり、3D幾何学的関係と自由空間に関する推論が必要です。
新しいベンチマークと評価プロトコルを提案することにより、このタスクを開始します。
また、このタスクに関する3D LLMSをトレーニングするための新しいデータセットと、非自明のベースラインとして最初に機能する方法も紹介します。
この挑戦的なタスクと私たちの新しいベンチマークは、ジェネラリスト3D LLMモデルを評価および比較するために使用される一連のベンチマークの一部になる可能性があると考えています。
要約(オリジナル)
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene’s point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.
arxiv情報
| 著者 | Ahmed Abdelreheem,Filippo Aleotti,Jamie Watson,Zawar Qureshi,Abdelrahman Eldesokey,Peter Wonka,Gabriel Brostow,Sara Vicente,Guillermo Garcia-Hernando |
| 発行日 | 2025-05-08 14:29:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google