要約
3Dで世界を理解できるマシンの作成は、3次元空間内でナビゲートおよび相互作用する3D環境とロボットを構築および編集するデザイナーを支援するのに不可欠です。
言語モデリングと画像モデリングの進歩に触発されて、新しいモダリティである構造化された3Dシーンの自己回帰モデルの可能性を調査します。
この目的のために、言語、画像、3Dシーンを調整する統一されたLLMフレームワークを提案し、データ表現、モダリティ固有の目標などに関連する重要な質問に対処する最適なトレーニングとパフォーマンスに対処するための重要なデザインの選択肢を概説する詳細な「クックブック」を提供します。
4つのコア3Dタスク(レンダリング、認識、命令フォロー、質問回答、および4つの3Dデータセット)、合成および実世界のパフォーマンスを評価します。
3Dモダリティを量子化された形状エンコーディングで濃縮することにより、複雑な3Dオブジェクト形状を再構築するアプローチを拡張し、実際の3Dオブジェクト認識タスクに対するモデルの有効性を示します。
プロジェクトWebページ:https://glab-caltech.github.io/kyvo/
要約(オリジナル)
Creating machines capable of understanding the world in 3D is essential in assisting designers that build and edit 3D environments and robots navigating and interacting within a three-dimensional space. Inspired by advances in language and image modeling, we investigate the potential of autoregressive models for a new modality: structured 3D scenes. To this end, we propose a unified LLM framework that aligns language, images, and 3D scenes and provide a detailed ”cookbook” outlining critical design choices for achieving optimal training and performance addressing key questions related to data representation, modality-specific objectives, and more. We evaluate performance across four core 3D tasks — rendering, recognition, instruction-following, and question-answering — and four 3D datasets, synthetic and real-world. We extend our approach to reconstruct complex 3D object shapes by enriching our 3D modality with quantized shape encodings, and show our model’s effectiveness on real-world 3D object recognition tasks. Project webpage: https://glab-caltech.github.io/kyvo/
arxiv情報
著者 | Aadarsh Sahoo,Vansh Tibrewal,Georgia Gkioxari |
発行日 | 2025-06-09 17:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google