MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

要約

具体化されたAI(EAI)研究では、スキルの獲得、SIMからリアルへの転送、および一般化を効果的にサポートするために、高品質で多様な3Dシーンが必要です。
ただし、これらの品質基準を達成するには、実際のオブジェクトの多様性の正確な複製が必要です。
既存のデータセットは、このプロセスがアーティスト主導のデザインに大きく依存していることを示しています。
現実的でインタラクティブな3Dシーンをスケーラブルに作成するために、最初に、831の細かいカテゴリにまたがる15366オブジェクトを含む、実際のスキャンから構築された大規模でシミュレート可能な3DシーンデータセットであるMetascenesを紹介します。
次に、堅牢なマルチモーダルアライメントモデルであるScan2Simを導入します。これにより、資産の自動化された高品質の交換が可能になり、3Dシーンをスケーリングするためのアーティスト主導のデザインへの依存が排除されます。
さらに、メタセンを評価するために2つのベンチマークを提案します。ロボット操作のための小さなアイテムレイアウトと、クロスドメイン転送を検証するためのビジョンと言語ナビゲーション(VLN)のドメイン転送タスクに焦点を当てた詳細なシーン合成タスク。
結果は、より一般化可能なエージェント学習とSIMから実現アプリケーションをサポートすることにより、EAIを強化するメタセンの可能性を確認し、EAI研究の新しい可能性を導入します。
プロジェクトWebサイト:https://meta-scenes.github.io/。

要約(オリジナル)

Embodied AI (EAI) research requires high-quality, diverse 3D scenes to effectively support skill acquisition, sim-to-real transfer, and generalization. Achieving these quality standards, however, necessitates the precise replication of real-world object diversity. Existing datasets demonstrate that this process heavily relies on artist-driven designs, which demand substantial human effort and present significant scalability challenges. To scalably produce realistic and interactive 3D scenes, we first present MetaScenes, a large-scale, simulatable 3D scene dataset constructed from real-world scans, which includes 15366 objects spanning 831 fine-grained categories. Then, we introduce Scan2Sim, a robust multi-modal alignment model, which enables the automated, high-quality replacement of assets, thereby eliminating the reliance on artist-driven designs for scaling 3D scenes. We further propose two benchmarks to evaluate MetaScenes: a detailed scene synthesis task focused on small item layouts for robotic manipulation and a domain transfer task in vision-and-language navigation (VLN) to validate cross-domain transfer. Results confirm MetaScene’s potential to enhance EAI by supporting more generalizable agent learning and sim-to-real applications, introducing new possibilities for EAI research. Project website: https://meta-scenes.github.io/.

arxiv情報

著者 Huangyue Yu,Baoxiong Jia,Yixin Chen,Yandan Yang,Puhao Li,Rongpeng Su,Jiaxin Li,Qing Li,Wei Liang,Song-Chun Zhu,Tengyu Liu,Siyuan Huang
発行日 2025-05-05 06:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク