Bayes3D: fast learning and inference in structured generative models of 3D objects and scenes


ロボットは、新しい 3D オブジェクトの形状を迅速に学習し、乱雑さや遮蔽にもかかわらずそれらを確実に認識する人間の能力にはまだ匹敵しません。
我々は、構造化された 3D シーンのための不確実性を認識した知覚システムである Bayes3D を紹介します。これは、クラッターやオクルージョンが存在する場合でも、3D オブジェクトの形状、姿勢、シーン構成に関する正確な事後不確実性を報告します。
Bayes3D は、3D シーン用の新しい階層ベイジアン モデルと、GPU で高速化された粗いから細かいまでの逐次モンテカルロ アルゴリズムを通じてこれらの機能を提供します。
定量的実験では、Bayes3D がほんの少数のビューから新しいオブジェクトの 3D モデルを学習し、それらをより堅牢に認識し、ニューラル ベースラインよりも桁違いに少ないトレーニング データで、単一の GPU でリアルタイムよりも高速に 3D オブジェクトを追跡できることが示されています。
また、Bayes3D が複雑な 3D オブジェクト モデルを学習し、テーブルトップ シナリオの Panda ロボットで使用された場合に 3D シーンの構成を正確に推測することも実証します。


Robots cannot yet match humans’ ability to rapidly learn the shapes of novel 3D objects and recognize them robustly despite clutter and occlusion. We present Bayes3D, an uncertainty-aware perception system for structured 3D scenes, that reports accurate posterior uncertainty over 3D object shape, pose, and scene composition in the presence of clutter and occlusion. Bayes3D delivers these capabilities via a novel hierarchical Bayesian model for 3D scenes and a GPU-accelerated coarse-to-fine sequential Monte Carlo algorithm. Quantitative experiments show that Bayes3D can learn 3D models of novel objects from just a handful of views, recognizing them more robustly and with orders of magnitude less training data than neural baselines, and tracking 3D objects faster than real time on a single GPU. We also demonstrate that Bayes3D learns complex 3D object models and accurately infers 3D scene composition when used on a Panda robot in a tabletop scenario.


著者 Nishad Gothoskar,Matin Ghavami,Eric Li,Aidan Curtis,Michael Noseworthy,Karen Chung,Brian Patton,William T. Freeman,Joshua B. Tenenbaum,Mirko Klukas,Vikash K. Mansinghka
発行日 2023-12-14 07:59:31+00:00
