要約
複雑な視覚シーンからオブジェクト中心の抽象化を抽出する能力は、人間レベルの一般化を支えます。
オブジェクト中心の学習方法は大幅に進歩しているにもかかわらず、3D 物理世界におけるオブジェクト中心の表現を学習することは依然として重要な課題です。
この研究では、スロットガイドによる特徴リフティングを介してシーンの再構成と分解を共同で扱う新しいオブジェクト中心の放射輝度モデルである SlotLifter を提案します。
このような設計は、オブジェクト中心の学習表現と画像ベースのレンダリング手法を統合し、4 つの困難な合成データセットと 4 つの複雑な実世界データセットに対するシーン分解と新規ビュー合成における最先端のパフォーマンスを提供し、既存の 3D オブジェクトを上回るパフォーマンスを実現します。
中心的な学習方法が大差を付けています。
広範なアブレーション研究を通じて、SlotLifter の設計の有効性を実証し、潜在的な将来の方向性についての重要な洞察を明らかにします。
要約(オリジナル)
The ability to distill object-centric abstractions from intricate visual scenes underpins human-level generalization. Despite the significant progress in object-centric learning methods, learning object-centric representations in the 3D physical world remains a crucial challenge. In this work, we propose SlotLifter, a novel object-centric radiance model addressing scene reconstruction and decomposition jointly via slot-guided feature lifting. Such a design unites object-centric learning representations and image-based rendering methods, offering state-of-the-art performance in scene decomposition and novel-view synthesis on four challenging synthetic and four complex real-world datasets, outperforming existing 3D object-centric learning methods by a large margin. Through extensive ablative studies, we showcase the efficacy of designs in SlotLifter, revealing key insights for potential future directions.
arxiv情報
著者 | Yu Liu,Baoxiong Jia,Yixin Chen,Siyuan Huang |
発行日 | 2024-08-13 07:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google