要約
世界の構成的な表現は、高レベルの情景理解と下流のタスクへの効率的な移行を可能にする有望なステップである。しかし、複雑なシーンやタスクに対してそのような表現を学習することは、依然として未解決の課題である。この目標に向けて、我々は、新しいビューの再構成を通してオブジェクト中心の表現を学習するスケーラブルな手法であるNeural Radiance Field Codebooks (NRC)を紹介する。NRCは、オブジェクトコードの辞書を用いて、新規ビューからシーンを再構成することを学習し、ボリュームレンダラーを通してデコードする。これにより、シーン間で繰り返される視覚的・幾何学的パターンの発見が可能となり、下流のタスクに転送することができる。NRC表現はTHORのオブジェクトナビゲーションによく適応し、2Dおよび3D表現学習法を3.1%の成功率で上回ります。また、より複雑な合成シーン(THOR)や実シーン(NYU Depth)において、我々のアプローチが先行手法よりも教師なしセグメンテーションを実行できることを示す(29%の相対的改善)。最後に、THORにおいて、NRCが深度順序付けのタスクで5.5%の精度を向上させることを示す。
要約(オリジナル)
Compositional representations of the world are a promising step towards enabling high-level scene understanding and efficient transfer to downstream tasks. Learning such representations for complex scenes and tasks remains an open challenge. Towards this goal, we introduce Neural Radiance Field Codebooks (NRC), a scalable method for learning object-centric representations through novel view reconstruction. NRC learns to reconstruct scenes from novel views using a dictionary of object codes which are decoded through a volumetric renderer. This enables the discovery of reoccurring visual and geometric patterns across scenes which are transferable to downstream tasks. We show that NRC representations transfer well to object navigation in THOR, outperforming 2D and 3D representation learning methods by 3.1% success rate. We demonstrate that our approach is able to perform unsupervised segmentation for more complex synthetic (THOR) and real scenes (NYU Depth) better than prior methods (29% relative improvement). Finally, we show that NRC improves on the task of depth ordering by 5.5% accuracy in THOR.
arxiv情報
著者 | Matthew Wallingford,Aditya Kusupati,Alex Fang,Vivek Ramanujan,Aniruddha Kembhavi,Roozbeh Mottaghi,Ali Farhadi |
発行日 | 2023-01-10 18:03:48+00:00 |
arxivサイト | arxiv_id(pdf) |