Object Scene Representation Transformer

要約

3D空間でのオブジェクトとそのジオメトリに関する世界の構成的理解は、人間の認知の基礎と見なされます。
ニューラルネットワークでこのような表現の学習を促進することは、ラベル付けされたデータの効率を大幅に改善する可能性を秘めています。
この方向への重要なステップとして、教師なしの方法で複雑なシーンの個々のオブジェクトへの3D整合性のある分解を学習する問題を進めます。
オブジェクトシーン表現トランスフォーマー(OSRT)を紹介します。これは、3D中心のモデルであり、個々のオブジェクト表現が新しいビュー合成によって自然に出現します。
OSRTは、既存の方法よりもオブジェクトと背景の多様性が大きい、非常に複雑なシーンにスケーリングします。
同時に、ライトフィールドのパラメータ化と新しいスロットミキサーデコーダーのおかげで、合成レンダリングで数桁高速になります。
この作業は、将来のアーキテクチャの探索とスケーリングの取り組みを加速するだけでなく、オブジェクト中心の学習コミュニティとニューラルシーン表現学習コミュニティの両方にとって有用なツールとしても役立つと信じています。

要約(オリジナル)

A compositional understanding of the world in terms of objects and their geometry in 3D space is considered a cornerstone of human cognition. Facilitating the learning of such a representation in neural networks holds promise for substantially improving labeled data efficiency. As a key step in this direction, we make progress on the problem of learning 3D-consistent decompositions of complex scenes into individual objects in an unsupervised fashion. We introduce Object Scene Representation Transformer (OSRT), a 3D-centric model in which individual object representations naturally emerge through novel view synthesis. OSRT scales to significantly more complex scenes with larger diversity of objects and backgrounds than existing methods. At the same time, it is multiple orders of magnitude faster at compositional rendering thanks to its light field parametrization and the novel Slot Mixer decoder. We believe this work will not only accelerate future architecture exploration and scaling efforts, but it will also serve as a useful tool for both object-centric as well as neural scene representation learning communities.

arxiv情報

著者 Mehdi S. M. Sajjadi,Daniel Duckworth,Aravindh Mahendran,Sjoerd van Steenkiste,Filip Pavetić,Mario Lučić,Leonidas J. Guibas,Klaus Greff,Thomas Kipf
発行日 2022-06-14 15:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク