Learning 3D object-centric representation through prediction

要約

人間の核となる知識の一部として、オブジェクトの表現は、高レベルの概念と象徴的推論をサポートする精神的表現の構成要素です。
人間は、監督なしで 3D 環境にある物体を認識する能力を発達させますが、人間の幼児が直面する同様の制約のもとで同じ一連の能力を学習するモデルが不足しています。
この目的に向けて、私たちは、脳に直接利用可能な情報のみをトレーニング データとして使用しながら、1) 離散画像からオブジェクトをセグメント化する、2) オブジェクトの 3D 位置を推測する、3) 奥行きを知覚することを同時に学習する新しいネットワーク アーキテクチャを開発しました。
: 一連のイメージと自己の動き。
中心的なアイデアは、脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在的な原因としてオブジェクトを扱うことです。
これにより、予測学習の重要な副産物としてオブジェクト表現が学習されます。

要約(オリジナル)

As part of human core knowledge, the representation of objects is the building block of mental representation that supports high-level concepts and symbolic reasoning. While humans develop the ability of perceiving objects situated in 3D environments without supervision, models that learn the same set of abilities with similar constraints faced by human infants are lacking. Towards this end, we developed a novel network architecture that simultaneously learns to 1) segment objects from discrete images, 2) infer their 3D locations, and 3) perceive depth, all while using only information directly available to the brain as training data, namely: sequences of images and self-motion. The core idea is treating objects as latent causes of visual input which the brain uses to make efficient predictions of future scenes. This results in object representations being learned as an essential byproduct of learning to predict.

arxiv情報

著者 John Day,Tushar Arora,Jirui Liu,Li Erran Li,Ming Bo Cai
発行日 2024-03-06 14:19:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク