Learning What and Where — Unsupervised Disentangling Location and Identity Tracking

要約

私たちの脳は、視覚データストリームをほとんど簡単に背景と顕著なオブジェクトに分解することができます。さらに、物体の動きや相互作用を予測することができ、これは概念的な計画や推論に不可欠な能力である。CATERのような最近の物体推論データセットは、現在の視覚ベースのAIシステムの基本的な欠点を明らかにしてきた。特に、明示的な物体符号化、物体永続性、物体推論を対象とする場合、その欠点は顕著である。本論文では、CATERの追跡課題において優れた性能を発揮する、自己教師付きLOCation and Identity追跡システム(Loci)を紹介する。Lociは、脳の背側-腹側経路にヒントを得て、「何が」「どこに」という別々のスロットワイズ符号化を処理することにより、結合問題に取り組む。Lociの予測符号化のような処理は、個々のスロットが個々のオブジェクトを符号化する傾向があるように、能動的なエラー最小化を促します。オブジェクト間の相互作用とオブジェクトダイナミクスは、分離された潜在的空間で処理される。切り捨てられたバックプロパゲーションと前方適格性蓄積を組み合わせることで、学習速度を大幅に向上させ、記憶効率を改善する。Lociは、現在のベンチマークで優れた性能を示すだけでなく、ビデオストリームから効果的にオブジェクトを抽出し、位置情報とゲシュタルト成分に分離する。この分離は、概念レベルでの効果的な計画や推論を促進するエンコーディングを提供すると考えている。

要約(オリジナル)

Our brain can almost effortlessly decompose visual data streams into background and salient objects. Moreover, it can anticipate object motion and interactions, which are crucial abilities for conceptual planning and reasoning. Recent object reasoning datasets, such as CATER, have revealed fundamental shortcomings of current vision-based AI systems, particularly when targeting explicit object encodings, object permanence, and object reasoning. Here we introduce a self-supervised LOCation and Identity tracking system (Loci), which excels on the CATER tracking challenge. Inspired by the dorsal-ventral pathways in the brain, Loci tackles the binding problem by processing separate, slot-wise encodings of ‘what’ and ‘where’. Loci’s predictive coding-like processing encourages active error minimization, such that individual slots tend to encode individual objects. Interactions between objects and object dynamics are processed in the disentangled latent space. Truncated backpropagation through time combined with forward eligibility accumulation significantly speeds up learning and improves memory efficiency. Besides exhibiting superior performance in current benchmarks, Loci effectively extracts objects from video streams and separates them into location and Gestalt components. We believe that this separation offers an encoding that will facilitate effective planning and reasoning on conceptual levels.

arxiv情報

著者 Manuel Traub,Sebastian Otte,Tobias Menge,Matthias Karlbauer,Jannik Thümmel,Martin V. Butz
発行日 2022-10-06 09:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク