Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers

要約

最近の研究では、オブジェクト中心の表現が、解釈可能性をもたらすと同時に、ダイナミクス学習の精度向上に大いに役立つことが示されている。この研究では、この考えをさらに一歩進め、「オブジェクト中心モデルにおいて、分離された表現を学習することで、視覚的ダイナミクスの予測精度をさらに向上させることができるか」という問いを立てる。静止画像の場合、このような分離された表現を学習する試みはいくつかあるが、我々の知る限り、我々の研究は、オブジェクトが持つ可能性のある属性の種類について特別な仮定をすることなく、ビデオの一般的な設定でこれを行おうとする最初の研究である。我々のアーキテクチャの主要な構成要素は{em block}の概念であり、いくつかのブロックを一緒にすることで、オブジェクトを構成する。各ブロックは与えられた数の学習可能な概念ベクトルの線形結合として表現され、学習過程で反復的に改良される。私たちのモデルにおけるブロックは、オブジェクト中心の密な表現を学習するための、スロットの発見(discovery of slots \citep{slot_attention})に似たスタイルで、オブジェクトマスクの上にアテンションすることによって、教師なし方法で発見される。発見されたブロックに対する変換器を介した自己注意を採用し、視覚的ダイナミクスの発見をもたらす次の状態を予測する。いくつかのベンチマーク2次元、3次元データセットで一連の実験を行い、本アーキテクチャが、(1)意味的に意味のあるブロックを発見できること、(2)SOTAオブジェクト中心モデルと比較して、ダイナミクス予測の精度を向上させること、(3)学習中に特定の属性の組み合わせが早期に見られないOOD設定において、著しく優れた性能を発揮することを実証する。我々の実験は、視覚的ダイナミクス予測における分離表現の重要性を強調する。

要約(オリジナル)

Recent work has shown that object-centric representations can greatly help improve the accuracy of learning dynamics while also bringing interpretability. In this work, we take this idea one step further, ask the following question: ‘can learning disentangled representation further improve the accuracy of visual dynamics prediction in object-centric models?’ While there has been some attempt to learn such disentangled representations for the case of static images \citep{nsb}, to the best of our knowledge, ours is the first work which tries to do this in a general setting for video, without making any specific assumptions about the kind of attributes that an object might have. The key building block of our architecture is the notion of a {\em block}, where several blocks together constitute an object. Each block is represented as a linear combination of a given number of learnable concept vectors, which is iteratively refined during the learning process. The blocks in our model are discovered in an unsupervised manner, by attending over object masks, in a style similar to discovery of slots \citep{slot_attention}, for learning a dense object-centric representation. We employ self-attention via transformers over the discovered blocks to predict the next state resulting in discovery of visual dynamics. We perform a series of experiments on several benchmark 2-D, and 3-D datasets demonstrating that our architecture (1) can discover semantically meaningful blocks (2) help improve accuracy of dynamics prediction compared to SOTA object-centric models (3) perform significantly better in OOD setting where the specific attribute combinations are not seen earlier during training. Our experiments highlight the importance discovery of disentangled representation for visual dynamics prediction.

arxiv情報

著者 Sanket Gandhi,Atul,Samanyu Mahajan,Vishal Sharma,Rushil Gupta,Arnab Kumar Mondal,Parag Singla
発行日 2024-07-03 15:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク