Shepherding Slots to Objects: Towards Stable and Robust Object-Centric Learning

要約

タイトル:物体にスロットを割り当てることで、安定したかつ頑健な物体中心学習を目指す

要約:

– 物体中心学習(OCL)は、シーンを物体中心の表現の集合として表現することにより、シーンの一般的かつ合成的な理解を目指す。
– OCLは、幾何学的または時間的情報を利用して、多視点画像や動画データセットに多様なデータ駆動の帰納バイアスを適用することにより、拡張されてきた。
– 一視点画像は、ビデオまたは多視点画像よりも与えられたシーンをいかに分解するかの情報が少ないため、帰納バイアスを適用することが困難であり、一視点画像のOCLはオブジェクト中心の表現の一貫性のある学習が難しい。
– この問題を解決するために、スロットアテンションの上に2つの単純かつ効果的なモジュールで構成される、新しいOCLフレームワークであるSLot Attention via SHepherding(SLASH)を提案する。
– 新たなモジュールであるAttention Refining Kernel(ARK)とIntermediate Point Predictor and Encoder(IPPE)は、背景雑音によるスロットの気を散らすことを防止し、オブジェクト中心の表現の学習を助けるために、スロットが重点を置く場所を示す。
– OCLに対する弱い半教師ありアプローチも提案しており、推論中に任意の補助注釈を使用することなく、提案されたフレームワークを利用できる。
– 実験により、提案した方法によりオブジェクト中心の表現の一貫性のある学習が可能となり、4つのデータセットで強力なパフォーマンスを発揮することが示された。コードは\url{https://github.com/object-understanding/SLASH}で公開されている。

要約(オリジナル)

Object-centric learning (OCL) aspires general and compositional understanding of scenes by representing a scene as a collection of object-centric representations. OCL has also been extended to multi-view image and video datasets to apply various data-driven inductive biases by utilizing geometric or temporal information in the multi-image data. Single-view images carry less information about how to disentangle a given scene than videos or multi-view images do. Hence, owing to the difficulty of applying inductive biases, OCL for single-view images remains challenging, resulting in inconsistent learning of object-centric representation. To this end, we introduce a novel OCL framework for single-view images, SLot Attention via SHepherding (SLASH), which consists of two simple-yet-effective modules on top of Slot Attention. The new modules, Attention Refining Kernel (ARK) and Intermediate Point Predictor and Encoder (IPPE), respectively, prevent slots from being distracted by the background noise and indicate locations for slots to focus on to facilitate learning of object-centric representation. We also propose a weak semi-supervision approach for OCL, whilst our proposed framework can be used without any assistant annotation during the inference. Experiments show that our proposed method enables consistent learning of object-centric representation and achieves strong performance across four datasets. Code is available at \url{https://github.com/object-understanding/SLASH}.

arxiv情報

著者 Jinwoo Kim,Janghyuk Choi,Ho-Jin Choi,Seon Joo Kim
発行日 2023-03-31 07:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク