Bridging the Gap to Real-World Object-Centric Learning

要約

人間は自然に、世界で行動するのに適切な抽象化レベルで環境をエンティティに分解します。
機械学習アルゴリズムがこの分解を教師なしで導出できるようにすることは、重要な研究分野になりました。
ただし、現在の方法はシミュレートされたデータに制限されているか、オブジェクトを正常に検出するために動きや深さの形で追加情報を必要とします。
この作業では、自己教師あり方法でトレーニングされたモデルから特徴を再構築することは、オブジェクト中心の表現が完全に教師なし方法で発生するための十分なトレーニング信号であることを示すことにより、この制限を克服します。
私たちのアプローチである DINOSAUR は、シミュレートされたデータに対する既存のオブジェクト中心の学習モデルよりも大幅に優れており、COCO や PASCAL VOC などの実世界のデータセットにスケーリングする最初の教師なしオブジェクト中心のモデルです。
DINOSAUR は概念的に単純であり、コンピューター ビジョンの文献のより複雑なパイプラインと比較して、競争力のあるパフォーマンスを示しています。

要約(オリジナル)

Humans naturally decompose their environment into entities at the appropriate level of abstraction to act in the world. Allowing machine learning algorithms to derive this decomposition in an unsupervised way has become an important line of research. However, current methods are restricted to simulated data or require additional information in the form of motion or depth in order to successfully discover objects. In this work, we overcome this limitation by showing that reconstructing features from models trained in a self-supervised manner is a sufficient training signal for object-centric representations to arise in a fully unsupervised way. Our approach, DINOSAUR, significantly out-performs existing object-centric learning models on simulated data and is the first unsupervised object-centric model that scales to real world-datasets such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows competitive performance compared to more involved pipelines from the computer vision literature.

arxiv情報

著者 Maximilian Seitzer,Max Horn,Andrii Zadaianchuk,Dominik Zietlow,Tianjun Xiao,Carl-Johann Simon-Gabriel,Tong He,Zheng Zhang,Bernhard Schölkopf,Thomas Brox,Francesco Locatello
発行日 2022-09-29 15:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク