SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers


教師なしオブジェクト中心学習は、シーンをスロットと呼ばれる解釈可能なオブジェクトエンティティに分解することを目的とする。スロットベースのオートエンコーダは、このタスクのための著名な手法として際立っている。その中で重要な点は、エンコーダがオブジェクト固有のスロットを生成するように導くことと、デコーダが再構成時にスロットを確実に利用することである。この研究では2つの新しい手法を導入する。(i)注意ベースの自己訓練アプローチ。これは優れたスロットベースの注意マスクをデコーダからエンコーダに抽出し、オブジェクトのセグメンテーションを強化する。これらの戦略の有効性を実験的に示す。その結果、特に複雑な実世界の画像において、教師なしオブジェクトセグメンテーションにおいて、スロットベースのオートエンコーダによる先行手法を大幅に上回ることがわかった。実装コードを で提供する。


Unsupervised object-centric learning aims to decompose scenes into interpretable object entities, termed slots. Slot-based auto-encoders stand out as a prominent method for this task. Within them, crucial aspects include guiding the encoder to generate object-specific slots and ensuring the decoder utilizes them during reconstruction. This work introduces two novel techniques, (i) an attention-based self-training approach, which distills superior slot-based attention masks from the decoder to the encoder, enhancing object segmentation, and (ii) an innovative patch-order permutation strategy for autoregressive transformers that strengthens the role of slot vectors in reconstruction. The effectiveness of these strategies is showcased experimentally. The combined approach significantly surpasses prior slot-based autoencoder methods in unsupervised object segmentation, especially with complex real-world images. We provide the implementation code at .


著者 Ioannis Kakogeorgiou,Spyros Gidaris,Konstantinos Karantzalos,Nikos Komodakis
発行日 2023-12-01 15:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク