Object-Centric Learning with Slot Mixture Module

要約

オブジェクト中心のアーキテクチャは通常、微分可能モジュールを特徴マップ全体に適用して、スロットと呼ばれるエンティティ表現のセットに分解します。
これらの方法の一部は構造的にクラスタリング アルゴリズムに似ており、潜在空間内のクラスタの中心がスロット表現として機能します。
スロット アテンションはそのような方法の一例であり、ソフト K 平均法アルゴリズムの学習可能な類似物として機能します。
私たちの研究では、混合ガウス モデルに基づいた学習可能なクラスタリング手法を採用しています。
他のアプローチとは異なり、スロットをクラスターの中心として表すだけでなく、クラスター間の距離と割り当てられたベクトルに関する情報も組み込むことで、より表現力豊かなスロット表現が可能になります。
私たちの実験では、スロット アテンションの代わりにこのアプローチを使用すると、オブジェクト中心のシナリオでパフォーマンスが向上し、セット プロパティ予測タスクで最先端の結果が得られることが実証されました。

要約(オリジナル)

Object-centric architectures usually apply a differentiable module to the entire feature map to decompose it into sets of entity representations called slots. Some of these methods structurally resemble clustering algorithms, where the cluster’s center in latent space serves as a slot representation. Slot Attention is an example of such a method, acting as a learnable analog of the soft k-means algorithm. Our work employs a learnable clustering method based on the Gaussian Mixture Model. Unlike other approaches, we represent slots not only as centers of clusters but also incorporate information about the distance between clusters and assigned vectors, leading to more expressive slot representations. Our experiments demonstrate that using this approach instead of Slot Attention improves performance in object-centric scenarios, achieving state-of-the-art results in the set property prediction task.

arxiv情報

著者 Daniil Kirilenko,Vitaliy Vorobyov,Alexey K. Kovalev,Aleksandr I. Panov
発行日 2023-11-08 12:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク