Complex-Valued Autoencoders for Object Discovery

要約

オブジェクト中心の表現は、人間の知覚の基礎を形成し、世界について推論し、新しい設定に体系的に一般化することを可能にします。
現在、教師なしオブジェクトの発見に関するほとんどの作業は、個々のオブジェクトの潜在的な表現を明示的に分離するスロットベースのアプローチに焦点を当てています。
結果は簡単に解釈できますが、通常は関連するアーキテクチャの設計が必要になります。
これとは対照的に、分散オブジェクト中心の表現を作成する、比較的単純なアプローチである複合オートエンコーダー (CAE) を提案します。
生物学的ニューロンのオブジェクト表現の根底にあると理論化されたコーディング スキームに従って、その複素数値の活性化は 2 つのメッセージを表します。それらの大きさは特徴の存在を表し、ニューロン間の相対的な位相差は、結合オブジェクト表現を作成するためにどの特徴を結合する必要があるかを表します。
.
オブジェクトの発見に複雑な値のアクティベーションを使用する以前のアプローチとは対照的に、エンドツーエンドでトレーニングされる完全に教師なしのアプローチを提示します。これにより、パフォーマンスと効率が大幅に向上します。
さらに、CAE は、最先端のスロットベースのアプローチと比較して、単純な複数オブジェクトのデータセットで、最大 100 倍のトレーニング速度で、競争力のある、またはより優れた教師なしオブジェクト検出パフォーマンスを達成することを示しています。

要約(オリジナル)

Object-centric representations form the basis of human perception, and enable us to reason about the world and to systematically generalize to new settings. Currently, most works on unsupervised object discovery focus on slot-based approaches, which explicitly separate the latent representations of individual objects. While the result is easily interpretable, it usually requires the design of involved architectures. In contrast to this, we propose a comparatively simple approach – the Complex AutoEncoder (CAE) – that creates distributed object-centric representations. Following a coding scheme theorized to underlie object representations in biological neurons, its complex-valued activations represent two messages: their magnitudes express the presence of a feature, while the relative phase differences between neurons express which features should be bound together to create joint object representations. In contrast to previous approaches using complex-valued activations for object discovery, we present a fully unsupervised approach that is trained end-to-end – resulting in significant improvements in performance and efficiency. Further, we show that the CAE achieves competitive or better unsupervised object discovery performance on simple multi-object datasets compared to a state-of-the-art slot-based approach while being up to 100 times faster to train.

arxiv情報

著者 Sindy Löwe,Phillip Lippe,Maja Rudolph,Max Welling
発行日 2022-11-18 16:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク