Contrastive Training of Complex-Valued Autoencoders for Object Discovery

要約

現在の最先端のオブジェクト中心モデルは、バインディングにスロットとアテンションベースのルーティングを使用します。
ただし、このクラスのモデルには概念的な制限がいくつかあります。スロットの数は固定されています。
すべてのスロットの容量は同じです。
トレーニングには高い計算コストがかかります。
スロット内にはオブジェクトレベルの関係要素はありません。
同期ベースのモデルは原則として、位相コンポーネントにバインディング情報を格納する複素数値のアクティベーションを使用することで、これらの制限に対処できます。
ただし、このような同期ベースのモデルの実例はごく最近開発されたばかりで、実際にはまだおもちゃのグレースケール データセットと 3 つ未満のオブジェクトの同時保存に限定されています。
ここでは、最先端の同期ベースのモデルを大幅に改善するアーキテクチャの変更と新しい対照的な学習方法を紹介します。
我々は初めて、複数の物体のカラー データセット内で教師なしの方法で物体を発見し、同時に 3 つ以上の物体を表現できる同期ベースのモデルのクラスを取得しました。

要約(オリジナル)

Current state-of-the-art object-centric models use slots and attention-based routing for binding. However, this class of models has several conceptual limitations: the number of slots is hardwired; all slots have equal capacity; training has high computational cost; there are no object-level relational factors within slots. Synchrony-based models in principle can address these limitations by using complex-valued activations which store binding information in their phase components. However, working examples of such synchrony-based models have been developed only very recently, and are still limited to toy grayscale datasets and simultaneous storage of less than three objects in practice. Here we introduce architectural modifications and a novel contrastive learning method that greatly improve the state-of-the-art synchrony-based model. For the first time, we obtain a class of synchrony-based models capable of discovering objects in an unsupervised manner in multi-object color datasets and simultaneously representing more than three objects.

arxiv情報

著者 Aleksandar Stanić,Anand Gopalakrishnan,Kazuki Irie,Jürgen Schmidhuber
発行日 2023-11-09 13:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク