Explicitly Disentangled Representations in Object-Centric Learning

要約

生の視覚データから構造化表現を抽出することは、機械学習における重要かつ長年の課題です。
最近、オブジェクト中心表現の教師なし学習技術に対する関心が高まっています。
これに関連して、潜在的な特徴の堅牢性を強化すると、下流タスクのトレーニングの効率と有効性を向上させることができます。
この方向への有望なステップは、データの変動を引き起こす要因を解きほぐすことです。
以前は、Invariant Slot Attendance によって、位置、スケール、方向が残りのフィーチャから切り離されていました。
このアプローチを拡張して、形状コンポーネントとテクスチャコンポーネントを分離することに焦点を当てます。
特に、形状とテクスチャのコンポーネントを潜在空間次元の 2 つの重複しないサブセットに解きほぐす方向にオブジェクト中心モデルをバイアスする新しいアーキテクチャを提案します。
これらのサブセットは事前に、つまりトレーニング プロセスの前に既知です。
さまざまなオブジェクト中心のベンチマークの実験により、私たちのアプローチが望ましい解を達成しながら、ほとんどの場合ベースライン パフォーマンスを数値的に改善することが明らかになりました。
さらに、私たちの方法が特定のオブジェクトに対して新しいテクスチャを生成したり、異なる形状を持つオブジェクト間でテクスチャを転送したりできることを示します。

要約(オリジナル)

Extracting structured representations from raw visual data is an important and long-standing challenge in machine learning. Recently, techniques for unsupervised learning of object-centric representations have raised growing interest. In this context, enhancing the robustness of the latent features can improve the efficiency and effectiveness of the training of downstream tasks. A promising step in this direction is to disentangle the factors that cause variation in the data. Previously, Invariant Slot Attention disentangled position, scale, and orientation from the remaining features. Extending this approach, we focus on separating the shape and texture components. In particular, we propose a novel architecture that biases object-centric models toward disentangling shape and texture components into two non-overlapping subsets of the latent space dimensions. These subsets are known a priori, hence before the training process. Experiments on a range of object-centric benchmarks reveal that our approach achieves the desired disentanglement while also numerically improving baseline performance in most cases. In addition, we show that our method can generate novel textures for a specific object or transfer textures between objects with distinct shapes.

arxiv情報

著者 Riccardo Majellaro,Jonathan Collu,Aske Plaat,Thomas M. Moerland
発行日 2024-01-18 17:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク