Organized Grouped Discrete Representation for Object-Centric Learning

要約

オブジェクト中心学習 (OCL) は、密な画像またはビデオのピクセルを疎なオブジェクトの特徴として表します。
代表的な方法は、変分オートエンコーダ (VAE) テンプレート特徴で構成される離散表現を利用して、ピクセルレベルの情報の冗長性を抑制し、オブジェクトレベルの特徴集約を誘導します。
最新の進歩である Grouped Discrete Representation (GDR) は、これらのテンプレートの機能を属性にさらに分解します。
ただし、分解としての単純なチャネル グループ化では、異なる属性に属するチャネルが誤ってグループ化され、次善のテンプレート属性として離散化される可能性があり、情報が失われ、表現力が損なわれます。
私たちは、特徴から属性への正しい分解のために、同じ属性に属するチャネルをまとめて組織化する組織化 GDR (OGDR) を提案します。
教師なしセグメンテーション実験では、OGDR は古典的なトランスフォーマーベースの OCL 手法を強化する点で GDR よりも完全に優れています。
最先端の拡散ベースのものも改良されています。
コードブック PCA と表現類似性分析により、GDR と比較して、OGDR は冗長性を排除し、オブジェクト表現の学習を導くための情報をより適切に保存していることが示されています。
ソース コードは補足資料で入手できます。

要約(オリジナル)

Object-Centric Learning (OCL) represents dense image or video pixels as sparse object features. Representative methods utilize discrete representation composed of Variational Autoencoder (VAE) template features to suppress pixel-level information redundancy and guide object-level feature aggregation. The most recent advancement, Grouped Discrete Representation (GDR), further decomposes these template features into attributes. However, its naive channel grouping as decomposition may erroneously group channels belonging to different attributes together and discretize them as sub-optimal template attributes, which losses information and harms expressivity. We propose Organized GDR (OGDR) to organize channels belonging to the same attributes together for correct decomposition from features into attributes. In unsupervised segmentation experiments, OGDR is fully superior to GDR in augmentating classical transformer-based OCL methods; it even improves state-of-the-art diffusion-based ones. Codebook PCA and representation similarity analyses show that compared with GDR, our OGDR eliminates redundancy and preserves information better for guiding object representation learning. The source code is available in the supplementary material.

arxiv情報

著者 Rongzhen Zhao,Vivienne Wang,Juho Kannala,Joni Pajarinen
発行日 2024-09-05 14:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク