要約
オブジェクト中心学習(OCL:Object-Centric Learning)は、単に入力を再構成することにより、画像や動画中のオブジェクトを発見することができる。より良いオブジェクト発見のために、代表的なOCL手法は、ピクセルのノイズを抑制し、連続的なスーパーピクセルをテンプレート特徴で離散化することでオブジェクトの分離性を促進する、VAE(Variational Autoencoder)中間表現として入力を再構成する。しかし、特徴量を単位として扱うと、それらの構成属性が見落とされるため、モデルの汎化が阻害される。また、特徴量をスカラー数でインデックス化すると、属性レベルの類似性や相違性が失われるため、モデルの収束が阻害される。我々は、OCLのためのGDR(Grouped Discrete Representation)を提案する。我々は、組織化されたチャネルグループ化によって特徴を組み合わせ属性に分解し、タプルインデックスによってこれらの属性を離散表現に合成する。実験によれば、我々のGDRは、様々なデータセットにおいて、TransformerベースとDiffusionベースの両方のOCL手法を一貫して改善する。可視化により、我々のGDRがより優れたオブジェクト分離性を捉えることが示される。
要約(オリジナル)
Object-Centric Learning (OCL) can discover objects in images or videos by simply reconstructing the input. For better object discovery, representative OCL methods reconstruct the input as its Variational Autoencoder (VAE) intermediate representation, which suppresses pixel noises and promotes object separability by discretizing continuous super-pixels with template features. However, treating features as units overlooks their composing attributes, thus impeding model generalization; indexing features with scalar numbers loses attribute-level similarities and differences, thus hindering model convergence. We propose \textit{Grouped Discrete Representation} (GDR) for OCL. We decompose features into combinatorial attributes via organized channel grouping, and compose these attributes into discrete representation via tuple indexes. Experiments show that our GDR improves both Transformer- and Diffusion-based OCL methods consistently on various datasets. Visualizations show that our GDR captures better object separability.
arxiv情報
著者 | Rongzhen Zhao,Vivienne Wang,Juho Kannala,Joni Pajarinen |
発行日 | 2024-11-04 17:25:10+00:00 |
arxivサイト | arxiv_id(pdf) |