Loci-Segmented: Improving Scene Segmentation Learning

要約

合成シーン表現のためのスロット指向の処理アプローチは、最近大幅な発展を遂げています。
我々は、スロットベースの位置およびアイデンティティ追跡アーキテクチャ Loci を拡張する高度なシーン セグメンテーション ニューラル ネットワークである Loci-Segmented (Loci-s) を紹介します (Traub et al.、ICLR 2023)。
主な進歩は、(i) 事前トレーニングされた動的バックグラウンド モジュールの追加です。
(ii) オブジェクト中心のボトムアップ処理を可能にするハイパーコンボリューション エンコーダ モジュール。
(iii) カスケード デコーダ モジュール。オブジェクト マスク、マスクされた深度マップ、およびマスクされた深度マップ情報に基づいた RGB 再構成を連続的に生成します。
バックグラウンド モジュールは、前景識別モジュールとバックグラウンド再生成器の両方の学習を特徴としています。
(a) 深度情報の統合と、(b) スロット位置エンティティの正則化および (b) 事前のセグメンテーション ネットワークによるスロット割り当ての改善により、パフォーマンスをさらに向上させます。
後者の改善がなかったとしても、結果から、MOVi データセットおよび確立された別のデータセット コレクションにおいて優れたセグメンテーション パフォーマンスが明らかになりました。
すべての改善により、Loci-s は、MOVi-E での交差オーバーユニオン (IoU) スコアが以前の最高のものより 32% 向上しました。
さらに、Loci-s がよく解釈可能な潜在表現を生成することを示します。
私たちは、これらの表現が、グラウンディング言語やコンテキストおよび目標条件付きイベント処理などの下流タスクを解決するための、基礎モデルのような解釈可能な基盤として機能する可能性があると考えています。

要約(オリジナル)

Slot-oriented processing approaches for compositional scene representation have recently undergone a tremendous development. We present Loci-Segmented (Loci-s), an advanced scene segmentation neural network that extends the slot-based location and identity tracking architecture Loci (Traub et al., ICLR 2023). The main advancements are (i) the addition of a pre-trained dynamic background module; (ii) a hyper-convolution encoder module, which enables object-focused bottom-up processing; and (iii) a cascaded decoder module, which successively generates object masks, masked depth maps, and masked, depth-map-informed RGB reconstructions. The background module features the learning of both a foreground identifying module and a background re-generator. We further improve performance via (a) the integration of depth information as well as improved slot assignments via (b) slot-location-entity regularization and (b) a prior segmentation network. Even without these latter improvements, the results reveal superior segmentation performance in the MOVi datasets and in another established dataset collection. With all improvements, Loci-s achieves a 32% better intersection over union (IoU) score in MOVi-E than the previous best. We furthermore show that Loci-s generates well-interpretable latent representations. We believe that these representations may serve as a foundation-model-like interpretable basis for solving downstream tasks, such as grounding language and context- and goal-conditioned event processing.

arxiv情報

著者 Manuel Traub,Frederic Becker,Adrian Sauter,Sebastian Otte,Martin V. Butz
発行日 2023-10-16 13:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク