Loci-Segmented: Improving Scene Segmentation Learning

要約

画像やビデオから構成シーンをセグメンテーションするためのスロット指向のアプローチは、依然として提供された背景情報またはスロットの割り当てに依存しています。
我々は、スロットベースの位置およびアイデンティティ追跡アーキテクチャ Loci 上に構築された Loci-Segmented (Loci-s) を紹介します (Traub et al.、ICLR 2023)。
Loci-s は、前景識別モジュールと背景再生成器による動的 (i) バックグラウンド処理を可能にします。
(ii) トップダウンで修正されたオブジェクト中心のボトムアップ処理。
(iii) 深度推定値の生成。
また、スロット位置エンティティの正規化メカニズムと事前のセグメンテーション ネットワークを介して、自動スロット割り当ても改善しました。
その結果、MOVi データセットおよびシーン セグメンテーションを対象とした別の確立されたデータセット コレクションにおける優れたビデオ分解パフォーマンスが明らかになりました。
Loci-s は、マルチオブジェクト ビデオ データセット MOVi-E の交差オーバーユニオン (IoU) スコアに関して、教師付きスロット割り当てや背景情報の提供がない場合でも、最先端のスコアを大幅に上回っています。

さらに、Loci-s がよく解釈可能な潜在表現を生成することを示します。
これらの表現は、グラウンディング言語、構成ルールの形成、ワンショット強化学習タスクの解決など、下流タスクを解決するための基礎モデルのような解釈可能な基礎として機能する可能性があります。

要約(オリジナル)

Slot-oriented approaches for compositional scene segmentation from images and videos still depend on provided background information or slot assignments. We present Loci-Segmented (Loci-s) building on the slot-based location and identity tracking architecture Loci (Traub et al., ICLR 2023). Loci-s enables dynamic (i) background processing by means of a foreground identifying module and a background re-generator; (ii) top-down modified object-focused bottom-up processing; and (iii) depth estimate generation. We also improve automatic slot assignment via a slot-location-entity regularization mechanism and a prior segmentation network. The results reveal superior video decomposition performance in the MOVi datasets and in another established dataset collection targeting scene segmentation. Loci-s outperforms the state-of-the-art with respect to the intersection over union (IoU) score in the multi-object video dataset MOVi-E by a large margin and even without supervised slot assignments and without the provision of background information. We furthermore show that Loci-s generates well-interpretable latent representations. These representations may serve as a foundation-model-like interpretable basis for solving downstream tasks, such as grounding language, forming compositional rules, or solving one-shot reinforcement learning tasks.

arxiv情報

著者 Manuel Traub,Frederic Becker,Adrian Sauter,Sebastian Otte,Martin V. Butz
発行日 2023-12-13 15:30:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク