Loci-Segmented: Improving Scene Segmentation Learning

要約

画像およびビデオから構成シーンをセグメンテーションするための現在のスロット指向のアプローチは、提供された背景情報またはスロット割り当てに依存しています。
我々は、これらの情報のいずれも必要としない、セグメント化された位置および身元追跡システムである Loci-Segmented (Loci-s) を紹介します。
シーンを解釈可能な背景とスロットベースのオブジェクト エンコーディングに動的にセグメント化し、それぞれの rgb、マスク、位置、深度情報を分離することを学習します。
その結果、MOVi データセットおよびシーン セグメンテーションを対象とした別の確立されたデータセット コレクションにおけるビデオ分解パフォーマンスが大幅に優れていることが明らかになりました。
このシステムの十分に解釈可能な、構成的な潜在エンコーディングは、下流のタスクの基礎モデルとして機能する可能性があります。

要約(オリジナル)

Current slot-oriented approaches for compositional scene segmentation from images and videos rely on provided background information or slot assignments. We present a segmented location and identity tracking system, Loci-Segmented (Loci-s), which does not require either of this information. It learns to dynamically segment scenes into interpretable background and slot-based object encodings, separating rgb, mask, location, and depth information for each. The results reveal largely superior video decomposition performance in the MOVi datasets and in another established dataset collection targeting scene segmentation. The system’s well-interpretable, compositional latent encodings may serve as a foundation model for downstream tasks.

arxiv情報

著者 Manuel Traub,Frederic Becker,Adrian Sauter,Sebastian Otte,Martin V. Butz
発行日 2024-02-06 17:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク