Segmenting Moving Objects via an Object-Centric Layered Representation

要約

本論文の目的は、映像中の複数の移動物体を発見し、追跡し、セグメント化することができるモデルである。我々は4つの貢献を行う。まず、深度順のレイヤー表現によるオブジェクト中心のセグメンテーションモデルを導入する。これは、オプティカルフローを取り込むトランスフォーマーアーキテクチャの変形を使用して実装されており、各クエリベクトルはビデオ全体のオブジェクトとそのレイヤーを指定する。第二に、複数のオブジェクトを含む合成学習データを生成するためのスケーラブルなパイプラインを紹介し、労力のかかるアノテーションの要件を大幅に削減し、Sim2Real汎化をサポートする。第四に、DAVIS, MoCA, SegTrack, FBMS-59といった標準的なビデオセグメンテーションベンチマークにおいてモデルを評価し、教師なしセグメンテーションの性能は最新のものであり、いくつかの教師ありアプローチよりも優れていることを示す。また、テスト時適応により、さらなる性能向上を確認した。

要約(オリジナル)

The objective of this paper is a model that is able to discover, track and segment multiple moving objects in a video. We make four contributions: First, we introduce an object-centric segmentation model with a depth-ordered layer representation. This is implemented using a variant of the transformer architecture that ingests optical flow, where each query vector specifies an object and its layer for the entire video. The model can effectively discover multiple moving objects and handle mutual occlusions; Second, we introduce a scalable pipeline for generating synthetic training data with multiple objects, significantly reducing the requirements for labour-intensive annotations, and supporting Sim2Real generalisation; Third, we show that the model is able to learn object permanence and temporal shape consistency, and is able to predict amodal segmentation masks; Fourth, we evaluate the model on standard video segmentation benchmarks, DAVIS, MoCA, SegTrack, FBMS-59, and achieve state-of-the-art unsupervised segmentation performance, even outperforming several supervised approaches. With test-time adaptation, we observe further performance boosts.

arxiv情報

著者 Junyu Xie,Weidi Xie,Andrew Zisserman
発行日 2022-07-05 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク