STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos

要約

動画におけるインスタンスのセグメンテーションのための既存の手法は、通常、トラッキング・バイ・検出のパラダイムに従い、動画クリップを画像のシーケンスとしてモデル化する多段パイプラインを含む。個々のフレームでオブジェクトを検出するために複数のネットワークが使用され、時間経過とともにこれらの検出が関連付けられる。従って、これらの手法は多くの場合、エンドツーエンドで学習可能ではなく、特定のタスクに高度に調整されている。本論文では、動画のインスタンス分割を含む様々なタスクに適した、異なるアプローチを提案する。特に、ビデオクリップを1つの3次元時空間ボリュームとしてモデル化し、1つのステージで空間と時間を横断するインスタンスのセグメンテーションと追跡を行う新しいアプローチを提案する。我々の問題定式化は、ビデオクリップ全体にわたって特定のオブジェクトインスタンスに属するピクセルをクラスタリングするために学習される、時空間埋め込み(spatio-temporal embeddings)の考え方を中心に行われる。この目的のために、我々は(i)時空間埋込みの特徴表現を強化する新しい混合関数と、(ii)時間的コンテキストを推論できる1段階の提案不要なネットワークを導入する。我々のネットワークは、時空間埋め込みと、これらの埋め込みをクラスタリングするのに必要なパラメータを学習するために、エンドツーエンドで学習され、推論を単純化する。我々の手法は複数のデータセットとタスクにおいて最先端の結果を達成している。コードとモデルはhttps://github.com/sabarim/STEm-Seg。

要約(オリジナル)

Existing methods for instance segmentation in videos typically involve multi-stage pipelines that follow the tracking-by-detection paradigm and model a video clip as a sequence of images. Multiple networks are used to detect objects in individual frames, and then associate these detections over time. Hence, these methods are often non-end-to-end trainable and highly tailored to specific tasks. In this paper, we propose a different approach that is well-suited to a variety of tasks involving instance segmentation in videos. In particular, we model a video clip as a single 3D spatio-temporal volume, and propose a novel approach that segments and tracks instances across space and time in a single stage. Our problem formulation is centered around the idea of spatio-temporal embeddings which are trained to cluster pixels belonging to a specific object instance over an entire video clip. To this end, we introduce (i) novel mixing functions that enhance the feature representation of spatio-temporal embeddings, and (ii) a single-stage, proposal-free network that can reason about temporal context. Our network is trained end-to-end to learn spatio-temporal embeddings as well as parameters required to cluster these embeddings, thus simplifying inference. Our method achieves state-of-the-art results across multiple datasets and tasks. Code and models are available at https://github.com/sabarim/STEm-Seg.

arxiv情報

著者 Ali Athar,Sabarinath Mahadevan,Aljoša Ošep,Laura Leal-Taixé,Bastian Leibe
発行日 2023-09-01 13:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 62H30, 68T10, 68T45, cs.CV, cs.LG, eess.IV, I.2.10 パーマリンク