Learning a Fast 3D Spectral Approach to Object Segmentation and Tracking over Space and Time


ビデオ オブジェクト セグメンテーションは、各ピクセルに 1 つのグラフ ノードとローカル時空間近傍を形成するエッジを使用して、時空間におけるスペクトル グラフ クラスタリングとして提示します。
このビデオ グラフの最強のクラスターが顕著なオブジェクトを表していると主張します。
行列を明示的に構築せずに、グラフの隣接行列の主固有ベクトルとして、スペクトル解を近似するための 3D フィルタリングに基づく斬新で効率的な方法を導入することから始めます。
この重要な特性により、固有ベクトルを計算するための従来のアプローチよりも桁違いに高速な GPU での高速な並列実装が可能になります。
ビデオ セマンティック セグメンテーション文献でユニークなスペクトル時空間クラスタリング アプローチの動機は、そのようなクラスタリングが時間の経過とともにオブジェクトの一貫性を維持することに専念しているということです。
最後に、セグメンテーション タスクを超えて、オブジェクト トラッキングの領域にアプローチの定式化を拡張します。


We pose video object segmentation as spectral graph clustering in space and time, with one graph node for each pixel and edges forming local space-time neighborhoods. We claim that the strongest cluster in this video graph represents the salient object. We start by introducing a novel and efficient method based on 3D filtering for approximating the spectral solution, as the principal eigenvector of the graph’s adjacency matrix, without explicitly building the matrix. This key property allows us to have a fast parallel implementation on GPU, orders of magnitude faster than classical approaches for computing the eigenvector. Our motivation for a spectral space-time clustering approach, unique in video semantic segmentation literature, is that such clustering is dedicated to preserving object consistency over time, which we evaluate using our novel segmentation consistency measure. Further on, we show how to efficiently learn the solution over multiple input feature channels. Finally, we extend the formulation of our approach beyond the segmentation task, into the realm of object tracking. In extensive experiments we show significant improvements over top methods, as well as over powerful ensembles that combine them, achieving state-of-the-art on multiple benchmarks, both for tracking and segmentation.


著者 Elena Burceanu,Marius Leordeanu
発行日 2022-12-15 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク