Unified Perception: Efficient Video Panoptic Segmentation with Minimal Annotation Costs

要約

深度を考慮したビデオパノプティックセグメンテーションは、カメラベースのシーン理解への有望なアプローチである。しかし、現在の最先端の手法は、画像ベースの同等の手法と比較して、コストのかかるビデオアノテーションを必要とし、複雑なトレーニングパイプラインを使用しています。本論文では、ビデオベースのトレーニングを必要とせずに最先端の性能を達成するUnified Perceptionと題する新しいアプローチを紹介します。本手法は、画像ベースのネットワークで計算されたオブジェクトの埋め込みを(再)利用する、シンプルな2段カスケード追跡アルゴリズムを採用している。Cityscapes-DVPSデータセットを用いた実験の結果、本方法はDVPQ57.1という、最先端の手法を上回る総合的な性能を達成することが実証された。さらに、KITTI-STEPにおいて、我々の追跡戦略が長期的なオブジェクトの関連付けに有効であることを示し、同じバックボーンネットワークを用いた最先端の手法の性能を上回る、59.1というSTQを達成しました。

要約(オリジナル)

Depth-aware video panoptic segmentation is a promising approach to camera based scene understanding. However, the current state-of-the-art methods require costly video annotations and use a complex training pipeline compared to their image-based equivalents. In this paper, we present a new approach titled Unified Perception that achieves state-of-the-art performance without requiring video-based training. Our method employs a simple two-stage cascaded tracking algorithm that (re)uses object embeddings computed in an image-based network. Experimental results on the Cityscapes-DVPS dataset demonstrate that our method achieves an overall DVPQ of 57.1, surpassing state-of-the-art methods. Furthermore, we show that our tracking strategies are effective for long-term object association on KITTI-STEP, achieving an STQ of 59.1 which exceeded the performance of state-of-the-art methods that employ the same backbone network.

arxiv情報

著者 Kurt Stolle,Gijs Dubbelman
発行日 2023-03-03 15:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク