Video Object Segmentation in Panoptic Wild Scenes

要約

タイトル:Panoptic Wild ScenesにおけるVideo Object Segmentation

要約:本論文では、Panoptic Wild Scenesにおいて、セミスーパーバイズドのVideo Object Segmentation(VOS)を紹介し、そのための大規模なベンチマークとベースライン手法を提供しています。従来のVOSのベンチマークは、現実世界のシナリオに含まれる可能性のあるすべてのオブジェクトを処理する必要があるモデルのトレーニングや評価には不十分です。新しいベンチマーク(VIPOSeg)は、徹底的なオブジェクトアノテーションを含み、さまざまな現実世界のオブジェクトカテゴリを包括的に評価するために、物事/材料と見える/見えないクラスに慎重に分けられています。Panoptic VOSの課題を考慮し、複数スケールでピラミッドアーキテクチャを使用してオブジェクトを関連付けるパノプティックオブジェクト関連付け変換器(PAOT)という強力なベースライン手法を提案しています。実験結果は、VIPOSegがパノプティックトレーニングによってVOSモデルの性能を向上させるだけでなく、パノプティックシーンで包括的に評価することができることを示しています。従来のVOSの方法は、パノプティックシーンを扱う際には性能と効率が向上する必要がありますが、PAOTはVIPOSegと従来のVOSベンチマークで効率良くSOTA性能を発揮します。PAOTはまた、VOT2022チャレンジで1位にランクインしています。我々のデータセットは、https://github.com/yoxu515/VIPOSeg-Benchmarkで利用可能です。

要約(オリジナル)

In this paper, we introduce semi-supervised video object segmentation (VOS) to panoptic wild scenes and present a large-scale benchmark as well as a baseline method for it. Previous benchmarks for VOS with sparse annotations are not sufficient to train or evaluate a model that needs to process all possible objects in real-world scenarios. Our new benchmark (VIPOSeg) contains exhaustive object annotations and covers various real-world object categories which are carefully divided into subsets of thing/stuff and seen/unseen classes for comprehensive evaluation. Considering the challenges in panoptic VOS, we propose a strong baseline method named panoptic object association with transformers (PAOT), which uses panoptic identification to associate objects with a pyramid architecture on multiple scales. Experimental results show that VIPOSeg can not only boost the performance of VOS models by panoptic training but also evaluate them comprehensively in panoptic scenes. Previous methods for classic VOS still need to improve in performance and efficiency when dealing with panoptic scenes, while our PAOT achieves SOTA performance with good efficiency on VIPOSeg and previous VOS benchmarks. PAOT also ranks 1st in the VOT2022 challenge. Our dataset is available at https://github.com/yoxu515/VIPOSeg-Benchmark.

arxiv情報

著者 Yuanyou Xu,Zongxin Yang,Yi Yang
発行日 2023-05-08 05:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク