Scalable Video Object Segmentation with Identification Mechanism

要約

本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)において、スケーラブルで効果的なマルチオブジェクトモデリングを実現するための課題を掘り下げる。これまでのVOS手法は、単一のポジティブオブジェクトで特徴をデコードするため、多オブジェクトシナリオ下で各ターゲットを個別にマッチングおよびセグメント化する必要があり、多オブジェクト表現の学習が制限される。さらに、以前の手法は特定の応用目的に特化しており、異なる速度精度要求を満たす柔軟性に欠けていた。これらの問題に対処するために、我々は2つの革新的なアプローチ、AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)を提案する。効果的なマルチオブジェクトモデリングを追求するため、AOTはID(IDentification)メカニズムを導入し、各オブジェクトに一意のIDを割り当てる。このアプローチにより、ネットワークはすべてのオブジェクト間の関連付けを同時にモデル化できるため、1回のネットワークパスでオブジェクトの追跡とセグメンテーションが容易になります。柔軟性のない展開という課題に対処するため、AOSTはさらに、レイヤーごとのIDベースの注意とスケーラブルな監視を組み込んだスケーラブルな長短変換器を統合している。これにより、IDエンベッディングの表現上の制約を克服し、VOSで初めてオンラインアーキテクチャのスケーラビリティを実現した。高密度の多オブジェクト注釈を含むVOSのベンチマークが存在しないため、我々のアプローチを検証するために、挑戦的なVOSW(Video Object Segmentation in the Wild)ベンチマークを提案する。我々は、VOSWと一般的に使用されている5つのVOSベンチマークで広範な実験を行い、様々なAOTとAOSTの変種を評価した。我々のアプローチは、最先端の競合他社を凌駕し、6つのベンチマークすべてにおいて一貫して卓越した効率性とスケーラビリティを示しました。さらに、第3回Large-scale Video Object Segmentation Challengeにおいて1位を獲得した。

要約(オリジナル)

This paper delves into the challenges of achieving scalable and effective multi-object modeling for semi-supervised Video Object Segmentation (VOS). Previous VOS methods decode features with a single positive object, limiting the learning of multi-object representation as they must match and segment each target separately under multi-object scenarios. Additionally, earlier techniques catered to specific application objectives and lacked the flexibility to fulfill different speed-accuracy requirements. To address these problems, we present two innovative approaches, Associating Objects with Transformers (AOT) and Associating Objects with Scalable Transformers (AOST). In pursuing effective multi-object modeling, AOT introduces the IDentification (ID) mechanism to allocate each object a unique identity. This approach enables the network to model the associations among all objects simultaneously, thus facilitating the tracking and segmentation of objects in a single network pass. To address the challenge of inflexible deployment, AOST further integrates scalable long short-term transformers that incorporate layer-wise ID-based attention and scalable supervision. This overcomes ID embeddings’ representation limitations and enables online architecture scalability in VOS for the first time. Given the absence of a benchmark for VOS involving densely multi-object annotations, we propose a challenging Video Object Segmentation in the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST variants using extensive experiments across VOSW and five commonly-used VOS benchmarks. Our approaches surpass the state-of-the-art competitors and display exceptional efficiency and scalability consistently across all six benchmarks. Moreover, we notably achieved the 1st position in the 3rd Large-scale Video Object Segmentation Challenge.

arxiv情報

著者 Zongxin Yang,Xiaohan Wang,Jiaxu Miao,Yunchao Wei,Wenguan Wang,Yi Yang
発行日 2023-07-03 04:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク