Scalable Video Object Segmentation with Identification Mechanism

要約

このペーパーでは、半教師ありビデオ オブジェクト セグメンテーション (VOS) のスケーラブルで効果的なマルチオブジェクト モデリングを実現するという課題について詳しく説明します。
以前の VOS メソッドは、単一のポジティブ オブジェクトを使用してフィーチャをデコードし、マルチオブジェクト シナリオでは各ターゲットを個別に照合してセグメント化する必要があるため、マルチオブジェクト表現の学習を制限していました。
さらに、以前の技術は特定のアプリケーション目的に対応していて、さまざまな速度精度の要件を満たす柔軟性に欠けていました。
これらの問題に対処するために、オブジェクトとトランスフォーマーの関連付け (AOT) とオブジェクトとスケーラブル トランスフォーマーの関連付け (AOST) という 2 つの革新的なアプローチを紹介します。
効果的なマルチオブジェクト モデリングを追求するために、AOT は各オブジェクトに一意の ID を割り当てる IDentification (ID) メカニズムを導入します。
このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化できるため、単一のネットワーク パスでのオブジェクトの追跡とセグメント化が容易になります。
柔軟性のない導入という課題に対処するために、AOST はさらに、スケーラブルな監視とレイヤーごとの ID ベースの注意を組み込んだスケーラブルな長期短期トランスフォーマーを統合します。
これにより、VOS でのオンライン アーキテクチャのスケーラビリティが初めて有効になり、ID 埋め込みの表現制限が克服されます。
高密度のマルチオブジェクト アノテーションを含む VOS のベンチマークが存在しないことを考慮して、アプローチを検証するために、挑戦的な Video Object Segmentation in the Wild (VOSW) ベンチマークを提案します。
私たちは、VOSW と、YouTube-VOS 2018 & 2019 Val、DAVIS-2017 Val & Test、DAVIS-2016 などの一般的に使用される 5 つの VOS ベンチマークにわたる広範な実験を使用して、さまざまな AOT および AOST バリアントを評価しました。
当社のアプローチは、最先端の競合他社を上回り、6 つのベンチマークすべてにおいて一貫して優れた効率性と拡張性を示します。
プロジェクトページ: https://github.com/yoxu515/aot-benchmark

要約(オリジナル)

This paper delves into the challenges of achieving scalable and effective multi-object modeling for semi-supervised Video Object Segmentation (VOS). Previous VOS methods decode features with a single positive object, limiting the learning of multi-object representation as they must match and segment each target separately under multi-object scenarios. Additionally, earlier techniques catered to specific application objectives and lacked the flexibility to fulfill different speed-accuracy requirements. To address these problems, we present two innovative approaches, Associating Objects with Transformers (AOT) and Associating Objects with Scalable Transformers (AOST). In pursuing effective multi-object modeling, AOT introduces the IDentification (ID) mechanism to allocate each object a unique identity. This approach enables the network to model the associations among all objects simultaneously, thus facilitating the tracking and segmentation of objects in a single network pass. To address the challenge of inflexible deployment, AOST further integrates scalable long short-term transformers that incorporate scalable supervision and layer-wise ID-based attention. This enables online architecture scalability in VOS for the first time and overcomes ID embeddings’ representation limitations. Given the absence of a benchmark for VOS involving densely multi-object annotations, we propose a challenging Video Object Segmentation in the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST variants using extensive experiments across VOSW and five commonly used VOS benchmarks, including YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, and DAVIS-2016. Our approaches surpass the state-of-the-art competitors and display exceptional efficiency and scalability consistently across all six benchmarks. Project page: https://github.com/yoxu515/aot-benchmark.

arxiv情報

著者 Zongxin Yang,Jiaxu Miao,Yunchao Wei,Wenguan Wang,Xiaohan Wang,Yi Yang
発行日 2024-01-25 13:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク