要約
ビデオオブジェクトセグメンテーション(VOS)の既存の最先端の方法は、フレーム間の低レベルのピクセル間の対応を学習して、ビデオ全体にオブジェクトマスクを伝播します。
これには、大量の高密度に注釈が付けられたビデオデータが必要です。これは、注釈を付けるのにコストがかかり、ビデオ内のフレームは高度に相関しているため、大部分が冗長です。
これに照らして、オブジェクトの外観とシーンのコンテキストを理解するために注釈付きの静止画像を効果的に活用することによってVOSに取り組む新しい方法であるHODORを提案します。
オブジェクトインスタンスとシーン情報を画像フレームから堅牢な高レベル記述子にエンコードします。これらの記述子を使用して、これらのオブジェクトを異なるフレームに再セグメント化できます。
その結果、HODORは、ビデオ注釈なしでトレーニングされた既存の方法と比較して、DAVISおよびYouTube-VOSベンチマークで最先端のパフォーマンスを実現します。
アーキテクチャを変更することなく、HODORは、周期的な一貫性を利用して、単一の注釈付きビデオフレームの周りのビデオコンテキストから学習することもできますが、他の方法は、高密度で時間的に一貫性のある注釈に依存します。
ソースコードはhttps://github.com/Ali2500/HODORで入手できます。
要約(オリジナル)
Existing state-of-the-art methods for Video Object Segmentation (VOS) learn low-level pixel-to-pixel correspondences between frames to propagate object masks across video. This requires a large amount of densely annotated video data, which is costly to annotate, and largely redundant since frames within a video are highly correlated. In light of this, we propose HODOR: a novel method that tackles VOS by effectively leveraging annotated static images for understanding object appearance and scene context. We encode object instances and scene information from an image frame into robust high-level descriptors which can then be used to re-segment those objects in different frames. As a result, HODOR achieves state-of-the-art performance on the DAVIS and YouTube-VOS benchmarks compared to existing methods trained without video annotations. Without any architectural modification, HODOR can also learn from video context around single annotated video frames by utilizing cyclic consistency, whereas other methods rely on dense, temporally consistent annotations. Source code is available at: https://github.com/Ali2500/HODOR
arxiv情報
著者 | Ali Athar,Jonathon Luiten,Alexander Hermans,Deva Ramanan,Bastian Leibe |
発行日 | 2022-07-15 13:15:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google