LVOS: A Benchmark for Long-term Video Object Segmentation

要約

既存のビデオ オブジェクト セグメンテーション (VOS) ベンチマークは、約 3 ~ 5 秒しか続かず、オブジェクトがほとんどの時間表示される短時間のビデオに焦点を当てています。
これらのビデオは、実用的なアプリケーションを十分に表していません。また、長期的なデータセットがないため、現実的なシナリオでアプリケーションの VOS をさらに調査することは制限されています。
そこで、このホワイト ペーパーでは、LVOS という名前の新しいベンチマーク データセットと評価方法を紹介します。LVOS は、合計 421 分の 220 のビデオで構成されています。
私たちの知る限りでは、LVOS は初めて高密度に注釈が付けられた長期 VOS データセットです。
LVOS の動画は平均 1.59 分続きます。これは、既存の VOS データセットの動画の 20 倍の長さです。
各ビデオには、さまざまな属性が含まれています。特に、長期間の再出現や異時的な類似オブジェクトなど、野生に由来する課題が含まれています。
さらに、追加の言語説明を提供して、ビデオ オブジェクト セグメンテーションの言語機能と視覚機能の統合の調査を促進します。
LVOS に基づいて、既存のビデオ オブジェクト セグメンテーション アルゴリズムを評価し、3 つの補完的なメモリ バンクで構成される Diverse Dynamic Memory ネットワーク (DDMemory) を提案して、時間情報を適切に活用します。
実験結果は、従来の方法の長所と短所を示しており、さらなる研究の有望な方向性を示しています。
私たちの目的は、コミュニティに大規模で多様なベンチマークを提供して、長期的な VOS の進歩を後押しすることです。
データとコードは、\url{https://lingyihongfd.github.io/lvos.github.io/} で入手できます。

要約(オリジナル)

Existing video object segmentation (VOS) benchmarks focus on short-term videos which just last about 3-5 seconds and where objects are visible most of the time. These videos are poorly representative of practical applications, and the absence of long-term datasets restricts further investigation of VOS on the application in realistic scenarios. So, in this paper, we present a new benchmark dataset and evaluation methodology named LVOS, which consists of 220 videos with a total duration of 421 minutes. To the best of our knowledge, LVOS is the first densely annotated long-term VOS dataset. The videos in our LVOS last 1.59 minutes on average, which is 20 times longer than videos in existing VOS datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objeccts. Moreover, we provide additional language descriptions to encourage the exploration of integrating linguistic and visual features for video object segmentation. Based on LVOS, we assess existing video object segmentation algorithms and propose a Diverse Dynamic Memory network (DDMemory) that consists of three complementary memory banks to exploit temporal information adequately. The experiment results demonstrate the strength and weaknesses of prior methods, pointing promising directions for further study. Our objective is to provide the community with a large and varied benchmark to boost the advancement of long-term VOS. Data and code are available at \url{https://lingyihongfd.github.io/lvos.github.io/}.

arxiv情報

著者 Lingyi Hong,Wenchao Chen,Zhongying Liu,Wei Zhang,Pinxue Guo,Zhaoyu Chen,Wenqiang Zhang
発行日 2022-11-18 11:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク