要約
現在の最先端のビデオ オブジェクト セグメンテーション (VOS) 手法は、トレーニング中とテスト中の両方で、オブジェクトごとの高密度マスク アノテーションに依存しています。
これには、時間とコストがかかるビデオ注釈メカニズムが必要です。
我々は、アノテーションの労力を大幅に削減する、時空間的にまばらなポイント単位のアノテーション スキームを備えた新しい Point-VOS タスクを提案します。
アノテーション スキームをテキスト説明を持つ 2 つの大規模ビデオ データセットに適用し、32,000 ビデオ内の 133,000 オブジェクトにわたる 1,900 万以上のポイントにアノテーションを付けます。
注釈に基づいて、新しい Point-VOS ベンチマークと、強力なベースライン結果を確立するために使用する、対応するポイントベースのトレーニング メカニズムを提案します。
既存の VOS 手法は、トレーニング中にポイント アノテーションを活用するように簡単に適応でき、これらのポイントから生成された疑似マスクでトレーニングすると、完全に教師付きのパフォーマンスに近い結果を達成できることを示します。
さらに、ビデオ ナラティブ グラウンディング (VNG) タスクでデータを評価することで、データを使用して視覚と言語を結び付けるモデルを改善できることを示します。
コードとアノテーションは https://pointvos.github.io で利用できるようにします。
要約(オリジナル)
Current state-of-the-art Video Object Segmentation (VOS) methods rely on dense per-object mask annotations both during training and testing. This requires time-consuming and costly video annotation mechanisms. We propose a novel Point-VOS task with a spatio-temporally sparse point-wise annotation scheme that substantially reduces the annotation effort. We apply our annotation scheme to two large-scale video datasets with text descriptions and annotate over 19M points across 133K objects in 32K videos. Based on our annotations, we propose a new Point-VOS benchmark, and a corresponding point-based training mechanism, which we use to establish strong baseline results. We show that existing VOS methods can easily be adapted to leverage our point annotations during training, and can achieve results close to the fully-supervised performance when trained on pseudo-masks generated from these points. In addition, we show that our data can be used to improve models that connect vision and language, by evaluating it on the Video Narrative Grounding (VNG) task. We will make our code and annotations available at https://pointvos.github.io.
arxiv情報
著者 | Idil Esen Zulfikar,Sabarinath Mahadevan,Paul Voigtlaender,Bastian Leibe |
発行日 | 2024-02-08 18:52:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google