要約
Flowcutを提案します。これは、擬似ラベルを備えた高品質のビデオデータセットを構築するための3段階のフレームワークで構成される、監視されていないビデオインスタンスセグメンテーションのためのシンプルで有能な方法です。
私たちの知る限り、私たちの仕事は、監視されていないビデオインスタンスセグメンテーションのために、擬似ラベルでビデオデータセットをキュレートする最初の試みです。
最初の段階では、画像と光学フローの両方からの特徴の親和性を活用することにより、擬似インスタンスマスクを生成します。
第2段階では、フレーム全体で一致することにより、高品質で一貫した擬似インスタンスマスクを含む短いビデオセグメントを構築します。
第3段階では、YouTubevis-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
FlowCutは、YouTubevis-2019、Youtubevis-2021、Davis-2017、およびDavis-2017モーションベンチマークで最先端のパフォーマンスを実現しています。
要約(オリジナル)
We propose FlowCut, a simple and capable method for unsupervised video instance segmentation consisting of a three-stage framework to construct a high-quality video dataset with pseudo labels. To our knowledge, our work is the first attempt to curate a video dataset with pseudo-labels for unsupervised video instance segmentation. In the first stage, we generate pseudo-instance masks by exploiting the affinities of features from both images and optical flows. In the second stage, we construct short video segments containing high-quality, consistent pseudo-instance masks by temporally matching them across the frames. In the third stage, we use the YouTubeVIS-2021 video dataset to extract our training instance segmentation set, and then train a video segmentation model. FlowCut achieves state-of-the-art performance on the YouTubeVIS-2019, YouTubeVIS-2021, DAVIS-2017, and DAVIS-2017 Motion benchmarks.
arxiv情報
著者 | Alp Eren Sari,Paolo Favaro |
発行日 | 2025-05-19 14:30:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google