DVOS: Self-Supervised Dense-Pattern Video Object Segmentation

要約

ビデオ オブジェクト セグメンテーションのアプローチは、モデル開発のために主に大規模なピクセル精度の人による注釈付きデータセットに依存します。
高密度ビデオ オブジェクト セグメンテーション (DVOS) シナリオでは、各ビデオ フレームには、数百の小さく高密度で部分的に遮蔽されたオブジェクトが含まれます。
したがって、たとえ 1 つのフレームであっても、労働集約的な手動アノテーションには数時間かかることが多く、これが多くのアプリケーションに対する DVOS の開発の妨げとなっています。
さらに、密集したパターンを持つビデオでは、さまざまな方向に移動する多数のオブジェクトを追跡すると、さらなる課題が生じます。
これらの課題に対処するために、私たちは、マルチタスク学習による拡散ベースの方法を利用した、DVOS に対する半自己監視型時空間アプローチを提案しました。
実際のビデオのオプティカル フローをエミュレートし、その動きをシミュレートすることで、DVOS モデルのトレーニングに使用できる、計算によって注釈が付けられたビデオを合成する方法論を開発しました。
モデルのパフォーマンスは、弱くラベル付けされた (計算によって生成されたが不正確な) データを利用することでさらに向上しました。
提案されたアプローチの有用性と有効性を実証するために、出穂から成熟までのさまざまな成長段階にわたって、さまざまな場所の圃場で小麦作物を撮影する、手持ちビデオとドローンで撮影したビデオの小麦穂セグメンテーションのための DVOS モデルを開発しました。
手動で注釈を付けたビデオ フレームを少数しか使用していないにもかかわらず、提案されたアプローチは高性能のモデルを生成し、ドローンでキャプチャした外部テスト セットでテストした場合、Dice スコア 0.82 を達成しました。
小麦穂セグメンテーションに対する提案されたアプローチの有効性を示しましたが、その応用は他の作物や、群衆分析や顕微鏡画像分析などの他の領域の DVOS にも拡張できます。

要約(オリジナル)

Video object segmentation approaches primarily rely on large-scale pixel-accurate human-annotated datasets for model development. In Dense Video Object Segmentation (DVOS) scenarios, each video frame encompasses hundreds of small, dense, and partially occluded objects. Accordingly, the labor-intensive manual annotation of even a single frame often takes hours, which hinders the development of DVOS for many applications. Furthermore, in videos with dense patterns, following a large number of objects that move in different directions poses additional challenges. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for DVOS utilizing a diffusion-based method through multi-task learning. Emulating real videos’ optical flow and simulating their motion, we developed a methodology to synthesize computationally annotated videos that can be used for training DVOS models; The model performance was further improved by utilizing weakly labeled (computationally generated but imprecise) data. To demonstrate the utility and efficacy of the proposed approach, we developed DVOS models for wheat head segmentation of handheld and drone-captured videos, capturing wheat crops in fields of different locations across various growth stages, spanning from heading to maturity. Despite using only a few manually annotated video frames, the proposed approach yielded high-performing models, achieving a Dice score of 0.82 when tested on a drone-captured external test set. While we showed the efficacy of the proposed approach for wheat head segmentation, its application can be extended to other crops or DVOS in other domains, such as crowd analysis or microscopic image analysis.

arxiv情報

著者 Keyhan Najafian,Farhad Maleki,Ian Stavness,Lingling Jin
発行日 2024-06-07 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク