A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation

要約

ビデオオブジェクトセグメンテーション(VOS) – ビデオの各フレーム内のオブジェクトのピクセルレベルの領域を予測する – は、作物のビデオには、揺れ動き、閉塞されたオブジェクト(茎、葉、花、ポッド)が揺れ、閉じ込められたオブジェクト(茎、葉、花、ポッド)が含まれる農業シナリオで特に困難です。
監督されたトレーニングはVOSの最先端ですが、各フレームに多くの密に詰まったオブジェクトを備えたビデオのために制作するのに費用がかかる、大規模でピクセルが活用された、人間が注目したビデオが必要です。
これらの課題に対処するために、マルチタスク(再構成とセグメンテーション)学習を通じて拡散ベースの方法を使用して、密集したvos(DVO)の半自己監視時空間的アプローチを提案しました。
最初にモデルをトレーニングします。これは、実際のビデオのカメラとオブジェクトの動きを模倣し、次に疑似標識ビデオでオブジェクトの動きを模倣します。
多様な一連のビデオ(ハンドヘルド、ドローンキャプチャされた、異なるフィールドロケーション、およびさまざまな成長段階)からの小麦ヘッドセグメンテーションのDVOSメソッドを評価します。
手動で注釈付きのビデオフレームしか使用していないにもかかわらず、提案されたアプローチは高性能モデルを生成し、ドローンキャプチャされた外部テストセットでテストされた場合、0.79のサイコロスコアを達成しました。
私たちの方法は小麦の頭部のセグメンテーションで評価されましたが、群​​衆分析や顕微鏡画像分析など、他の作物やドメインに拡張できます。

要約(オリジナル)

Video object segmentation (VOS) — predicting pixel-level regions for objects within each frame of a video — is particularly challenging in agricultural scenarios, where videos of crops include hundreds of small, dense, and occluded objects (stems, leaves, flowers, pods) that sway and move unpredictably in the wind. Supervised training is the state-of-the-art for VOS, but it requires large, pixel-accurate, human-annotated videos, which are costly to produce for videos with many densely packed objects in each frame. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for dense-VOS (DVOS) using a diffusion-based method through multi-task (reconstruction and segmentation) learning. We train the model first with synthetic data that mimics the camera and object motion of real videos and then with pseudo-labeled videos. We evaluate our DVOS method for wheat head segmentation from a diverse set of videos (handheld, drone-captured, different field locations, and different growth stages — spanning from Boot-stage to Wheat-mature and Harvest-ready). Despite using only a few manually annotated video frames, the proposed approach yielded a high-performing model, achieving a Dice score of 0.79 when tested on a drone-captured external test set. While our method was evaluated on wheat head segmentation, it can be extended to other crops and domains, such as crowd analysis or microscopic image analysis.

arxiv情報

著者 Keyhan Najafian,Farhad Maleki,Lingling Jin,Ian Stavness
発行日 2025-04-16 15:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク