要約
複雑なビデオオブジェクトのセグメンテーションは、小さなオブジェクト認識、閉塞処理、動的シーンモデリングにおいて大きな課題に直面し続けています。
このレポートでは、CVPR 2025 PVUWチャレンジのMoseトラックで2位にランクされたソリューションを提示します。
既存のセグメンテーションフレームワークに基づいて、複雑なビデオオブジェクトセグメンテーションのためにMassegという名前の改善されたモデルを提案し、閉塞、散らかった背景、および小さなターゲットインスタンスを備えた典型的なシナリオを含む拡張データセット+を構築します。
トレーニング中に、堅牢性と一般化を改善するために、フレーム間の一貫したデータ増強戦略の組み合わせを組み込みます。
推論中に、さまざまなオブジェクトサイズと閉塞レベルにより適応するために、マスク出力スケーリング戦略を設計します。
その結果、Massegは、Moseテストセットで0.8250、Fスコア0.9007、J&Fスコア0.8628のJスコアを達成します。
要約(オリジナル)
Complex video object segmentation continues to face significant challenges in small object recognition, occlusion handling, and dynamic scene modeling. This report presents our solution, which ranked second in the MOSE track of CVPR 2025 PVUW Challenge. Based on an existing segmentation framework, we propose an improved model named MASSeg for complex video object segmentation, and construct an enhanced dataset, MOSE+, which includes typical scenarios with occlusions, cluttered backgrounds, and small target instances. During training, we incorporate a combination of inter-frame consistent and inconsistent data augmentation strategies to improve robustness and generalization. During inference, we design a mask output scaling strategy to better adapt to varying object sizes and occlusion levels. As a result, MASSeg achieves a J score of 0.8250, F score of 0.9007, and a J&F score of 0.8628 on the MOSE test set.
arxiv情報
著者 | Xuqiang Cao,Linnan Zhao,Jiaxuan Zhao,Fang Liu,Puhua Chen,Wenping Ma |
発行日 | 2025-04-14 14:15:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google