要約
モーション式ビデオセグメンテーションは、入力モーション式に従ってオブジェクトをセグメント化するように設計されています。
従来の参照ビデオオブジェクトセグメンテーション(RVO)とは対照的に、動きとマルチオブジェクト式に重点を置き、より困難にします。
最近、大規模なマルチモーダルモデル(LMM)は、強力なビジョン言語認識能力のためにRVOで輝き始めました。
この作業では、ビデオセグメンテーションを参照する際にLMMの可能性を完全に解き放つためのシンプルで効果的な推論最適化方法を提案します。
まず、SA2VAをベースラインとして使用します。これは、画像とビデオの両方を密集した理解のための統一されたLMMです。
第二に、推論プロセス中にビデオフレームを均一にサンプリングして、ビデオ全体のモデルの理解を高めます。
最後に、複数のエキスパートモデルの結果を統合して、単一のモデルの誤った予測を軽減します。
私たちのソリューションは、Mevisテストセットで61.98%J&Fを達成し、CVPR 2025で4番目のPVU Challenge Mevisトラックで1位にランクされました。
要約(オリジナル)
Motion expression video segmentation is designed to segment objects in accordance with the input motion expressions. In contrast to the conventional Referring Video Object Segmentation (RVOS), it places emphasis on motion as well as multi-object expressions, making it more arduous. Recently, Large Multimodal Models (LMMs) have begun to shine in RVOS due to their powerful vision-language perception capabilities. In this work, we propose a simple and effective inference optimization method to fully unleash the potential of LMMs in referring video segmentation. Firstly, we use Sa2VA as our baseline, which is a unified LMM for dense grounded understanding of both images and videos. Secondly, we uniformly sample the video frames during the inference process to enhance the model’s understanding of the entire video. Finally, we integrate the results of multiple expert models to mitigate the erroneous predictions of a single model. Our solution achieved 61.98% J&F on the MeViS test set and ranked 1st place in the 4th PVUW Challenge MeViS Track at CVPR 2025.
arxiv情報
著者 | Hao Fang,Runmin Cong,Xiankai Lu,Zhiyang Chen,Wei Zhang |
発行日 | 2025-04-07 15:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google