要約
参照ビデオ オブジェクト セグメンテーション (RVOS) は、自然言語表現に依存してビデオ内のターゲット オブジェクトをセグメント化します。
今年、LSVOS Challenge RVOS Track は、元の YouTube-RVOS ベンチマークを MeViS に置き換えました。
MeViS は、静的な属性ではなく、モーションの説明を通じてビデオ内のターゲット オブジェクトを参照することに重点を置いており、RVOS タスクに大きな課題をもたらします。
この作業では、主要な RVOS モデルと VOS モデルの長所を統合して、RVOS 用のシンプルで効果的なパイプラインを構築します。
まず、最先端の RVOS モデルを微調整して、言語記述と関連付けられたマスク シーケンスを取得します。
次に、信頼性の高い高品質のキー フレームに基づいて、VOS モデルを活用してマスク結果の品質と時間的一貫性を向上させます。
最後に、半教師あり学習を使用して RVOS モデルのパフォーマンスをさらに向上させます。
当社のソリューションは、MeViS テスト セットで 62.57 J&F を達成し、第 6 回 LSVOS チャレンジ RVOS トラックで 1 位にランクされました。
要約(オリジナル)
Referring video object segmentation (RVOS) relies on natural language expressions to segment target objects in video. In this year, LSVOS Challenge RVOS Track replaced the origin YouTube-RVOS benchmark with MeViS. MeViS focuses on referring the target object in a video through its motion descriptions instead of static attributes, posing a greater challenge to RVOS task. In this work, we integrate strengths of that leading RVOS and VOS models to build up a simple and effective pipeline for RVOS. Firstly, We finetune the state-of-the-art RVOS model to obtain mask sequences that are correlated with language descriptions. Secondly, based on a reliable and high-quality key frames, we leverage VOS model to enhance the quality and temporal consistency of the mask results. Finally, we further improve the performance of the RVOS model using semi-supervised learning. Our solution achieved 62.57 J&F on the MeViS test set and ranked 1st place for 6th LSVOS Challenge RVOS Track.
arxiv情報
著者 | Hao Fang,Feiyu Pan,Xiankai Lu,Wei Zhang,Runmin Cong |
発行日 | 2024-08-19 16:15:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google