要約
ビデオ オブジェクト セグメンテーション (RVOS) の参照は、時間的な理解を必要とするため、困難なタスクです。
計算の複雑さという障害があるため、多くの最先端のモデルは短い時間間隔でトレーニングされます。
テスト中、これらのモデルは短い時間ステップでは効果的に情報を処理できますが、長時間の時間シーケンスでは一貫した認識を維持するのに苦労し、結果として得られるセマンティック セグメンテーション マスクに不一致が生じます。
この課題に対処するために、新しく導入されたセグメント エニシング モデル バージョン 2 (SAM-v2) の追跡機能を活用して、参照オブジェクト セグメンテーション モデルの時間的一貫性を強化することで、この作業をさらに一歩進めました。
私たちの手法は、MeViS データセットのテスト セットで 60.40 \mathcal{J\text{\&}F} のスコアを達成し、ECCV 2024 LSVOS Challenge の RVOS トラックの最終ランキングで 2 位になりました。
要約(オリジナル)
Referring Video Object Segmentation (RVOS) is a challenging task due to its requirement for temporal understanding. Due to the obstacle of computational complexity, many state-of-the-art models are trained on short time intervals. During testing, while these models can effectively process information over short time steps, they struggle to maintain consistent perception over prolonged time sequences, leading to inconsistencies in the resulting semantic segmentation masks. To address this challenge, we take a step further in this work by leveraging the tracking capabilities of the newly introduced Segment Anything Model version 2 (SAM-v2) to enhance the temporal consistency of the referring object segmentation model. Our method achieved a score of 60.40 \mathcal{J\text{\&}F} on the test set of the MeViS dataset, placing 2nd place in the final ranking of the RVOS Track at the ECCV 2024 LSVOS Challenge.
arxiv情報
著者 | Tuyen Tran |
発行日 | 2024-08-22 14:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google