Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching

要約

参照ビデオオブジェクトセグメンテーション(RVOS)は、自然言語の説明に導かれたビデオでオブジェクトをセグメント化することを目的としています。
FS-RVOは、FS-RVOSをマルチオブジェクトセグメンテーション(FS-RVMOS)に拡張するクロスモーダルアフィニティモジュールとインスタンスシーケンスマッチング戦略の2つの重要なコンポーネントを備えたトランスベースのモデルです。
実験では、FS-RVOSおよびFS-RVMOが多様なベンチマーク全体で最先端の方法を上回り、優れた堅牢性と精度を示しています。

要約(オリジナル)

Referring video object segmentation (RVOS) aims to segment objects in videos guided by natural language descriptions. We propose FS-RVOS, a Transformer-based model with two key components: a cross-modal affinity module and an instance sequence matching strategy, which extends FS-RVOS to multi-object segmentation (FS-RVMOS). Experiments show FS-RVOS and FS-RVMOS outperform state-of-the-art methods across diverse benchmarks, demonstrating superior robustness and accuracy.

arxiv情報

著者 Heng Liu,Guanghui Li,Mingqi Gao,Xiantong Zhen,Feng Zheng,Yang Wang
発行日 2025-04-18 14:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク