Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

要約

参照ビデオオブジェクトセグメンテーション (RVOS) は、自然言語参照に基づいてビデオオブジェクトをセグメント化することを目的としています。
従来の方法は通常、画像格子上に直接接地する言語参照を通じて RVOS に取り組みました。
このようなボトムアップ戦略では、オブジェクトレベルの手がかりを探ることができず、劣悪な結果につながりやすいです。
この研究では、代わりに 2 段階のトップダウン RVOS ソリューションを提案しました。
まず、いくつかのサンプリングされたフレームから検出されたオブジェクトマスクをビデオ全体に伝播することによって、オブジェクトトラックレットの網羅的なセットが構築されます。
第 2 に、インスタンスレベルの視覚的関係とクロスモーダルインタラクションを同時に効率的にモデル化する、Transformer ベースのトラックレット言語グラウンディングモジュールが提案されます。
当社のモデルは、CVPR2021 Referring Youtube-VOS チャレンジで 1 位にランクされました。

要約(オリジナル)

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.

arxiv情報

著者	Chen Liang,Yu Wu,Tianfei Zhou,Wenguan Wang,Zongxin Yang,Yunchao Wei,Yi Yang
発行日	2024-01-19 13:44:46+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー