Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

要約

最近、言語や音声などのマルチモーダル信号によって参照されるビデオ オブジェクト セグメンテーション (VOS) が、産業界と学術界の両方でますます注目を集めています。
モダリティ内の意味論的な整合性やフレーム間の視覚的な対応を調査するのは困難です。
しかし、既存の方法は、異なるモダリティに対して個別のネットワーク アーキテクチャを採用しており、参照とのフレーム間の時間的相互作用を無視しています。
この論文では、参照ビデオオブジェクトセグメンテーションのためのマルチモーダル統一時間変換器である MUTR を提案します。
初めて統一フレームワークを使用した MUTR は、DETR スタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照で指定されたビデオ オブジェクトをセグメント化することができます。
具体的には、ビデオとマルチモーダル信号の間の時間的関係を完全に調査するための 2 つの戦略を紹介します。
まず、トランスフォーマーの前の低レベルの時間集約では、マルチモーダル参照が連続ビデオ フレームからマルチスケールの視覚的手がかりをキャプチャできるようにします。
これにより、テキストまたはオーディオ信号に時間的な知識が効果的に与えられ、モダリティ間の意味論的な整合性が高まります。
次に、変換後の高レベルの時間的相互作用のために、さまざまなオブジェクトの埋め込みに対してフレーム間特徴通信を実行し、ビデオに沿った追跡のためのオブジェクトごとの対応の向上に貢献します。
それぞれのテキストおよびオーディオ参照を含む Ref-YouTube-VOS および AVSBench データセットでは、MUTR は最先端の手法に対して +4.2% および +4.2% の J&F 改善を達成し、統合されたマルチモーダル VOS の重要性を実証しています。
コードは https://github.com/OpenGVLab/MUTR で公開されています。

要約(オリジナル)

Recently, video object segmentation (VOS) referred by multi-modal signals, e.g., language and audio, has evoked increasing attention in both industry and academia. It is challenging for exploring the semantic alignment within modalities and the visual correspondence across frames. However, existing methods adopt separate network architectures for different modalities, and neglect the inter-frame temporal interaction with references. In this paper, we propose MUTR, a Multi-modal Unified Temporal transformer for Referring video object segmentation. With a unified framework for the first time, MUTR adopts a DETR-style transformer and is capable of segmenting video objects designated by either text or audio reference. Specifically, we introduce two strategies to fully explore the temporal relations between videos and multi-modal signals. Firstly, for low-level temporal aggregation before the transformer, we enable the multi-modal references to capture multi-scale visual cues from consecutive video frames. This effectively endows the text or audio signals with temporal knowledge and boosts the semantic alignment between modalities. Secondly, for high-level temporal interaction after the transformer, we conduct inter-frame feature communication for different object embeddings, contributing to better object-wise correspondence for tracking along the video. On Ref-YouTube-VOS and AVSBench datasets with respective text and audio references, MUTR achieves +4.2% and +4.2% J&F improvements to state-of-the-art methods, demonstrating our significance for unified multi-modal VOS. Code is released at https://github.com/OpenGVLab/MUTR.

arxiv情報

著者 Shilin Yan,Renrui Zhang,Ziyu Guo,Wenchao Chen,Wei Zhang,Hongyang Li,Yu Qiao,Zhongjiang He,Peng Gao
発行日 2023-05-25 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク