Transavs: End-To-End Audio-Visual Segmentation With Transformer

要約

オーディオビジュアルセグメンテーション (AVS) は、オーディオ信号を調査することによって、ビデオ フレーム内の音声オブジェクトをセグメント化することを目的とした、挑戦的なタスクです。
一般に、AVS は 2 つの重要な課題に直面しています。(1) 複数のオブジェクトによって生成されるサウンドが同じオーディオ ストリーム内で絡み合っているため、オーディオ信号は本質的に高度な情報密度を示します。
(2) 同じカテゴリのオブジェクトは同様の音声信号を生成する傾向があるため、それらを区別することが困難になり、不明確なセグメンテーション結果が得られます。
この目的に向けて、AVS タスク用の初の Transformer ベースのエンドツーエンド フレームワークである TransAVS を提案します。
具体的には、TransAVS はオーディオ ストリームをオーディオ クエリとして解きほぐし、画像と対話し、完全なトランスフォーマー アーキテクチャでセグメンテーション マスクにデコードします。
このスキームは、包括的なオーディオと画像のコミュニケーションを促進するだけでなく、シーン内にカプセル化されたインスタンス キューを明示的に発掘します。
一方、これらのオーディオ クエリが均質になるまで劣化するのではなく、特徴的なサウンドのオブジェクトをキャプチャすることを促進するために、クエリ レベルとマスク レベルの両方で 2 つの自己教師あり損失関数を考案し、モデルが同様のオーディオ データ内の独特の特徴をキャプチャし、より正確なセグメンテーションを実現できるようにします。

私たちの実験は、TransAVS が AVSBench データセット上で最先端の結果を達成することを実証し、オーディオ モダリティとビジュアル モダリティの間のギャップを埋める効果を強調しています。

要約(オリジナル)

Audio-Visual Segmentation (AVS) is a challenging task, which aims to segment sounding objects in video frames by exploring audio signals. Generally AVS faces two key challenges: (1) Audio signals inherently exhibit a high degree of information density, as sounds produced by multiple objects are entangled within the same audio stream; (2) Objects of the same category tend to produce similar audio signals, making it difficult to distinguish between them and thus leading to unclear segmentation results. Toward this end, we propose TransAVS, the first Transformer-based end-to-end framework for AVS task. Specifically, TransAVS disentangles the audio stream as audio queries, which will interact with images and decode into segmentation masks with full transformer architectures. This scheme not only promotes comprehensive audio-image communication but also explicitly excavates instance cues encapsulated in the scene. Meanwhile, to encourage these audio queries to capture distinctive sounding objects instead of degrading to be homogeneous, we devise two self-supervised loss functions at both query and mask levels, allowing the model to capture distinctive features within similar audio data and achieve more precise segmentation. Our experiments demonstrate that TransAVS achieves state-of-the-art results on the AVSBench dataset, highlighting its effectiveness in bridging the gap between audio and visual modalities.

arxiv情報

著者 Yuhang Ling,Yuxi Li,Zhenye Gan,Jiangning Zhang,Mingmin Chi,Yabiao Wang
発行日 2023-12-26 12:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク