Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

要約

オーディオビジュアルセグメンテーション (AVS) タスクは、オーディオキューを使用して、視覚空間内の音声オブジェクトをセグメント化することを目的としています。
しかし、この研究では、以前の AVS 方法は、正確な音声ガイドではなく、可聴オブジェクトに関連する有害なセグメンテーション設定に大きく依存していることが認識されています。
私たちは、主な理由は、特にマルチソースのサウンドシーンでは、視覚に比べて音声には堅牢なセマンティクスが欠けており、その結果、視覚空間に対する音声ガイドが弱くなるためであると主張します。
テキスト モダリティは十分に研究されており、豊富な抽象的なセマンティクスが含まれているという事実に動機付けられ、ビジュアル シーンからのテキスト キューを活用して、テキストに固有のセマンティクスを使用して音声ガイドを強化することを提案します。
私たちのアプローチは、既製の画像キャプショナーを通じてシーンの説明を取得し、凍結された大規模な言語モデルに潜在的な音声オブジェクトをテキストの手がかりとして推定させることから始まります。
続いて、動的マスクを備えた新しいセマンティクス主導のオーディオ モデリング モジュールを導入し、オーディオの特徴をテキスト キューと統合し、代表的なサウンド オブジェクトの特徴を導き出します。
これらの機能は、音声キューを包含するだけでなく、鮮明なセマンティクスも備えており、視覚空間でより明確なガイダンスを提供します。
AVS ベンチマークの実験結果では、テキスト キューの助けを借りた場合に、この方法がオーディオに対する感度を向上させ、3 つのサブセットすべてで非常に競争力のあるパフォーマンスを達成できることが検証されました。
プロジェクト ページ: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}

要約(オリジナル)

The Audio-Visual Segmentation (AVS) task aims to segment sounding objects in the visual space using audio cues. However, in this work, it is recognized that previous AVS methods show a heavy reliance on detrimental segmentation preferences related to audible objects, rather than precise audio guidance. We argue that the primary reason is that audio lacks robust semantics compared to vision, especially in multi-source sounding scenes, resulting in weak audio guidance over the visual space. Motivated by the the fact that text modality is well explored and contains rich abstract semantics, we propose leveraging text cues from the visual scene to enhance audio guidance with the semantics inherent in text. Our approach begins by obtaining scene descriptions through an off-the-shelf image captioner and prompting a frozen large language model to deduce potential sounding objects as text cues. Subsequently, we introduce a novel semantics-driven audio modeling module with a dynamic mask to integrate audio features with text cues, leading to representative sounding object features. These features not only encompass audio cues but also possess vivid semantics, providing clearer guidance in the visual space. Experimental results on AVS benchmarks validate that our method exhibits enhanced sensitivity to audio when aided by text cues, achieving highly competitive performance on all three subsets. Project page: \href{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}{https://github.com/GeWu-Lab/Sounding-Object-Segmentation-Preference}

arxiv情報

著者 Yaoting Wang,Peiwen Sun,Yuanchao Li,Honggang Zhang,Di Hu
発行日 2024-07-15 17:45:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク