要約
現在のオーディオとビジュアルの分離方法は、オーディオ エンコーダー/デコーダー ネットワークがエンコーダーのボトルネックでビジュアル エンコーディング機能と融合される標準的なアーキテクチャ設計を共有しています。
この設計は、マルチモーダル機能エンコーディングの学習と、オーディオ分離のための堅牢なサウンド デコーディングを混同します。
新しい楽器に一般化するには、すべての楽器のビジュアル ネットワークとオーディオ ネットワーク全体を微調整する必要があります。
視覚音分離タスクを再定式化し、柔軟なクエリ拡張メカニズムを備えた Instrument as Query (iQuery) を提案します。
私たちのアプローチは、クロスモーダルの一貫性とクロスインストゥルメントの絡み合いを確実にします。
「視覚的に名前が付けられた」クエリを利用してオーディオクエリの学習を開始し、クロスモーダルアテンションを使用して、推定された波形で潜在的な音源干渉を除去します。
テキスト プロンプトのデザインから着想を得て、新しい楽器またはイベント クラスに一般化するために、アテンション メカニズムを凍結しながら、追加のクエリを音声プロンプトとして挿入します。
3 つのベンチマークでの実験結果は、iQuery がオーディオとビジュアルの音源分離パフォーマンスを向上させることを示しています。
要約(オリジナル)
Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize ‘visually named’ queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
arxiv情報
著者 | Jiaben Chen,Renrui Zhang,Dongze Lian,Jiaqi Yang,Ziyao Zeng,Jianbo Shi |
発行日 | 2022-12-08 16:33:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google