OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

要約

近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。
しかし、音声に関しては、ほとんどの自然音声には多様な干渉信号が含まれているため、研究者はトレーニング データをスケールアップする際に大きな課題に直面します。
この制限に対処するために、オムニモーダル サウンド分離 (OmniSep) を導入します。これは、シングルモーダルとマルチモーダルの両方で構成されたクエリを含む、オムニモーダル クエリに基づいてクリーン サウンドトラックを分離できる新しいフレームワークです。
具体的には、トレーニング中にさまざまなモダリティのクエリ特徴を混合するクエリミックスアップ戦略を導入します。
これにより、OmniSep は複数のモダリティを同時に最適化し、音分離のための統一されたフレームワークの下にすべてのモダリティを効果的に導入することができます。
クエリがサウンドの分離にプラスまたはマイナスの影響を与えることができるようにすることで、この柔軟性をさらに強化し、必要に応じて特定のサウンドの保持または削除を容易にします。
最後に、OmniSep は、Query-Aug として知られる検索拡張アプローチを採用しており、オープンな語彙の音の分離を可能にします。
MUSIC、VGGSOUND-CLEAN+、および MUSIC-CLEAN+ データセットの実験評価では、OmniSep の有効性が実証され、テキスト、画像、オーディオのクエリによる音声分離タスクで最先端のパフォーマンスが達成されます。
サンプルと詳細については、\url{https://omnisep.github.io/} のデモ ページをご覧ください。

要約(オリジナル)

The scaling up has brought tremendous success in the fields of vision and language in recent years. When it comes to audio, however, researchers encounter a major challenge in scaling up the training data, as most natural audio contains diverse interfering signals. To address this limitation, we introduce Omni-modal Sound Separation (OmniSep), a novel framework capable of isolating clean soundtracks based on omni-modal queries, encompassing both single-modal and multi-modal composed queries. Specifically, we introduce the Query-Mixup strategy, which blends query features from different modalities during training. This enables OmniSep to optimize multiple modalities concurrently, effectively bringing all modalities under a unified framework for sound separation. We further enhance this flexibility by allowing queries to influence sound separation positively or negatively, facilitating the retention or removal of specific sounds as desired. Finally, OmniSep employs a retrieval-augmented approach known as Query-Aug, which enables open-vocabulary sound separation. Experimental evaluations on MUSIC, VGGSOUND-CLEAN+, and MUSIC-CLEAN+ datasets demonstrate effectiveness of OmniSep, achieving state-of-the-art performance in text-, image-, and audio-queried sound separation tasks. For samples and further information, please visit the demo page at \url{https://omnisep.github.io/}.

arxiv情報

著者 Xize Cheng,Siqi Zheng,Zehan Wang,Minghui Fang,Ziang Zhang,Rongjie Huang,Ziyang Ma,Shengpeng Ji,Jialong Zuo,Tao Jin,Zhou Zhao
発行日 2024-10-28 17:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク