Separate Anything You Describe

要約

Language-Queryed Audio Source Separation (LASS) は、Computational Auditory Scene Analysis (CASA) の新しいパラダイムです。
LASS は、自然言語クエリを与えられたオーディオ混合物からターゲットサウンドを分離することを目的としており、デジタルオーディオアプリケーションに自然でスケーラブルなインターフェイスを提供します。
LASS に関する最近の研究では、特定のソース (例: 楽器、限られたクラスのオーディオ イベント) で有望な分離パフォーマンスを達成しているにもかかわらず、オープン ドメインでオーディオの概念を分離することができません。
この研究では、自然言語クエリを使用したオープンドメインのオーディオ ソース分離の基礎モデルである AudioSep を紹介します。
私たちは大規模なマルチモーダル データセットで AudioSep をトレーニングし、オーディオ イベントの分離、楽器の分離、音声強調などの多数のタスクでその機能を広範囲に評価しています。
AudioSep は、音声キャプションまたはテキスト ラベルをクエリとして使用する強力な分離パフォーマンスと印象的なゼロショット汎化能力を実証し、以前の音声クエリおよび言語クエリの音分離モデルを大幅に上回ります。
この作業の再現性を高めるために、ソース コード、評価ベンチマーク、事前トレーニング済みモデルを https://github.com/Audio-AGI/AudioSep でリリースします。

要約(オリジナル)

Language-queried audio source separation (LASS) is a new paradigm for computational auditory scene analysis (CASA). LASS aims to separate a target sound from an audio mixture given a natural language query, which provides a natural and scalable interface for digital audio applications. Recent works on LASS, despite attaining promising separation performance on specific sources (e.g., musical instruments, limited classes of audio events), are unable to separate audio concepts in the open domain. In this work, we introduce AudioSep, a foundation model for open-domain audio source separation with natural language queries. We train AudioSep on large-scale multimodal datasets and extensively evaluate its capabilities on numerous tasks including audio event separation, musical instrument separation, and speech enhancement. AudioSep demonstrates strong separation performance and impressive zero-shot generalization ability using audio captions or text labels as queries, substantially outperforming previous audio-queried and language-queried sound separation models. For reproducibility of this work, we will release the source code, evaluation benchmark and pre-trained model at: https://github.com/Audio-AGI/AudioSep.

arxiv情報

著者 Xubo Liu,Qiuqiang Kong,Yan Zhao,Haohe Liu,Yi Yuan,Yuzhuo Liu,Rui Xia,Yuxuan Wang,Mark D. Plumbley,Wenwu Wang
発行日 2023-08-09 16:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS パーマリンク