Universal Sound Separation with Self-Supervised Audio Masked Autoencoder

要約

ユニバーサル サウンド セパレーション (USS) は、任意の音源の混合物を分離するタスクです。
通常、ユニバーサル分離モデルは、ラベル付きデータを使用して、教師ありの方法で最初からトレーニングされます。
自己教師あり学習 (SSL) は、ラベルのないデータを活用してタスクに依存しない表現を取得する新しい深層学習アプローチであり、多くの下流タスクにメリットをもたらします。
この論文では、自己教師ありの事前トレーニング済みモデル、つまりオーディオマスクオートエンコーダ(A-MAE)をユニバーサルサウンド分離システムに統合して、その分離性能を強化することを提案します。
SSL 埋め込みを利用するために、微調整中に A-MAE のパラメーターを凍結または更新する 2 つの戦略を採用しています。
SSL 埋め込みは短時間フーリエ変換 (STFT) と連結され、分離モデルの入力特徴として機能します。
AudioSet データセットでメソッドを評価したところ、実験結果は、提案されたメソッドが最先端の ResUNet ベースの USS モデルの分離パフォーマンスを向上させることに成功したことを示しています。

要約(オリジナル)

Universal sound separation (USS) is a task of separating mixtures of arbitrary sound sources. Typically, universal separation models are trained from scratch in a supervised manner, using labeled data. Self-supervised learning (SSL) is an emerging deep learning approach that leverages unlabeled data to obtain task-agnostic representations, which can benefit many downstream tasks. In this paper, we propose integrating a self-supervised pre-trained model, namely the audio masked autoencoder (A-MAE), into a universal sound separation system to enhance its separation performance. We employ two strategies to utilize SSL embeddings: freezing or updating the parameters of A-MAE during fine-tuning. The SSL embeddings are concatenated with the short-time Fourier transform (STFT) to serve as input features for the separation model. We evaluate our methods on the AudioSet dataset, and the experimental results indicate that the proposed methods successfully enhance the separation performance of a state-of-the-art ResUNet-based USS model.

arxiv情報

著者 Junqi Zhao,Xubo Liu,Jinzheng Zhao,Yi Yuan,Qiuqiang Kong,Mark D. Plumbley,Wenwu Wang
発行日 2024-07-16 14:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク