要約
ユニバーサルサウンドセパレーションは、混合オーディオからの明確なイベントに対応するクリーンなオーディオトラックを抽出することを目的としています。これは、人工聴覚の知覚に重要です。
ただし、現在の方法は、人工的に混合されたオーディオのトレーニングに大きく依存しているため、実際の環境で収集された自然に混合されたオーディオに一般化する能力が制限されています。
この制限を克服するために、データエンジンを採用して複雑な自然混合オーディオを複数の独立したトラックに分解し、実際のシナリオで効果的なサウンド分離を可能にするClearSepを提案します。
2つのリミックスベースの評価メトリックを導入して、分離品質を定量的に評価し、これらのメトリックをしきい値として使用して、モデルトレーニングとともにデータエンジンを繰り返し適用し、分離パフォーマンスを徐々に最適化します。
さらに、これらの分離された独立したトラックに合わせて調整された一連のトレーニング戦略を提案して、それらを最大限に活用します。
広範な実験は、ClearSepが複数のサウンド分離タスクにわたって最先端のパフォーマンスを達成し、自然なオーディオシナリオでサウンド分離を進める可能性を強調することを示しています。
その他の例と詳細な結果については、https://clearsep.github.ioのデモページをご覧ください。
要約(オリジナル)
Universal sound separation aims to extract clean audio tracks corresponding to distinct events from mixed audio, which is critical for artificial auditory perception. However, current methods heavily rely on artificially mixed audio for training, which limits their ability to generalize to naturally mixed audio collected in real-world environments. To overcome this limitation, we propose ClearSep, an innovative framework that employs a data engine to decompose complex naturally mixed audio into multiple independent tracks, thereby allowing effective sound separation in real-world scenarios. We introduce two remix-based evaluation metrics to quantitatively assess separation quality and use these metrics as thresholds to iteratively apply the data engine alongside model training, progressively optimizing separation performance. In addition, we propose a series of training strategies tailored to these separated independent tracks to make the best use of them. Extensive experiments demonstrate that ClearSep achieves state-of-the-art performance across multiple sound separation tasks, highlighting its potential for advancing sound separation in natural audio scenarios. For more examples and detailed results, please visit our demo page at https://clearsep.github.io.
arxiv情報
著者 | Xize Cheng,Slytherin Wang,Zehan Wang,Rongjie Huang,Tao Jin,Zhou Zhao |
発行日 | 2025-04-24 17:58:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google