A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation

要約

映画的なオーディオ ソースの分離は、対話の幹、音楽の幹、およびそれらの混合から生じるエフェクトを抽出することを目的とした、オーディオ ソース分離の比較的新しいサブタスクです。
この研究では、周波数軸の完全または過完全な分割に対するバンド分割 RNN を一般化するモデルを開発しました。
心理音響学的に動機付けられた周波数スケールを使用して帯域定義を通知し、現在ではより信頼性の高い特徴抽出のために冗長性を持たせて定義されています。
信号対雑音比と 1 ノルムのスパース性促進特性によって動機付けられた損失関数が提案されました。
さらに、共通のエンコーダー設定の情報共有特性を活用して、トレーニングと推論の両方で計算の複雑さを軽減し、一般化が難しい音のクラスの分離パフォーマンスを向上させ、簡単に取り外し可能なデコーダーを使用して推論時の柔軟性を実現します。
私たちの最良のモデルは、対話ステムの理想的な比率マスクを上回るパフォーマンスを備えた分割およびリマスター データセットの最先端を設定します。

要約(オリジナル)

Cinematic audio source separation is a relatively new subtask of audio source separation, with the aim of extracting the dialogue stem, the music stem, and the effects stem from their mixture. In this work, we developed a model generalizing the Bandsplit RNN for any complete or overcomplete partitions of the frequency axis. Psycho-acoustically motivated frequency scales were used to inform the band definitions which are now defined with redundancy for more reliable feature extraction. A loss function motivated by the signal-to-noise ratio and the sparsity-promoting property of the 1-norm was proposed. We additionally exploit the information-sharing property of a common-encoder setup to reduce computational complexity during both training and inference, improve separation performance for hard-to-generalize classes of sounds, and allow flexibility during inference time with easily detachable decoders. Our best model sets the state of the art on the Divide and Remaster dataset with performance above the ideal ratio mask for the dialogue stem.

arxiv情報

著者 Karn N. Watcharasupat,Chih-Wei Wu,Yiwei Ding,Iroro Orife,Aaron J. Hipple,Phillip A. Williams,Scott Kramer,Alexander Lerch,William Wolcott
発行日 2023-09-07 16:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク