DiffSED: Sound Event Detection with Denoising Diffusion

要約

サウンド イベント検出 (SED) は、制約のないオーディオ サンプルを前提として、対象となるすべてのイベントの時間的境界とそのクラス ラベルを予測することを目的としています。
分割して分類する (つまり、フレーム レベル) 戦略またはより原理的なイベント レベル モデリング アプローチのいずれかを採用する既存のすべての方法は、識別学習の観点から SED 問題を考慮します。
この研究では、生成学習の観点から SED 問題を再定式化します。
具体的には、ターゲットオーディオサンプルを条件としたノイズ除去拡散プロセスで、ノイズを含む提案からサウンドの時間境界を生成することを目的としています。
トレーニング中に、私たちのモデルは、エレガントな Transformer デコーダー フレームワークでノイズの多い潜在クエリをグラウンドトゥルース バージョンに変換することで、ノイズのプロセスを逆転することを学習します。
これにより、モデルは推論中にノイズの多いクエリからも正確なイベント境界を生成できるようになります。
Urban-SED および EPIC-Sounds データセットに関する広範な実験により、私たちのモデルが既存の代替モデルよりも大幅に優れ、トレーニングの収束が 40% 以上高速であることが実証されました。

要約(オリジナル)

Sound Event Detection (SED) aims to predict the temporal boundaries of all the events of interest and their class labels, given an unconstrained audio sample. Taking either the splitand-classify (i.e., frame-level) strategy or the more principled event-level modeling approach, all existing methods consider the SED problem from the discriminative learning perspective. In this work, we reformulate the SED problem by taking a generative learning perspective. Specifically, we aim to generate sound temporal boundaries from noisy proposals in a denoising diffusion process, conditioned on a target audio sample. During training, our model learns to reverse the noising process by converting noisy latent queries to the groundtruth versions in the elegant Transformer decoder framework. Doing so enables the model generate accurate event boundaries from even noisy queries during inference. Extensive experiments on the Urban-SED and EPIC-Sounds datasets demonstrate that our model significantly outperforms existing alternatives, with 40+% faster convergence in training.

arxiv情報

著者 Swapnil Bhosale,Sauradip Nag,Diptesh Kanojia,Jiankang Deng,Xiatian Zhu
発行日 2023-08-14 17:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク