Real-Time Target Sound Extraction


– ニューラルネットワークによる、リアルタイムかつストリーミング対象音声抽出の実現に成功したという研究を発表
– Waveformerと呼ばれるエンコーダ・デコーダアーキテクチャを提案し、エンコーダにはスタックされた拡張可能な因果畳み込み層、デコーダにはトランスフォーマー層を使用
– このハイブリッドアーキテクチャは、拡張可能な因果畳み込みを用いて大きな受容野を効率的に処理し、トランスフォーマーに基づくアーキテクチャの汎化性能を活用する
– 評価により、従来のモデルに比べてSI-SNRiで最大2.2〜3.3 dBの改善があり、モデルサイズは1.2〜4倍、ランタイムは1.5〜2倍低く抑えられている
– コード、データセット、音声サンプルを提供。詳細はにて。


We present the first neural network model to achieve real-time and streaming target sound extraction. To accomplish this, we propose Waveformer, an encoder-decoder architecture with a stack of dilated causal convolution layers as the encoder, and a transformer decoder layer as the decoder. This hybrid architecture uses dilated causal convolutions for processing large receptive fields in a computationally efficient manner while also leveraging the generalization performance of transformer-based architectures. Our evaluations show as much as 2.2-3.3 dB improvement in SI-SNRi compared to the prior models for this task while having a 1.2-4x smaller model size and a 1.5-2x lower runtime. We provide code, dataset, and audio samples:


著者 Bandhav Veluri,Justin Chan,Malek Itani,Tuochao Chen,Takuya Yoshioka,Shyamnath Gollakota
発行日 2023-04-19 09:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク