ReZero: Region-customizable Sound Extraction

要約

マルチチャネル領域ごとのサウンド抽出 (R-SE) タスク用の一般的で柔軟なフレームワークである、領域カスタマイズ可能なサウンド抽出 (ReZero) を紹介します。
R-SE タスクは、特定のユーザー定義の空間領域内のすべてのアクティブなターゲット音 (人間の音声など) を抽出することを目的としています。これは、ブラインド分離または固定の事前定義された空間領域が通常想定される従来の既存のタスクとは異なります。
空間領域は、角度ウィンドウ、球、円錐、またはその他の幾何学的パターンとして定義できます。
R-SE タスクの解決策として、提案された ReZero フレームワークには、(1) さまざまなタイプの空間領域の定義、(2) 領域特徴の抽出と集約の方法、および (3) 帯域のマルチチャネル拡張が含まれます。
R-SE タスクに指定された分割 RNN (BSRNN) モデル。
私たちは、さまざまなマイクロフォンアレイの形状、さまざまなタイプの空間領域、およびさまざまなシステム構成での包括的なアブレーション研究に関する実験を設計します。
シミュレートされたデータと実際に記録されたデータの両方に関する実験結果は、リゼロの有効性を示しています。
デモは https://innerselfm.github.io/rezero/ で利用できます。

要約(オリジナル)

We introduce region-customizable sound extraction (ReZero), a general and flexible framework for the multi-channel region-wise sound extraction (R-SE) task. R-SE task aims at extracting all active target sounds (e.g., human speech) within a specific, user-defined spatial region, which is different from conventional and existing tasks where a blind separation or a fixed, predefined spatial region are typically assumed. The spatial region can be defined as an angular window, a sphere, a cone, or other geometric patterns. Being a solution to the R-SE task, the proposed ReZero framework includes (1) definitions of different types of spatial regions, (2) methods for region feature extraction and aggregation, and (3) a multi-channel extension of the band-split RNN (BSRNN) model specified for the R-SE task. We design experiments for different microphone array geometries, different types of spatial regions, and comprehensive ablation studies on different system configurations. Experimental results on both simulated and real-recorded data demonstrate the effectiveness of ReZero. Demos are available at https://innerselfm.github.io/rezero/.

arxiv情報

著者 Rongzhi Gu,Yi Luo
発行日 2023-08-31 17:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク