Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning

要約

私たちは、650 時間以上の 19 チャンネル オーディオ、一次アンビソニックス、およびオプションのディストラクター ノイズを含む空間オーディオ データセットである Spatial LibriSpeech を紹介します。
Spatial LibriSpeech は機械学習モデルのトレーニング用に設計されており、音源の位置、話し手の方向、室内音響、幾何学形状のラベルが含まれています。
空間 LibriSpeech は、8,000 以上の合成部屋にわたる 200,000 以上のシミュレートされた音響条件で LibriSpeech サンプルを拡張することによって生成されます。
データセットの有用性を実証するために、4 つの空間オーディオ タスクでモデルをトレーニングしたところ、絶対誤差の中央値は 3D 音源位置特定で 6.60{\deg}、距離で 0.43 m、T30 で 90.66 ミリ秒、DRR 推定で 2.74 dB となりました。

同じモデルが広く使用されている評価データセットによく一般化していることを示します。たとえば、TUT Sound Events 2018 の 3D 音源定位では 12.43{\deg} の絶対誤差の中央値が得られ、ACE Challenge では T30 推定で 157.32ms が得られました。

要約(オリジナル)

We present Spatial LibriSpeech, a spatial audio dataset with over 650 hours of 19-channel audio, first-order ambisonics, and optional distractor noise. Spatial LibriSpeech is designed for machine learning model training, and it includes labels for source position, speaking direction, room acoustics and geometry. Spatial LibriSpeech is generated by augmenting LibriSpeech samples with 200k+ simulated acoustic conditions across 8k+ synthetic rooms. To demonstrate the utility of our dataset, we train models on four spatial audio tasks, resulting in a median absolute error of 6.60{\deg} on 3D source localization, 0.43m on distance, 90.66ms on T30, and 2.74dB on DRR estimation. We show that the same models generalize well to widely-used evaluation datasets, e.g., obtaining a median absolute error of 12.43{\deg} on 3D source localization on TUT Sound Events 2018, and 157.32ms on T30 estimation on ACE Challenge.

arxiv情報

著者 Miguel Sarabia,Elena Menyaylenko,Alessandro Toso,Skyler Seto,Zakaria Aldeneh,Shadi Pirhosseinloo,Luca Zappella,Barry-John Theobald,Nicholas Apostoloff,Jonathan Sheaffer
発行日 2023-08-18 12:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク