Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification


サウンド イベント検出 (SED) と音響シーン分類 (ASC) は、音響シーン分析に関する研究の重要な部分を構成する 2 つの広く研究されているオーディオ タスクです。
サウンド イベントと音響シーンの間で共有される情報を考慮すると、両方のタスクを一緒に実行することは、複雑な機械のリスニング システムの自然な部分です。
この論文では、SED と ASC を実行するジョイント ディープ ニューラル ネットワーク (DNN) モデルのトレーニングにおけるいくつかの空間オーディオ機能の有用性を調査します。
バイノーラル録音と同期サウンド イベントおよび音響シーン ラベルを含む 2 つの異なるデータセットに対して実験を実行し、SED と ASC を個別にまたは一緒に実行することの違いを分析します。
提示された結果は、特定のバイノーラル機能、主に位相変換による一般化相互相関 (GCC-phat) と位相差のサインとコサインを使用すると、ベースライン方法と比較して、別々のタスクと共同タスクの両方でモデルのパフォーマンスが向上することを示しています。
logmel エネルギーのみに基づいています。


Sound event detection (SED) and Acoustic scene classification (ASC) are two widely researched audio tasks that constitute an important part of research on acoustic scene analysis. Considering shared information between sound events and acoustic scenes, performing both tasks jointly is a natural part of a complex machine listening system. In this paper, we investigate the usefulness of several spatial audio features in training a joint deep neural network (DNN) model performing SED and ASC. Experiments are performed for two different datasets containing binaural recordings and synchronous sound event and acoustic scene labels to analyse the differences between performing SED and ASC separately or jointly. The presented results show that the use of specific binaural features, mainly the Generalized Cross Correlation with Phase Transform (GCC-phat) and sines and cosines of phase differences, result in a better performing model in both separate and joint tasks as compared with baseline methods based on logmel energies only.


著者 Daniel Aleksander Krause,Annamaria Mesaros
発行日 2022-09-13 11:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク