Device-Robust Acoustic Scene Classification via Impulse Response Augmentation

要約

音声分類モデルにおいて、様々な録音機器への汎化能力は重要な性能要素である。異なるタイプのマイクロフォンの特性は、その周波数特性の違いにより、デジタル化されたオーディオ信号に分布のずれをもたらす。この分布のずれが学習時に考慮されないと、未知の機器で録音された信号に適用した場合、モデルの性能が著しく低下する可能性がある。特に、少数の異なるマイクで録音された音声信号でモデルを学習させると、未知のデバイスへの一般化が困難になることがあります。この問題に対処するため、我々は、録音機器の多様性を人工的に高めるために、訓練セットの音声信号をあらかじめ録音された機器インパルス応答(DIR)で畳み込みます。CNNとオーディオスペクトログラム変換器を用いた音響シーン分類の課題に対して、DIR増強の効果を系統的に研究する。その結果、単独でのDIR増強は、最先端の手法であるFreq-MixStyleと同様の性能を持つことがわかった。しかし、DIRオーグメントとFreq-MixStyleは相補的であり、トレーニング中に未視聴のデバイスによって録音された信号に対して新しい最先端の性能を達成することも示した。

要約(オリジナル)

The ability to generalize to a wide range of recording devices is a crucial performance factor for audio classification models. The characteristics of different types of microphones introduce distributional shifts in the digitized audio signals due to their varying frequency responses. If this domain shift is not taken into account during training, the model’s performance could degrade severely when it is applied to signals recorded by unseen devices. In particular, training a model on audio signals recorded with a small number of different microphones can make generalization to unseen devices difficult. To tackle this problem, we convolve audio signals in the training set with pre-recorded device impulse responses (DIRs) to artificially increase the diversity of recording devices. We systematically study the effect of DIR augmentation on the task of Acoustic Scene Classification using CNNs and Audio Spectrogram Transformers. The results show that DIR augmentation in isolation performs similarly to the state-of-the-art method Freq-MixStyle. However, we also show that DIR augmentation and Freq-MixStyle are complementary, achieving a new state-of-the-art performance on signals recorded by devices unseen during training.

arxiv情報

著者 Tobias Morocutti,Florian Schmid,Khaled Koutini,Gerhard Widmer
発行日 2023-05-12 14:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク