XAI-based Comparison of Input Representations for Audio Event Classification

要約

タイトル:オーディオイベント分類に対する入力表現のXAIに基づく比較

要約:
– ディープニューラルネットワークは、オーディオイベントの分類において有望なツールです。
– しかし、自然画像などの他のデータとは異なり、オーディオデータには多数の適切でない表現が存在します。
– 現在、異なる入力表現の影響を測定するためには、分類性能を測定する方法が一般的です。
– 本研究では、eXplainable AI(XAI)を活用して、異なる入力表現を用いたモデルの分類戦略を理解することを試みました。
– 具体的には、生波形を直接処理するモデルと、時間-周波数スペクトログラム表現を取り扱うモデルの2つのアーキテクチャを比較しました。
– Sirenによって取得された関連熱度マップを用いることで、表現依存の決定戦略を明らかにすることができました。
– これらの洞察を通じて、堅牢性や代表性の観点から最適な入力表現を決定することが可能であり、モデルの分類戦略が人間の要件に合致していることを確認することができました。

要約(オリジナル)

Deep neural networks are a promising tool for Audio Event Classification. In contrast to other data like natural images, there are many sensible and non-obvious representations for audio data, which could serve as input to these models. Due to their black-box nature, the effect of different input representations has so far mostly been investigated by measuring classification performance. In this work, we leverage eXplainable AI (XAI), to understand the underlying classification strategies of models trained on different input representations. Specifically, we compare two model architectures with regard to relevant input features used for Audio Event Detection: one directly processes the signal as the raw waveform, and the other takes in its time-frequency spectrogram representation. We show how relevance heatmaps obtained via ‘Siren'{Layer-wise Relevance Propagation} uncover representation-dependent decision strategies. With these insights, we can make a well-informed decision about the best input representation in terms of robustness and representativity and confirm that the model’s classification strategies align with human requirements.

arxiv情報

著者 Annika Frommholz,Fabian Seipel,Sebastian Lapuschkin,Wojciech Samek,Johanna Vielhaben
発行日 2023-04-27 08:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク