Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features

要約

eXplainable AI (XAI) の最近の進歩により、視覚、言語、および表形式データのモデルがどのように動作するかについて新たな洞察が得られました。
ただし、音声モデルを理解するためのアプローチはほとんどありません。
既存の研究は、いくつかの音声言語理解 (SLU) タスクに焦点を当てており、説明はほとんどのユーザーにとって解釈が困難です。
音声分類モデルを説明するための新しいアプローチを紹介します。
2 つの情報レベルでの入力摂動を介して、解釈しやすい説明を生成します。
1) 単語レベルの説明により、単語に関連する各音声セグメントが結果にどのような影響を与えるかを明らかにします。
2) パラ言語の特徴 (韻律やバックグラウンド ノイズなど) は、「この方法でオーディオ信号を編集した場合、モデルの予測はどうなるでしょうか?」という反事実に答えます。2 つの最先端の方法を説明することで、私たちのアプローチを検証します。
SLU モデルは、英語とイタリア語の 2 つの音声分類タスクに基づいています。
私たちの調査結果は、説明がモデルの内部動作に忠実であり、人間にとって納得できるものであることを示しています。
私たちの方法と発見は、音声モデルの解釈に関する将来の研究への道を開きます。

要約(オリジナル)

Recent advances in eXplainable AI (XAI) have provided new insights into how models for vision, language, and tabular data operate. However, few approaches exist for understanding speech models. Existing work focuses on a few spoken language understanding (SLU) tasks, and explanations are difficult to interpret for most users. We introduce a new approach to explain speech classification models. We generate easy-to-interpret explanations via input perturbation on two information levels. 1) Word-level explanations reveal how each word-related audio segment impacts the outcome. 2) Paralinguistic features (e.g., prosody and background noise) answer the counterfactual: “What would the model prediction be if we edited the audio signal in this way?” We validate our approach by explaining two state-of-the-art SLU models on two speech classification tasks in English and Italian. Our findings demonstrate that the explanations are faithful to the model’s inner workings and plausible to humans. Our method and findings pave the way for future research on interpreting speech models.

arxiv情報

著者 Eliana Pastor,Alkis Koudounas,Giuseppe Attanasio,Dirk Hovy,Elena Baralis
発行日 2023-09-14 14:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク