要約
Explainable AI (XAI) 技術は、画像分類や自然言語処理などの分野で深層学習モデルの出力を説明し、理解するために広く使用されています。
XAI 技術を使用して深層学習ベースの自動音声認識 (ASR) を説明することへの関心が高まっています。
しかし、これらの説明が信頼できるかどうかについては十分な証拠がありません。
これに対処するために、画像分類ドメインである Local Interpretable Model-Agnostic Explains (LIME) の最先端の XAI 技術を、TIMIT ベースの音素認識タスク用にトレーニングされたモデルに適応させます。
この単純なタスクにより、制御された評価設定が提供されると同時に、説明の品質を評価するための専門家の注釈付きのグラウンド トゥルースも提供されます。
この論文で提案する、時間分割されたオーディオ セグメントに基づく LIME のバリアントは、上位 3 つのオーディオ セグメントに 96% の確率でグラウンド トゥルースを含む、最も信頼性の高い説明を生成することがわかりました。
要約(オリジナル)
Explainable AI (XAI) techniques have been widely used to help explain and understand the output of deep learning models in fields such as image classification and Natural Language Processing. Interest in using XAI techniques to explain deep learning-based automatic speech recognition (ASR) is emerging. but there is not enough evidence on whether these explanations can be trusted. To address this, we adapt a state-of-the-art XAI technique from the image classification domain, Local Interpretable Model-Agnostic Explanations (LIME), to a model trained for a TIMIT-based phoneme recognition task. This simple task provides a controlled setting for evaluation while also providing expert annotated ground truth to assess the quality of explanations. We find a variant of LIME based on time partitioned audio segments, that we propose in this paper, produces the most reliable explanations, containing the ground truth 96% of the time in its top three audio segments.
arxiv情報
著者 | Xiaoliang Wu,Peter Bell,Ajitha Rajan |
発行日 | 2023-05-29 11:04:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google