要約
オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重要なタスクです。
これは、信号内のクラス同種セグメントの境界を検出することで構成されます。
多くのアプリケーションにおいて、説明可能な AI は、機械学習による意思決定の透明性を実現するための重要なプロセスです。
この論文では、音声アクティビティ (SAD)、音楽 (MD)、ノイズ (ND)、および重複音声検出 (OSD) を同時に解決する、説明可能なマルチラベル セグメンテーション モデルを提案します。
このプロキシは、非負行列因数分解 (NMF) を使用して、セグメンテーションに使用される埋め込みを周波数領域にマッピングします。
2 つのデータセットに対して行われた実験は、強力な説明可能性の特徴を示しながら、事前トレーニングされたブラック ボックス モデルと同様のパフォーマンスを示しました。
具体的には、決定に使用される周波数ビンは、セグメント レベル (ローカルの説明) とグローバル レベル (クラス プロトタイプ) の両方で簡単に識別できます。
要約(オリジナル)
Audio signal segmentation is a key task for automatic audio indexing. It consists of detecting the boundaries of class-homogeneous segments in the signal. In many applications, explainable AI is a vital process for transparency of decision-making with machine learning. In this paper, we propose an explainable multilabel segmentation model that solves speech activity (SAD), music (MD), noise (ND), and overlapped speech detection (OSD) simultaneously. This proxy uses the non-negative matrix factorization (NMF) to map the embedding used for the segmentation to the frequency domain. Experiments conducted on two datasets show similar performances as the pre-trained black box model while showing strong explainability features. Specifically, the frequency bins used for the decision can be easily identified at both the segment level (local explanations) and global level (class prototypes).
arxiv情報
著者 | Théo Mariotte,Antonio Almudévar,Marie Tahon,Alsonfo Ortega |
発行日 | 2024-01-16 10:41:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google