Topological Data Analysis for Speech Processing

要約

トポロジカル データ分析 (TDA) を音声分類問題と事前学習済み音声モデル HuBERT の内省に適用します。
この目的を達成するために、Transformer アテンション マップと埋め込みから派生したいくつかの位相的および代数的特徴を導入します。
このような機能の上に構築された単純な線形分類器が、微調整された分類ヘッドよりも優れたパフォーマンスを発揮することを示します。
特に、4 つの一般的なデータセットで約 $9\%$ の精度と $5\%$ の誤差の改善を達成しました。
CREMA-D では、提案された機能セットは、$80.155$ の精度で新しい最先端のパフォーマンスに達します。
また、トポロジカルな特徴によって音声変換器ヘッドの機能的役割が明らかになることも示します。
たとえば、ダウンストリームの微調整を行わずに、サンプル ソース (自然/合成) または音声のペアを区別できるヘッドが見つかりました。
私たちの結果は、TDA が音声分析、特に構造予測を必要とするタスクにとって有望な新しいアプローチであることを示しています。
付録、TDA の概要、その他の追加資料は、ここから入手できます – https://topohubert.github.io/speech-topology-webpages/

要約(オリジナル)

We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained speech model, HuBERT. To this end, we introduce a number of topological and algebraic features derived from Transformer attention maps and embeddings. We show that a simple linear classifier built on top of such features outperforms a fine-tuned classification head. In particular, we achieve an improvement of about $9\%$ accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed feature set reaches a new state of the art performance with accuracy $80.155$. We also show that topological features are able to reveal functional roles of speech Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning. Our results demonstrate that TDA is a promising new approach for speech analysis, especially for tasks that require structural prediction. Appendices, an introduction to TDA, and other additional materials are available here – https://topohubert.github.io/speech-topology-webpages/

arxiv情報

著者 Eduard Tulchinskii,Kristian Kuznetsov,Laida Kushnareva,Daniil Cherniavskii,Serguei Barannikov,Irina Piontkovskaya,Sergey Nikolenko,Evgeny Burnaev
発行日 2023-06-06 11:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, math.AT パーマリンク