An Investigation on the Potential of KAN in Speech Enhancement


高忠実度の音声強調には、多くの場合、複雑なマルチスケール パターンをキャプチャするための高度なモデリングが必要です。
Kolmogorov-Arnold Networks (KAN) は、グラフ エッジで学習可能な活性化関数を採用する新しい方法論であり、有望な代替手段を提供します。
この研究では、音声強調のための有理基底関数と動径基底関数に基づく 2 つの新しい KAN バリアントを調査します。
有理バリアントを Demucs の 1D CNN ブロックと MP-SENet の GRU-Transformer ブロックに統合し、ラジアル バリアントを MP-SENet の 2D CNN ベースのデコーダに適応させます。
VoiceBank-DEMAND データセットの実験では、標準アクティベーションを KAN ベースのアクティベーションに置き換えることで、モデル サイズと FLOP への影響を最小限に抑えながら、時間領域と時間周波数領域の両方の方法で音声品質が向上することが示されており、音声強調モデルを改善する KAN の可能性が強調されています。


High-fidelity speech enhancement often requires sophisticated modeling to capture intricate, multiscale patterns. Standard activation functions, while introducing nonlinearity, lack the flexibility to fully address this complexity. Kolmogorov-Arnold Networks (KAN), an emerging methodology that employs learnable activation functions on graph edges, present a promising alternative. This work investigates two novel KAN variants based on rational and radial basis functions for speech enhancement. We integrate the rational variant into the 1D CNN blocks of Demucs and the GRU-Transformer blocks of MP-SENet, while the radial variant is adapted to the 2D CNN-based decoders of MP-SENet. Experiments on the VoiceBank-DEMAND dataset show that replacing standard activations with KAN-based activations improves speech quality across both the time-domain and time-frequency domain methods with minimal impact on model size and FLOP, underscoring KAN’s potential to improve speech enhancement models.


著者 Haoyang Li,Yuchen Hu,Chen Chen,Eng Siong Chng
発行日 2024-12-23 18:38:32+00:00
カテゴリー: cs.AI, cs.LG, eess.AS パーマリンク