要約
このペーパーでは、機械学習のパラダイムに統合されるように特別に設計された、反転性で安定した知覚的に動機付けられたフィルターバンクであるISACを紹介します。
より正確には、フィルターの中心周波数と帯域幅は、非線形の聴覚周波数スケールに従うように選択され、フィルターカーネルはユーザー定義の最大時間的サポートを持ち、学習可能な畳み込みカーネルとして機能し、両方が完全な再構成ペアを形成する対応するフィルターバンクが存在する可能性があります。
ISACは、分析合成スキームを含むあらゆるアプリケーションに適した強力でユーザーフレンドリーなオーディオフロントエンドを提供します。
要約(オリジナル)
This paper introduces ISAC, an invertible and stable, perceptually-motivated filter bank that is specifically designed to be integrated into machine learning paradigms. More precisely, the center frequencies and bandwidths of the filters are chosen to follow a non-linear, auditory frequency scale, the filter kernels have user-defined maximum temporal support and may serve as learnable convolutional kernels, and there exists a corresponding filter bank such that both form a perfect reconstruction pair. ISAC provides a powerful and user-friendly audio front-end suitable for any application, including analysis-synthesis schemes.
arxiv情報
著者 | Daniel Haider,Felix Perfler,Peter Balazs,Clara Hollomey,Nicki Holighaus |
発行日 | 2025-05-12 16:15:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google