Biomimetic Frontend for Differentiable Audio Processing

要約

オーディオおよび音声処理のモデルはより深く、よりエンドツーエンドになっていますが、その結果、大規模なデータでの高価なトレーニングが必要となり、多くの場合脆弱になります。
私たちは人間の聴覚の古典的なモデルに基づいて構築し、それを微分可能にすることで、従来の説明可能な生体模倣信号処理アプローチと深層学習フレームワークを組み合わせることができます。
これにより、適度な量のデータで簡単にトレーニングできる、表現力豊かで説明可能なモデルに到達することができます。
このモデルを、分類や強化などの音声処理タスクに適用します。
結果は、トレーニング データがほとんどなくても、微分可能モデルが計算効率と堅牢性の点でブラック ボックス アプローチを上回っていることを示しています。
他の潜在的なアプリケーションについても説明します。

要約(オリジナル)

While models in audio and speech processing are becoming deeper and more end-to-end, they as a consequence need expensive training on large data, and are often brittle. We build on a classical model of human hearing and make it differentiable, so that we can combine traditional explainable biomimetic signal processing approaches with deep-learning frameworks. This allows us to arrive at an expressive and explainable model that is easily trained on modest amounts of data. We apply this model to audio processing tasks, including classification and enhancement. Results show that our differentiable model surpasses black-box approaches in terms of computational efficiency and robustness, even with little training data. We also discuss other potential applications.

arxiv情報

著者 Ruolan Leslie Famularo,Dmitry N. Zotkin,Shihab A. Shamma,Ramani Duraiswami
発行日 2024-09-13 17:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, cs.SD, eess.AS パーマリンク