要約
【タイトル】オーディオ信号処理のためのコンテンツ適応型フロントエンド
【要約】
– 以前はスペクトログラムやメルスペクトログラムを用いた、学習不可能なフロントエンドが使われていた。
– 最近は畳み込みアーキテクチャがASRや音響シーン理解のさまざまなアプリケーションをサポートしているが、トランスフォーマーベースのアーキテクチャも登場している。
– 本研究では、コンテンツ適応型の学習可能な時間周波数表現を計算する方法を提案している。
– オーディオ信号を畳み込みフィルタバンクに通し、内容に応じてオプティマムなフィルタバンクを通すことで、コンテンツ適応型な時間周波数表現を実現することができる。
– 本研究の実験を超えて、コンテンツ適応型な学習可能な時間周波数表現はさらに広い範囲で適用可能である可能性がある。
要約(オリジナル)
We propose a learnable content adaptive front end for audio signal processing. Before the modern advent of deep learning, we used fixed representation non-learnable front-ends like spectrogram or mel-spectrogram with/without neural architectures. With convolutional architectures supporting various applications such as ASR and acoustic scene understanding, a shift to a learnable front ends occurred in which both the type of basis functions and the weight were learned from scratch and optimized for the particular task of interest. With the shift to transformer-based architectures with no convolutional blocks present, a linear layer projects small waveform patches onto a small latent dimension before feeding them to a transformer architecture. In this work, we propose a way of computing a content-adaptive learnable time-frequency representation. We pass each audio signal through a bank of convolutional filters, each giving a fixed-dimensional vector. It is akin to learning a bank of finite impulse-response filterbanks and passing the input signal through the optimum filter bank depending on the content of the input signal. A content-adaptive learnable time-frequency representation may be more broadly applicable, beyond the experiments in this paper.
arxiv情報
著者 | Prateek Verma,Chris Chafe |
発行日 | 2023-04-29 14:54:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI