Deep neural network techniques for monaural speech enhancement: state of the art analysis

要約

ディープ ニューラル ネットワーク (DNN) 技術は、自然言語処理やコンピューター ビジョンなどの分野で普及しています。
彼らは、機械翻訳や画像生成などのタスクにおいて、これらの分野で大きな成功を収めています。
その成功により、これらのデータ駆動型技術はオーディオ分野にも適用されています。
より具体的には、DNN モデルは音声強調領域に適用され、モノラル音声強調におけるノイズ除去、残響除去、および複数話者の分離を実現します。
このペーパーでは、音声分離を実現するために使用されているいくつかの主要な DNN 技術をレビューします。
このレビューでは、特徴抽出からの音声強調のパイプライン全体、DNN ベースのツールが音声のグローバルとローカルの両方の特徴をどのようにモデル化しているか、およびモデル トレーニング (教師ありおよび教師なし) を検討しています。
また、音声強調プロセスを強化するための音声強調事前トレーニング済みモデルの使用についてもレビューします。
このレビューは、単一の話者から得られる音声の音声強調における DNN アプリケーションに関する主要な傾向をカバーすることを目的としています。

要約(オリジナル)

Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.

arxiv情報

著者 Peter Ochieng
発行日 2023-06-20 14:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク