要約
深い学習の最近の進歩は、特に複雑なスペクトログラムの分析と操作において、音声信号処理の分野に大きな影響を与えました。
この調査では、マグニチュード情報と位相情報の両方をカプセル化する複雑なスペクトログラムを処理するための深いニューラルネットワークを活用する最先端の手法の包括的な概要を提供します。
まず、複雑なスペクトログラムと、さまざまな音声処理タスクに関連する機能を導入することから始めます。
次に、複雑なデータを処理するように特別に設計され、複雑なスペクトログラム処理に適用されている複雑なニューラルネットワークの主要なコンポーネントとアーキテクチャを探ります。
次に、複雑なスペクトログラムを処理およびモデル化するためのニューラルネットワークをトレーニングするために調整されたさまざまなトレーニング戦略と損失関数について説明します。
この調査では、フェーズの検索、音声の強化、音声分離などの主要なアプリケーションをさらに調べます。このアプリケーションでは、複雑なスペクトログラムまたは派生した特徴表現を活用することにより、深い学習が大きな進歩を遂げました。
さらに、複雑なスペクトログラムと生成モデルの交点を調べます。
この調査の目的は、音声信号処理と複雑な価値のニューラルネットワークの分野における研究者と実践者にとって貴重なリソースとして機能することを目的としています。
要約(オリジナル)
Recent advancements in deep learning have significantly impacted the field of speech signal processing, particularly in the analysis and manipulation of complex spectrograms. This survey provides a comprehensive overview of the state-of-the-art techniques leveraging deep neural networks for processing complex spectrograms, which encapsulate both magnitude and phase information. We begin by introducing complex spectrograms and their associated features for various speech processing tasks. Next, we explore the key components and architectures of complex-valued neural networks, which are specifically designed to handle complex-valued data and have been applied for complex spectrogram processing. We then discuss various training strategies and loss functions tailored for training neural networks to process and model complex spectrograms. The survey further examines key applications, including phase retrieval, speech enhancement, and speech separation, where deep learning has achieved significant progress by leveraging complex spectrograms or their derived feature representations. Additionally, we examine the intersection of complex spectrograms with generative models. This survey aims to serve as a valuable resource for researchers and practitioners in the field of speech signal processing and complex-valued neural networks.
arxiv情報
著者 | Yuying Xie,Zheng-Hua Tan |
発行日 | 2025-05-13 15:53:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google