Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey

要約

深層学習 (DL) の最近の進歩により、自動音声認識 (ASR) にとって大きな課題が生じています。
ASR は、機密データを含む広範なトレーニング データセットに依存しており、大量の計算リソースとストレージ リソースを必要とします。
アダプティブ システムを有効にすると、動的環境での ASR パフォーマンスが向上します。
DL 手法では、トレーニング データとテスト データが同じドメインからのものであることを前提としていますが、常にそうであるとは限りません。
深層転移学習 (DTL)、連合学習 (FL)、強化学習 (RL) などの高度な DL 技術は、これらの問題に対処します。
DTL は小規模ながら関連するデータセットを使用した高性能モデルを可能にし、FL はデータセットを所有せずに機密データのトレーニングを可能にし、RL は動的環境での意思決定を最適化し、計算コストを削減します。
この調査は、DTL、FL、および RL ベースの ASR フレームワークの包括的なレビューを提供し、最新の開発に関する洞察を提供し、研究者や専門家が現在の課題を理解するのに役立つことを目的としています。
さらに、提案されている ASR フレームワークで頻繁に使用されている高度な DL 技術であるトランスフォーマーは、入力 ASR シーケンス内の広範な依存関係をキャプチャする能力についてこの調査で考慮されています。
この論文は、DTL、FL、RL、およびトランスフォーマーの背景を示すことから始まり、次に、よく設計された分類法を採用して最先端のアプローチの概要を説明します。
その後、各フレームワークの長所と短所を特定するために重要な分析が行われます。
さらに、既存の課題を強調するために比較研究が提示され、将来の研究機会への道が開かれます。

要約(オリジナル)

Recent advancements in deep learning (DL) have posed a significant challenge for automatic speech recognition (ASR). ASR relies on extensive training datasets, including confidential ones, and demands substantial computational and storage resources. Enabling adaptive systems improves ASR performance in dynamic environments. DL techniques assume training and testing data originate from the same domain, which is not always true. Advanced DL techniques like deep transfer learning (DTL), federated learning (FL), and reinforcement learning (RL) address these issues. DTL allows high-performance models using small yet related datasets, FL enables training on confidential data without dataset possession, and RL optimizes decision-making in dynamic environments, reducing computation costs. This survey offers a comprehensive review of DTL, FL, and RL-based ASR frameworks, aiming to provide insights into the latest developments and aid researchers and professionals in understanding the current challenges. Additionally, transformers, which are advanced DL techniques heavily used in proposed ASR frameworks, are considered in this survey for their ability to capture extensive dependencies in the input ASR sequence. The paper starts by presenting the background of DTL, FL, RL, and Transformers and then adopts a well-designed taxonomy to outline the state-of-the-art approaches. Subsequently, a critical analysis is conducted to identify the strengths and weaknesses of each framework. Additionally, a comparative study is presented to highlight the existing challenges, paving the way for future research opportunities.

arxiv情報

著者 Hamza Kheddar,Mustapha Hemis,Yassine Himeur
発行日 2024-04-18 17:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP パーマリンク