要約
トランスフォーマーは、さまざまな人工知能タスクにおいて大きな成功を収めながら進化してきました。
長期的な依存関係を捉える自己注意メカニズムの最近の普及のおかげで、音声処理および認識タスクにおいて驚異的な結果が生み出されました。
この論文では、音声モダリティを中心とした変換技術の包括的な調査を紹介します。
この調査の主な内容は、(1) 従来の ASR、エンドツーエンドのトランスフォーマー エコシステム、音声トランスフォーマーの背景、(2) 言語パラダイムによる音声の基本モデル、つまり、単言語、二言語、多言語、およびクロスリンガルです。
(3) 特定のトポロジカル言語主義の観点から見たデータセットと言語、音響特徴、アーキテクチャ、デコード、および評価メトリクス (4) エンドツーエンドの ASR システムを構築するための一般的な音声変換ツールキット。
最後に、コミュニティがこの分野でさらなる研究を行うために、未解決の課題と潜在的な研究の方向性についての議論を強調します。
要約(オリジナル)
Transformers have evolved with great success in various artificial intelligence tasks. Thanks to our recent prevalence of self-attention mechanisms, which capture long-term dependency, phenomenal outcomes in speech processing and recognition tasks have been produced. The paper presents a comprehensive survey of transformer techniques oriented in speech modality. The main contents of this survey include (1) background of traditional ASR, end-to-end transformer ecosystem, and speech transformers (2) foundational models in a speech via lingualism paradigm, i.e., monolingual, bilingual, multilingual, and cross-lingual (3) dataset and languages, acoustic features, architecture, decoding, and evaluation metric from a specific topological lingualism perspective (4) popular speech transformer toolkit for building end-to-end ASR systems. Finally, highlight the discussion of open challenges and potential research directions for the community to conduct further research in this domain.
arxiv情報
著者 | Shruti Singh,Muskaan Singh,Virender Kadyan |
発行日 | 2024-08-27 12:15:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google