「eess.AS」カテゴリーアーカイブ

Ensemble knowledge distillation of self-supervised speech models

投稿日: 2023年2月27日作成者: jarxiv

要約蒸留された自己教師ありモデルは、近年、競争力のあるパフォーマンスと効率を示 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

投稿日: 2023年2月27日作成者: jarxiv

要約多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

ProsAudit, a prosodic benchmark for self-supervised speech models

投稿日: 2023年2月27日作成者: jarxiv

要約 ProsAudit は、自己教師あり学習 (SSL) 音声モデルの構造韻律 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models

投稿日: 2023年2月24日作成者: jarxiv

要約ニューラルトランスデューサは、その自然なストリーミング機能により、現在、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Metric-oriented Speech Enhancement using Diffusion Probabilistic Model

投稿日: 2023年2月24日作成者: jarxiv

要約ディープニューラルネットワークベースの音声強調技術は、ペアのトレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Evaluating Automatic Speech Recognition in an Incremental Setting

投稿日: 2023年2月24日作成者: jarxiv

要約自動音声認識の信頼性が向上したことで、日常的に使用されるようになりました。 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

ProsAudit, a prosodic benchmark for self-supervised speech models

投稿日: 2023年2月24日作成者: jarxiv

要約 ProsAudit は、自己教師あり学習 (SSL) 音声モデルの構造韻律 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Noise adaptation using Data Simulation

投稿日: 2023年2月24日作成者: jarxiv

要約ディープニューラルネットワークベースの音声強調アプローチは、教師あり … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition

投稿日: 2023年2月23日作成者: jarxiv

要約スピーチエンハンスメント (SE) は、ダウンストリームの自動音声認識 ( … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

UML: A Universal Monolingual Output Layer for Multilingual ASR

投稿日: 2023年2月23日作成者: jarxiv

要約ワードピースモデル (WPM) は、最先端のエンドツーエンド自動音 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Ensemble knowledge distillation of self-supervised speech models

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

ProsAudit, a prosodic benchmark for self-supervised speech models

Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models

Metric-oriented Speech Enhancement using Diffusion Probabilistic Model

Evaluating Automatic Speech Recognition in an Incremental Setting

ProsAudit, a prosodic benchmark for self-supervised speech models

Unsupervised Noise adaptation using Data Simulation

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition

UML: A Universal Monolingual Output Layer for Multilingual ASR

最近の投稿

最近のコメント

アーカイブ

カテゴリー