「eess.AS」カテゴリーアーカイブ

MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition

投稿日: 2023年2月28日作成者: jarxiv

要約多言語音声認識は、異なる言語の言語表現を区別し、同時に音響処理を統合するこ … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Multimodal Speech Recognition for Language-Guided Embodied Agents

投稿日: 2023年2月28日作成者: jarxiv

要約言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

投稿日: 2023年2月28日作成者: jarxiv

要約転写された音声データ、テキストデータ、または両方の混合でトレーニングでき … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion

投稿日: 2023年2月28日作成者: jarxiv

要約以前の研究では、話し声変換 (VC) の確立された手法は、歌声変換 (SV … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

投稿日: 2023年2月28日作成者: jarxiv

要約この作業の目標は、顔の特徴から学習した話し方と声による、ゼロショットのテキ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Cross-modal Face- and Voice-style Transfer

投稿日: 2023年2月28日作成者: jarxiv

要約画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

投稿日: 2023年2月28日作成者: jarxiv

要約多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization

投稿日: 2023年2月27日作成者: jarxiv

要約話者ダイアライゼーションの従来の方法では、音声ファイルを短いセグメントにウ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Factual Consistency Oriented Speech Recognition

投稿日: 2023年2月27日作成者: jarxiv

要約この論文では、自動音声認識 (ASR) の新しい最適化フレームワークを提示 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Enhancing and Adversarial: Improve ASR with Speaker Labels

投稿日: 2023年2月27日作成者: jarxiv

要約 ASR は、ドメイン強化またはドメイン敵対トレーニングを使用したマルチタス … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition

Multimodal Speech Recognition for Language-Guided Embodied Agents

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion

Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

Cross-modal Face- and Voice-style Transfer

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization

Factual Consistency Oriented Speech Recognition

Enhancing and Adversarial: Improve ASR with Speaker Labels

最近の投稿

最近のコメント

アーカイブ

カテゴリー