eess.AS」カテゴリーアーカイブ

Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

要約 この作業の目標は、顔の特徴から学習した話し方と声による、ゼロショットのテキ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech はコメントを受け付けていません

Cross-modal Face- and Voice-style Transfer

要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Cross-modal Face- and Voice-style Transfer はコメントを受け付けていません

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

要約 多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Massively Multilingual ASR With Auxiliary CTC Objectives はコメントを受け付けていません

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization

要約 話者ダイアライゼーションの従来の方法では、音声ファイルを短いセグメントにウ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization はコメントを受け付けていません

Factual Consistency Oriented Speech Recognition

要約 この論文では、自動音声認識 (ASR) の新しい最適化フレームワークを提示 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Factual Consistency Oriented Speech Recognition はコメントを受け付けていません

Enhancing and Adversarial: Improve ASR with Speaker Labels

要約 ASR は、ドメイン強化またはドメイン敵対トレーニングを使用したマルチタス … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Enhancing and Adversarial: Improve ASR with Speaker Labels はコメントを受け付けていません

Ensemble knowledge distillation of self-supervised speech models

要約 蒸留された自己教師ありモデルは、近年、競争力のあるパフォーマンスと効率を示 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Ensemble knowledge distillation of self-supervised speech models はコメントを受け付けていません

Improving Massively Multilingual ASR With Auxiliary CTC Objectives

要約 多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Massively Multilingual ASR With Auxiliary CTC Objectives はコメントを受け付けていません

ProsAudit, a prosodic benchmark for self-supervised speech models

要約 ProsAudit は、自己教師あり学習 (SSL) 音声モデルの構造韻律 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ProsAudit, a prosodic benchmark for self-supervised speech models はコメントを受け付けていません

Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models

要約 ニューラル トランスデューサは、その自然なストリーミング機能により、現在、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models はコメントを受け付けていません