eess.AS」カテゴリーアーカイブ

How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics

要約 生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics はコメントを受け付けていません

Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning

要約 統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning はコメントを受け付けていません

SQuId: Measuring Speech Naturalness in Many Languages

要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SQuId: Measuring Speech Naturalness in Many Languages はコメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition はコメントを受け付けていません

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model はコメントを受け付けていません

Improved Cross-Lingual Transfer Learning For Automatic Speech Translation

要約 多言語の音声からテキストへの翻訳に関する研究が話題になっています。 複数の … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP | Improved Cross-Lingual Transfer Learning For Automatic Speech Translation はコメントを受け付けていません

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Iterative autoregression: a novel trick to improve your low-latency speech enhancement model はコメントを受け付けていません

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.SD, eess.AS | VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] はコメントを受け付けていません

UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures

要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures はコメントを受け付けていません

Text-to-Speech Pipeline for Swiss German — A comparison

要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Text-to-Speech Pipeline for Swiss German — A comparison はコメントを受け付けていません